哺乳动物单细胞染色质可接近性图谱的构建
本论文通过ATAC-seq升级版—sciATAC-seq来进行研究。采用sciATAC-seq的测序方法对成年雄性小鼠中13个组织的单细胞染色质可接近性进行分析。确定85种不同的模式和400,000种潜在调控元件的目录;为深入了解哺乳动物细胞类型染色质调控环境及人类全基因组关联研究提供了一定的资源。
亮点
-
通过sci-ATAC-seq描绘成体小鼠组织的调节情况
-
在13种不同组织中表征85种不同的染色质图谱模式
-
不同哺乳动物细胞类型中关键调节因子和调节序列的注释
研究思路
研究结果
1. 用相似的染色质景观识别细胞簇
从8周龄雄性C57BL/6J小鼠的13个不同组织中分离出细胞核(图1A),通过sci-ATAC-seq优化方案分批处理细胞核(图1B)。质控部分,每个组织的细胞总数范围从小脑2278个到肺9996个(图1C)。确定每个组织每个细胞可接受的最小独特读取深度,高质量ATAC-seq文库的标志是带状插入片段分布,其中单个细胞中由核小体保护产生峰(图1D,左图)。
图1.从小鼠单细胞生成染色质可接近性图谱的工作流程
为识别细胞类型,首先生成436206个可接近性位点(图1D),对这些位点进行评分(图1E)。质控之后,将81173个细胞进行t-SNE展示(图2A),并使用Louvain聚类鉴定了30个主要细胞簇(图2B)。结果显示:一些簇绝大多数来自一个组织(如97%的簇7来自心脏,可能是心肌细胞);来自一些组织的大多数细胞仅出现在一个簇中(如53%的心脏的细胞在簇7中)(图2A)。30个主要群集具有明显的异质性,采用迭代策略对每个主要群集中细胞进行重复t-SNE和Louvain聚类以识别子群集(图2C),该过程产生了85种不同的染色质可接近性模式。
2. 群集细胞类型分配
根据在整个组织水平(如肾脏)或广泛细胞类型(如所有神经元)水平的细胞亚群,集中考虑进行适当调整。结果,将细胞类型分配到69/85个簇;根据位点模式,7个似乎是由于碰撞导致的细胞类型的混合,而9个仍未知(图2D);每个聚类中差异可接近性的双聚类热图,说明了85个聚类之间的相似性和不相似性的广泛模式(图2D)。
图2. 不同细胞类型的单细胞染色质可接近性聚类识别
3. 单细胞染色质可接近性分析与基因表达
构建哺乳动物细胞类型的综合图谱,将单细胞染色质可接近性图谱与成年小鼠的单细胞转录图谱比较,发现了可变一致性。接下来检查细胞类型注释的相似性,使用Spearman相关性将每个sci-ATAC-seq簇的平均标准化活动评分谱与两个scRNA-seq图谱匹配组织的平均标准化表达谱比较,观察到数据集中具有最高相关性的细胞类型在大多数情况下被一致地注释(图3A、3B)。对scRNA-seq表达和sci-ATAC-seq活性评分的组合矩阵进行PCA后,使用基于KNN分类将scRNAseq中最常见的标记转移到sci-ATAC-seq细胞。使用两个scRNA-seq图谱的数据和标签,发现它们的细胞类型分配与许多重叠组织的标签基本一致(图3C-3E),表明相对简单的方法有助于联合分析组织的表达和染色质可接近性数据。
图3.基于KNN的方法比较sci-ATAC-Seq和scRNA Seq Atlases
4. 复杂序列grammar是细胞类型染色质可接近性分析的基础
TF调节grammar是哺乳动物细胞类型染色质可接近性的基础,使用CNN来预测85个簇中位点的可接近性(图4A)。为评估哪些filters与单个细胞类型最相关(图4B),为每个filters开发一个总分量化单个细胞中观察到的可接近性位点的代表程度。结果显示,群集12.5(具有最少DA站点的群集)将与GATA基序匹配的filters具有高度影响力,与Gata3在T细胞发育中的作用一致;与MEF2基序最佳匹配的filters不仅对心肌细胞中可接近的位点具有很大影响,而且对神经元和造血祖细胞也具有很大影响;肝细胞、肠细胞和肾上皮细胞的分类准确性受到与PPAR基序匹配的filters强烈影响(图4C)。
图4.细胞类型特异性染色质可接近性与复杂序列grammar相关性
5. 跨组织分布的细胞类型专业化
研究全身的细胞类型是否表现出组织特异性染色质结构。首先通过内皮细胞来研究,将标记为内皮细胞分组并重新分析,产生9个不同的簇,每个簇显示组织特异性(图5A、5B)。发现Flt4(图5C)和EphB4(静脉内皮标记物)可接近性的基因活性评分在一组簇中升高,而Hech和Notch信号传导下游的其他基因的基因活性评分在指定动脉/静脉细胞命运中起关键作用,在剩余的簇中升高(图5C);这些模式表明这些组可分别对应于静脉和动脉内皮。虽然明确的注释需要进一步的工作,但这些数据表明内皮细胞在组织内和组织间具有染色质可接近性的特殊模式。组织专业的第二个例子-单核细胞、巨噬细胞和树突细胞(DC)。对具有相应标记的细胞进行分组和重新分析,产生六个不同的簇(图5D和5E);其中一些可通过标记基因容易地识别(图5F)。这些数据表明单核细胞,巨噬细胞和DC采用几种定型染色质谱中的一种。
6. 染色质可接近性的异质性反映空间结构
为研究神经元细胞的染色质可接近性的异质性,重新分析前额皮质的细胞(PFC)(图5G)。结果显示,兴奋性神经元和中间神经元明显地与神经胶质细胞、小胶质细胞和内皮细胞分离(图5H)。在兴奋性神经元内仍存在显著的异质性,可能反映了PFC不同层中的差异表达和甲基化(图5G)。例如,与Cux2相关的调控元件(仅在II-IV层中高度表达)和Foxp2(在VI层中高度表达)可在兴奋性神经元簇的“顶部”和“底部”的细胞中获得(图5I)。这些观察结果与细胞类型中的染色质可接近性一致,所述细胞类型相对于解剖学坐标而变化。
图5.染色质结构反映细胞专业化和组织空间结构
7.造血过程中染色质可接近性动态变化
研究成人造血部位骨髓中的染色质可接近性。t-SNE显示几个亚群(图6A),但一些簇在分化细胞中以互斥方式表达的基因可接近性不能完全分离细胞,因此应用Monocle 2探索血液发育的阶段(图6B)。结果在分支F4和F2上更容易获得对红细胞或淋巴样细胞特异的增强子;在F5和两个小分支(F1和F3)上更容易获得骨髓特异性增强子。谱系特异性标记(Cd3e、Cd19、Hbb-b1和Cd11b / Itgam)的基因活性评分在根部处于或接近零,但是在五个分支中的一个上急剧上升(图6C);Cd34(多能造血祖细胞的标记物)在根部具有高活性,但在除F1之外的所有分支的末端都降低至接近零。这些观察结果与将造血祖细胞指定为B细胞(F2)、T细胞(F3)、红细胞(F4)和单核细胞(F5)的观点大致一致。
图6.造血过程中的染色质可接近性动态变化
8.常见人类性状和疾病中的细胞类型
通过GWAS测序,对常见人类性状和疾病的遗传力的主要部分分配到远端调节元件,其通常是细胞类型特异性的。为了解是否可以利用数据(小鼠组织上)了解复杂人类性状遗传变异的细胞类型特异性影响,使用LDSC量化85个簇中DA peaks的人类性状的遗传力富集。计算85个簇中的每一个获得的DA峰中32种表型的遗传力富集(图7A),观察到白细胞的自身免疫性疾病如狼疮遗传性强烈增加,富集发生在神经元细胞类型(图7B,下图),大块组织富集的峰不明显(图7B,上图),证明了由单细胞染色质可接近性数据定义的细胞类型的价值。如LDL胆固醇、HDL胆固醇和甘油三酯的遗传力最强的富集在肝细胞(图7B,底部);免疫球蛋白A(IgA)缺乏的遗传力的最强富集在T细胞簇(图7C)。虽然多个神经元簇具有双相障碍的遗传性富集但最强的富集涉及兴奋性神经元(图7D);阿尔茨海默病的遗传性并未在任何一类神经元中富集,但其最强的富集在小胶质细胞簇中(图7E)。
图7.小鼠染色质图谱与可遗传的人类性状相关性
结论
应用组合索引方法sci-atac-seq分析13个成年小鼠组织的10万个单细胞的基因组范围内染色质的可接近性,确定了85个不同的染色质可接近性模式,其中大多数可分为细胞类型以及40万个差异可接近性元件。使用这些数据将调节元件与其靶基因联系,定义指定每种细胞类型的转录因子grammar,并发现体内细胞类型可接近性异质性的相关性。通过将小鼠染色质可接近性与人类全基因组相关联,鉴定了数百种复杂性状的遗传信号的细胞类型特异性富集。这些数据明确了单细胞水平上常见哺乳动物细胞类型的基因组景观。
参考文献
Darren A. Cusanovich, Andrew J. Hill, Delasa Aghamirzaie,et al. A Single-Cell Atlas of In Vivo Mammalian Chromatin Accessibility.Cell(2018).
dafabet手机黄金版将引进10x Genomics推出的单细胞表观遗传新产品ATAC-seq试剂盒,期望能助力表观基因组学研究,为科研工作者提供便利。届时,欢迎各位新老顾客前来咨询!!