dafabet手机黄金版_dafabet黄金手机版

晶诚所至生命所能

Engage to Life Energy

上课笔记|通过SHARE-seq做单细胞的RNA表达与染色质可及性扫描

发布日期：2021-01-15浏览：次

《通过SHARE-seq做单细胞的RNA表达与染色质可及性扫描》上周在dafabet黄金手机版学院开播，没来得及观看直播的小伙伴可以扫描下方二维码观看回放！

回放.png

小编把陈巍老师的直播课程以图文形式整理出来啦，跟小编一起来看看吧！

文章概要

文章的题目，是《Chromatin Potential Identified by Shared Single-Cell Profiling of RNA and Chromatin》。这篇文章发表在Cell杂志2020年的11月刊上。

文章的题目，翻译成中文，意思是《通过共享的单细胞RNA和染色质鉴定染色质潜力》

文章的通讯作者，是Jason D. Buenrostro，他是哈佛大学干细胞与再生生物学系的助理教授

建库方法介绍

作者采用了一种不同于10X Genomics公司的单细胞建库测序方法，这种方法可以同时测到ATAC信息和RNA-seq信息，也就是单细胞的全基因组染色质可及性，和全转录组的信息。

作者把这种方法命名为simultaneous high-throughput ATAC and RNA expression with sequencing , 缩写叫“SHARE-seq”

我们说一下这个建库过程，它产生ATAC和RNA-seq片段的过程，和传统的ATAC建库、RNA-seq建库的原理是一样的。

先把细胞做透化，ATAC建库是依靠转座酶，

RNA-seq建库是依靠poly(T)引物来做针对poly(A)尾巴的逆转录。这个poly(T)的引物上还带着生物素，这是为了方便后面对cDNA链的富集

这是SHARE-seq建库的核心步骤，给DNA片段加上barcode标签步骤，这个步骤是与10x genomics公司的方法有差别的。

这个办法是，先把细胞分散到96孔板中，96孔板的每个孔都放上了不同barcode序列的接头，这些接头被连到DNA片段上。

然后，把这些细胞混合到一起。

接着，把这些细胞再次分散到96孔板中，再加上第二段barcode序列。这样DNA片段和cDNA片段上就连上了第二段barcode序列。

把这个过程重复三遍，结果就是原来的DNA片段和cDNA片段被连上了3段barcode序列。而且，来自一个细胞的DNA片段与cDNA片段共享同样的三段barcode序列

每段barcode序列是有96种变化，那重复三次之后，变化的种类就是96的三次方，也就是有了将88万4千种变化。

那有了88万种变化，就可以较好地区分每个DNA片段或cDNA片段最初是来源于哪个细胞了。

接下来，再把得到DNA片段和cDNA片段的混合物，利用原来poly(T)上连的生物素，用微珠把cDNA和DNA分离开来。

接着，把DNA建成ATAC的测序文库，

把cDNA建成RNA的文库，再进行深度测序。

实验结果分析

实验内容的第一部分，验证SHARE-Seq方法的可靠性

单细胞测序的第一个关注点，是双细胞的数量越少越好。所谓双细胞现象，就是两个细胞被标了同一个barcode，无法区分彼此的这种现象，这种现象会降低数据真实性、有效性，是单细胞测序中要尽量避免的。

为了验证SHARE-seq的双细胞情况，作者是用人类和小鼠的两个细胞株的细胞，混合在一起做SHARE-seq的实验，来看SHARE-seq的双细胞情况。因为人类细胞和小鼠细胞在基因序列上有差异，测序后可以从序列上区分出是否有人类细胞和小鼠细胞共用一个barcode序列，这样来倒推有多少双细胞的情况发生。

作者的这个实验，希望是看到2000个细胞，实验的实际结果是得到了903个人类细胞，和1341个小鼠细胞，在这总共2000多个细胞中，看到了1个人鼠混合的双细胞，人鼠混双细胞在全部细胞中的比率是0.04%，这与预期的0.052%的双细胞比率是一致的。

我们来看这三张图，B图是ATAC中的双细胞，C图是RNA-seq中的双细胞，D图是reads比对到人类基因组上的结果。图中红圈标出的那个点，就是那个混杂了人和鼠两种序列双细胞的那个点。

约2000个细胞中检出一个双细胞，这个较低的双细胞比率，说明SHARE-seq的Barcode能够较好地避免双细胞现象。

这是人源的GM12878细胞，测序后得到的reads在基因组上的分布。

最上面的蓝色的这些线是RNA-seq的reads分布情况，

中间红色的这些线是ATAC-seq的reads的分布情况

下面的则是300个细胞中得到的ATAC-seq的reads分布的点

这是作者把SHARE-seq，与之前别人做的同时测单细胞的ATAC与RNA的方法相比的小提琴图。

这里，This study就是SHARE-seq方法的结果，另外的三种方法是别的学者用的方法。

因为被测序的样本是细胞系，也就是说样本中的细胞有比较高的一致性，那么测序得到的结果，从小提琴图来说，SHARE-seq的小提琴样子是比较紧凑的，别的三种方法的小提琴样子是相对松散的，

所以，作者认为SHARE-seq的结果是好于其它三种方法的。

这是两个重复样本的ATAC-seq结果对比，和RNA-seq的结果对比，

ATAC的相关系数是0.98，RNA-seq的相关系数是0.99。

也就是说SHARE-seq的实验结果重复性是很好的。

实验内容的第二部分，SHARE-Seq生成高质量的跨多种细胞系和组织的染色质可及性谱和表达谱

作者挑了小鼠的毛囊、大脑、肺做分析。

其中，作者挑选毛囊作为研究样本，是因为作者的这项研究目标就是要研究细胞在不同状态下，染色质可及性的变化，和基因表达的变化。而毛囊是哺乳类动物中生长最快的器管，毛囊中的细胞反复经历高速的增殖、再休眠的循环过程。所以作者挑选毛囊作为研究对象之一。

这是SHARE-seq得到的数据集，与其它方法单细胞测序得到的数据集的小提琴对比图。结果是相近的。

作者以NFKB1基因为代表，来看该基因上ATAC-seq的reads数，与该基因的RNA-seq表达情况。

最上面一行是展开的NFKB1基因，和落在这个基因上的RNA reads数。

第二行是落在这个基因上的ATAC reads数，

第三个，这个大方块里，是把ATAC的reads还原到单个的细胞的情况。

最右的这两个图，是把单细胞按它在NFKB1这个基因上的ATAC reads从多往少的序列，从上往下排。我们可以看到ATAC的数量多的细胞，表达的这个基因的RNA也多。

Spearman相关性分析，得到 ρ= 0.31， P小于10的负6次方，也就是说ATAC-seq的reads数，与RNA-seq的reads数，显著正相关

实验内容的第三部分，从SHARE-Seq染色质和RNA定义的细胞类型之间的广泛一致性

这是作者用SHARE-seq对小鼠皮肤进行分析，得到的34744个细胞的RNA表达谱的UMAP图。

经过聚类分析，得到22个细胞类型

这其中，几个重要的细胞种类被识别出来，如：

转运扩增细胞，也就是transit-amplifying cells，缩写是TAC

内根鞘，inner root sheath，缩写是IRS

外根鞘，outer root sheath，缩写是ORS

毛干细胞，hair shaft cells

这是同一个实验中，得到的ATAC的UMAP图，

前面RNA-seq分出来细胞簇，

如转运扩增细胞TAC、

内根鞘细胞IRS、

外根鞘细胞ORS、

毛杆细胞hair shaft，这里也同样能分出来。

RNA得到的细胞分类，与ATAC得到的细胞分类，相互之间有很好的对应性

这里，横轴上排列的是ATAC得到的细胞分类，纵轴上排列的RNA得到的细胞分类，格子的颜色越深，则一致性越好。

我们在这里看到了几乎是斜穿对角线的深色格子。这明显地说明了分别用RNA和ATAC得到的细胞分类，相互之间有很好的对应性。

这里，左图是各个细胞簇的标志性基因RNA表达的关联图，

右图是各个细胞簇与ATAC的代表性转录因子motif的关联图

这是各个细胞簇，与标志性的可及性peak的关联图

这是各个细胞簇之间，RNA表达的相似性，和ATAC的相似性

其中，第1个到第4个簇显示出是毛囊的永久部分，第5个到第9个簇显示是毛囊的再生部分。

这是皮肤中，转录因子分数与motif基因表达的关系.

横座标是转录因子与基因的相关性，纵座标是motif的变化

点的颜色表示显著程度，蓝色是显著性弱，棕色是显著性强。

两个全局性的激活因子，Dlx3和Sox9,有显著的变化，两个抑制因子，Zeb1和Sox5也有显著变化

这样，SHARE-seq就提供了多维度地观察细胞的特征，包括被细胞种类决定的转录因子所调控的染色质可及性。

细胞通过RNA的数据进行聚类得到的结果，与ATAC聚类得到的结果，并不完全一致。

比如这个被RNA的数据进聚类，得到的这群细胞，是很活跃地增殖的基底细胞，但是这一群细胞在ATAC的分析结果中，是分散开来的，并没有被识别成一个相互粘在一起的细胞簇。

实验内容的第四部分，配对测量结果将染色质峰和顺式目标基因相关联

这张图，是配对地测量染色质可及的peak和顺式目标基因相关性的框架。

通过SHARE-seq，得到了许多单细胞的染色质可及性的峰，同时也得到了许多个单细胞的每个基因的表达量。

然后，把特定基因的表达量，与染色质可及峰对应起来，通过cutoff对偏差进行修正后，进行分析

这是用GM12878细胞系为材料，分析了了2万3千个细胞

以基因中Dlx3超级增强子为例子，来举例说明基因表达与顺式因子的关系。

图的横轴中间是Dlx3基因的转录起始位置，两侧是上下游各500kb，

蓝色抛物线的高低，指示了周围顺式因子与Dlx3表达的关系，抛物线越高，是关系越紧密。

灰色竖线，是一个一个的ATAC的峰，蓝色竖线是与Dlx3有紧密关系的ATAC峰。

右上角的这个图，是把这一段的ATAC峰分解到各个细胞簇，

紫色的这条轴，H3K4me1，是H3这个组蛋白在第4个赖氨酸上被甲基化，这个甲基化一般被认为是基因活化的一个标志

黄颜色的这条轴，H3K27ac，是H3这个组蛋白在第27个赖氨酸上被乙酰化，这个乙酰化一般被认为是基因活化的一个标志。

这是每个关联关系，也就是association，连接到的基因数量的图。横轴是一个关联关系，它连接到的基因数量，纵轴是处于这种情况的关联数。

可以看到，大多数的关联关系，只与一个基因相相连，只有少量的关联关系是与多个基因相连的。

与4个或4个以上的基因相连的关联关系，只占所有关联关系中的0.14%。

实验内容的第五部分，DORC识别从头确定关键基因的基因

作者定义了DORCs，DORCs是domain of regulatory chromatin的首字母缩写，

中文意思是：染色质调节域，

作者给DORCs下的定义是：有大于10个明显的peak与基因关联的区域。

看这个图，图中红色框中框出来的这个区域，就是被标定出来的许多个DORCs。

文章中一共是确定了857个DORCs区域。

这是各个细胞簇中DORCs的分布。

有趣的是，DORC区域中的基因，并不一定会高表达。

比如，左图中，棕色部分是Dlx3这个区域可及性高的细胞，右图中，棕色部分是高表达Dlx3基因的细胞。

我们可以看到，箭头所指的位置，可及性高，但表达却不高。

因此，DORC提供了一种无监督的，易于使用的方法，可以在单细胞分辨率下同时鉴定关键谱系决定基因及其调控区，而无需事先知道细胞类型识别结果。

实验内容的第六部分，增强子的谱系启动优先于DORC中的基因表达

转运扩增细胞，也就是TAC细胞，是成年哺乳动物中增殖最快的细胞。

TAC细胞迅速分裂，产生出多种下游分化细胞类型，

这张图是从TAC细胞到IRS、毛杆表皮、和髓质的UMAP图。

DORC区域通常在相关基因表达之前，就已经开放可及，并且先于细胞分化的谱系方向确定之前就已经开放可及。

以Wnt3这个基因为例，DORC先变得可接触，然后在分化到毛杆后期，RNA才被检测到，这两者之间存在一定的时间差。

后面，还会再提到这一段DORC和RNA的时间差

作者计算发现，92%的情况下，DORC减掉RNA的时间差是正值，也就是92%的情况下，DORC是先于RNA的

这是针对Wnt3这个基因做的伪时间图。

图中列出了早期增强子、二级增强子、启动子、内含子、外显子的依次先后达到峰值的顺序，

也就对应着增强子激活启动子，然后有了新生成的RNA，RNA经过剪接形成成熟的mRNA的过程。

这是Wnt3、Tubb6、Cuticle/cortex module的伪时间图，都是DORC先升高，接下来intron内含子升高，最后外显子升高

作者进一步研究，假设引起染色质可及性的转录因子，与激活增强子的转录因子是不同的转录因子，看有什么发现。

图中横轴是DORC与RNA的相关性，纵轴是转录因子主题富集程度。

结果，图中Lef1和Hoxc13这两个基因突显出来。

再从伪时间图上看，发现Lef1和Hoxc13都是先RNA转录增多，后motify启动。这与Wnt3是先DORC启动，再RNA转录启动，是相反的。

把所有的配对的DORC-RNA相关性与TF主题富集做分析，图中的虚线是显著性界线。

可以看到Lef1和Hoxc13在右上角很突出

从这张每个DORC的驱动TF网络图中，可以看到Lef1和Hoxc13居于核心地位

这是Lef1、Hoxc13、Wnt3在毛杆细胞系中的分步激活图

实验内容的第七部分，染色质可及性启动与多谱系命运偏向和组蛋白修饰同时发生

进一步寻找在分化过程中，可以早期识别细胞谱系的标志。

这是对细胞谱系决定之前表皮和髓质细胞中Notch+与Notch-细胞表达差异的展示

Notch1的DORC的可访问性，将线型启动区域划分为3个子区域

在Notch1+和Notch1-之间, 观察到明显的染色质差异

这进一步证明，染色质可及性的全基因组变化反映了谱系引发的细胞状态，并突出了Notch1和Tchh特异性染色质的变化引发了基因表达的激活

作者发现Lef1和Hoxc13基因位点位于凸出和发芽的端粒HFSC中，然后在HFSC分化为TAC时变得活跃

实验内容的第八部分，染色质潜力描述了分化过程中染色质至基因的表达动力学

染色质潜力，定义为与细胞当前的染色质状态最兼容的未来RNA状态细胞的差距

“染色质潜力”具体的计算：一个细胞，也就是细胞X

计算细胞X的DORC调节的基因，在RNA空间中，找到10细胞，这10个细胞的RNA表达最接近的X细胞的DORC调节的基因，这10个细胞就是细胞Y

再在染色体的低维空间中，计算从X到Y的方向和距离，就是“染色质潜力”，也就是图中的这个箭头

这个箭头长度用来衡量染色质状态与“未来” RNA状态有多不同

这是在UMAP图上展示出来的整体的“染色质潜力”图。

截取其中的一小段，

可以看到这些箭头，大体上是指向右边的

这是一个毛囊的垂直的剖面图

我们可以看到，TAC细胞的分化轨迹，从最接近毛囊中央，到毛囊的外侧，是分化成不同的细胞的。

最接近中央的TAC细胞分化成毛杆细胞，主导的基因是Lef1和Lhx2，再进一步的分化又受到Notch1的控制

中间层分化成内根鞘，主导的基因是ld3和Gata3

外层分化成外根鞘

总结

上一条：在线直播|单细胞测序技术网络研讨会诚邀您的参与
下一条：盘点dafabet黄金手机版学院2020年备受关注的精彩内容~

网站地图 | 法律声明 | 联系我们

地址：上海市松江区中心路1158号5幢5楼

电话：400-9200-612 传真：+86 21 6090 1207/1208-8154

dafabet手机黄金版技术（上海）有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号

友情链接：