Engage to Life Energy
《通过SHARE-seq做单细胞的RNA表达与染色质可及性扫描》上周在dafabet黄金手机版学院开播,没来得及观看直播的小伙伴可以扫描下方二维码观看回放!
小编把陈巍老师的直播课程以图文形式整理出来啦,跟小编一起来看看吧!
文章概要
文章的题目,是《Chromatin Potential Identified by Shared Single-Cell Profiling of RNA and Chromatin》。这篇文章发表在Cell杂志2020年的11月刊上。
文章的题目,翻译成中文,意思是《通过共享的单细胞RNA和染色质鉴定染色质潜力》
文章的通讯作者,是Jason D. Buenrostro,他是哈佛大学干细胞与再生生物学系的助理教授
建库方法介绍
作者采用了一种不同于10X Genomics公司的单细胞建库测序方法,这种方法可以同时测到ATAC信息和RNA-seq信息,也就是单细胞的全基因组染色质可及性,和全转录组的信息。
作者把这种方法命名为simultaneous high-throughput ATAC and RNA expression with sequencing , 缩写叫“SHARE-seq”
我们说一下这个建库过程,它产生ATAC和RNA-seq片段的过程,和传统的ATAC建库、RNA-seq建库的原理是一样的。
先把细胞做透化,ATAC建库是依靠转座酶,
RNA-seq建库是依靠poly(T)引物来做针对poly(A)尾巴的逆转录。这个poly(T)的引物上还带着生物素,这是为了方便后面对cDNA链的富集
这是SHARE-seq建库的核心步骤,给DNA片段加上barcode标签步骤,这个步骤是与10x genomics公司的方法有差别的。
这个办法是,先把细胞分散到96孔板中,96孔板的每个孔都放上了不同barcode序列的接头,这些接头被连到DNA片段上。
然后,把这些细胞混合到一起。
接着,把这些细胞再次分散到96孔板中,再加上第二段barcode序列。这样DNA片段和cDNA片段上就连上了第二段barcode序列。
把这个过程重复三遍,结果就是原来的DNA片段和cDNA片段被连上了3段barcode序列。而且,来自一个细胞的DNA片段与cDNA片段共享同样的三段barcode序列
每段barcode序列是有96种变化,那重复三次之后,变化的种类就是96的三次方,也就是有了将88万4千种变化。
那有了88万种变化,就可以较好地区分每个DNA片段或cDNA片段最初是来源于哪个细胞了。
接下来,再把得到DNA片段和cDNA片段的混合物,利用原来poly(T)上连的生物素,用微珠把cDNA和DNA分离开来。
接着,把DNA建成ATAC的测序文库,
把cDNA建成RNA的文库,再进行深度测序。
实验结果分析
实验内容的第一部分,验证SHARE-Seq方法的可靠性
单细胞测序的第一个关注点,是双细胞的数量越少越好。所谓双细胞现象,就是两个细胞被标了同一个barcode,无法区分彼此的这种现象,这种现象会降低数据真实性、有效性,是单细胞测序中要尽量避免的。
为了验证SHARE-seq的双细胞情况,作者是用人类和小鼠的两个细胞株的细胞,混合在一起做SHARE-seq的实验,来看SHARE-seq的双细胞情况。因为人类细胞和小鼠细胞在基因序列上有差异,测序后可以从序列上区分出是否有人类细胞和小鼠细胞共用一个barcode序列,这样来倒推有多少双细胞的情况发生。
作者的这个实验,希望是看到2000个细胞,实验的实际结果是得到了903个人类细胞,和1341个小鼠细胞,在这总共2000多个细胞中,看到了1个人鼠混合的双细胞,人鼠混双细胞在全部细胞中的比率是0.04%,这与预期的0.052%的双细胞比率是一致的。
我们来看这三张图,B图是ATAC中的双细胞,C图是RNA-seq中的双细胞,D图是reads比对到人类基因组上的结果。图中红圈标出的那个点,就是那个混杂了人和鼠两种序列双细胞的那个点。
约2000个细胞中检出一个双细胞,这个较低的双细胞比率,说明SHARE-seq的Barcode能够较好地避免双细胞现象。
这是人源的GM12878细胞,测序后得到的reads在基因组上的分布。
最上面的蓝色的这些线是RNA-seq的reads分布情况,
中间红色的这些线是ATAC-seq的reads的分布情况
下面的则是300个细胞中得到的ATAC-seq的reads分布的点
这是作者把SHARE-seq,与之前别人做的同时测单细胞的ATAC与RNA的方法相比的小提琴图。
这里,This study就是SHARE-seq方法的结果,另外的三种方法是别的学者用的方法。
因为被测序的样本是细胞系,也就是说样本中的细胞有比较高的一致性,那么测序得到的结果,从小提琴图来说,SHARE-seq的小提琴样子是比较紧凑的,别的三种方法的小提琴样子是相对松散的,
所以,作者认为SHARE-seq的结果是好于其它三种方法的。
这是两个重复样本的ATAC-seq结果对比,和RNA-seq的结果对比,
ATAC的相关系数是0.98,RNA-seq的相关系数是0.99。
也就是说SHARE-seq的实验结果重复性是很好的。
实验内容的第二部分,SHARE-Seq生成高质量的跨多种细胞系和组织的染色质可及性谱和表达谱
作者挑了小鼠的毛囊、大脑、肺做分析。
其中,作者挑选毛囊作为研究样本,是因为作者的这项研究目标就是要研究细胞在不同状态下,染色质可及性的变化,和基因表达的变化。而毛囊是哺乳类动物中生长最快的器管,毛囊中的细胞反复经历高速的增殖、再休眠的循环过程。所以作者挑选毛囊作为研究对象之一。
这是SHARE-seq得到的数据集,与其它方法单细胞测序得到的数据集的小提琴对比图。结果是相近的。
作者以NFKB1基因为代表,来看该基因上ATAC-seq的reads数,与该基因的RNA-seq表达情况。
最上面一行是展开的NFKB1基因,和落在这个基因上的RNA reads数。
第二行是落在这个基因上的ATAC reads数,
第三个,这个大方块里,是把ATAC的reads还原到单个的细胞的情况。
最右的这两个图,是把单细胞按它在NFKB1这个基因上的ATAC reads从多往少的序列,从上往下排。我们可以看到ATAC的数量多的细胞,表达的这个基因的RNA也多。
Spearman相关性分析,得到 ρ= 0.31, P小于10的负6次方,也就是说ATAC-seq的reads数,与RNA-seq的reads数,显著正相关
实验内容的第三部分,从SHARE-Seq染色质和RNA定义的细胞类型之间的广泛一致性
这是作者用SHARE-seq对小鼠皮肤进行分析,得到的34744个细胞的RNA表达谱的UMAP图。
经过聚类分析,得到22个细胞类型
这其中,几个重要的细胞种类被识别出来,如:
转运扩增细胞,也就是transit-amplifying cells,缩写是TAC
内根鞘,inner root sheath,缩写是IRS
外根鞘,outer root sheath,缩写是ORS
毛干细胞,hair shaft cells
这是同一个实验中,得到的ATAC的UMAP图,
前面RNA-seq分出来细胞簇,
如转运扩增细胞TAC、
内根鞘细胞IRS、
外根鞘细胞ORS、
毛杆细胞hair shaft,这里也同样能分出来。
RNA得到的细胞分类,与ATAC得到的细胞分类,相互之间有很好的对应性
这里,横轴上排列的是ATAC得到的细胞分类,纵轴上排列的RNA得到的细胞分类,格子的颜色越深,则一致性越好。
我们在这里看到了几乎是斜穿对角线的深色格子。这明显地说明了分别用RNA和ATAC得到的细胞分类,相互之间有很好的对应性。
这里,左图是各个细胞簇的标志性基因RNA表达的关联图,
右图是各个细胞簇与ATAC的代表性转录因子motif的关联图
这是各个细胞簇,与标志性的可及性peak的关联图
这是各个细胞簇之间,RNA表达的相似性,和ATAC的相似性
其中,第1个到第4个簇显示出是毛囊的永久部分,第5个到第9个簇显示是毛囊的再生部分。
这是皮肤中,转录因子分数与motif基因表达的关系.
横座标是转录因子与基因的相关性,纵座标是motif的变化
点的颜色表示显著程度,蓝色是显著性弱,棕色是显著性强。
两个全局性的激活因子,Dlx3和Sox9,有显著的变化,两个抑制因子,Zeb1和Sox5也有显著变化
这样,SHARE-seq就提供了多维度地观察细胞的特征,包括被细胞种类决定的转录因子所调控的染色质可及性。
细胞通过RNA的数据进行聚类得到的结果,与ATAC聚类得到的结果,并不完全一致。
比如这个被RNA的数据进聚类,得到的这群细胞,是很活跃地增殖的基底细胞,但是这一群细胞在ATAC的分析结果中,是分散开来的,并没有被识别成一个相互粘在一起的细胞簇。
实验内容的第四部分,配对测量结果将染色质峰和顺式目标基因相关联
这张图,是配对地测量染色质可及的peak和顺式目标基因相关性的框架。
通过SHARE-seq,得到了许多单细胞的染色质可及性的峰,同时也得到了许多个单细胞的每个基因的表达量。
然后,把特定基因的表达量,与染色质可及峰对应起来,通过cutoff对偏差进行修正后,进行分析
这是用GM12878细胞系为材料,分析了了2万3千个细胞
以基因中Dlx3超级增强子为例子,来举例说明基因表达与顺式因子的关系。
图的横轴中间是Dlx3基因的转录起始位置,两侧是上下游各500kb,
蓝色抛物线的高低,指示了周围顺式因子与Dlx3表达的关系,抛物线越高,是关系越紧密。
灰色竖线,是一个一个的ATAC的峰,蓝色竖线是与Dlx3有紧密关系的ATAC峰。
右上角的这个图,是把这一段的ATAC峰分解到各个细胞簇,
紫色的这条轴,H3K4me1,是H3这个组蛋白在第4个赖氨酸上被甲基化,这个甲基化一般被认为是基因活化的一个标志
黄颜色的这条轴,H3K27ac,是H3这个组蛋白在第27个赖氨酸上被乙酰化,这个乙酰化一般被认为是基因活化的一个标志。
这是每个关联关系,也就是association,连接到的基因数量的图。横轴是一个关联关系,它连接到的基因数量,纵轴是处于这种情况的关联数。
可以看到,大多数的关联关系,只与一个基因相相连,只有少量的关联关系是与多个基因相连的。
与4个或4个以上的基因相连的关联关系,只占所有关联关系中的0.14%。
实验内容的第五部分,DORC识别从头确定关键基因的基因
作者定义了DORCs,DORCs是domain of regulatory chromatin的首字母缩写,
中文意思是:染色质调节域,
作者给DORCs下的定义是:有大于10个明显的peak与基因关联的区域。
看这个图,图中红色框中框出来的这个区域,就是被标定出来的许多个DORCs。
文章中一共是确定了857个DORCs区域。
这是各个细胞簇中DORCs的分布。
有趣的是,DORC区域中的基因,并不一定会高表达。
比如,左图中,棕色部分是Dlx3这个区域可及性高的细胞,右图中,棕色部分是高表达Dlx3基因的细胞。
我们可以看到,箭头所指的位置,可及性高,但表达却不高。
因此,DORC提供了一种无监督的,易于使用的方法,可以在单细胞分辨率下同时鉴定关键谱系决定基因及其调控区,而无需事先知道细胞类型识别结果。
实验内容的第六部分,增强子的谱系启动优先于DORC中的基因表达
转运扩增细胞,也就是TAC细胞,是成年哺乳动物中增殖最快的细胞。
TAC细胞迅速分裂,产生出多种下游分化细胞类型,
这张图是从TAC细胞到IRS、毛杆表皮、和髓质的UMAP图。
DORC区域通常在相关基因表达之前,就已经开放可及,并且先于细胞分化的谱系方向确定之前就已经开放可及。
以Wnt3这个基因为例,DORC先变得可接触,然后在分化到毛杆后期,RNA才被检测到,这两者之间存在一定的时间差。
后面,还会再提到这一段DORC和RNA的时间差
作者计算发现,92%的情况下,DORC减掉RNA的时间差是正值,也就是92%的情况下,DORC是先于RNA的
这是针对Wnt3这个基因做的伪时间图。
图中列出了早期增强子、二级增强子、启动子、内含子、外显子的依次先后达到峰值的顺序,
也就对应着增强子激活启动子,然后有了新生成的RNA,RNA经过剪接形成成熟的mRNA的过程。
这是Wnt3、Tubb6、Cuticle/cortex module的伪时间图,都是DORC先升高,接下来intron内含子升高,最后外显子升高
作者进一步研究,假设引起染色质可及性的转录因子,与激活增强子的转录因子是不同的转录因子,看有什么发现。
图中横轴是DORC与RNA的相关性,纵轴是转录因子主题富集程度。
结果,图中Lef1和Hoxc13这两个基因突显出来。
再从伪时间图上看,发现Lef1和Hoxc13都是先RNA转录增多,后motify启动。这与Wnt3是先DORC启动,再RNA转录启动,是相反的。
把所有的配对的DORC-RNA相关性与TF主题富集做分析,图中的虚线是显著性界线。
可以看到Lef1和Hoxc13在右上角很突出
从这张每个DORC的驱动TF网络图中,可以看到Lef1和Hoxc13居于核心地位
这是Lef1、Hoxc13、Wnt3在毛杆细胞系中的分步激活图
实验内容的第七部分,染色质可及性启动与多谱系命运偏向和组蛋白修饰同时发生
进一步寻找在分化过程中,可以早期识别细胞谱系的标志。
这是对细胞谱系决定之前表皮和髓质细胞中Notch+与Notch-细胞表达差异的展示
Notch1的DORC的可访问性,将线型启动区域划分为3个子区域
在Notch1+和Notch1-之间, 观察到明显的染色质差异
这进一步证明,染色质可及性的全基因组变化反映了谱系引发的细胞状态,并突出了Notch1和Tchh特异性染色质的变化引发了基因表达的激活
作者发现Lef1和Hoxc13基因位点位于凸出和发芽的端粒HFSC中,然后在HFSC分化为TAC时变得活跃
实验内容的第八部分,染色质潜力描述了分化过程中染色质至基因的表达动力学
染色质潜力,定义为与细胞当前的染色质状态最兼容的未来RNA状态细胞的差距
“染色质潜力”具体的计算:一个细胞,也就是细胞X
计算细胞X的DORC调节的基因,在RNA空间中,找到10细胞,这10个细胞的RNA表达最接近的X细胞的DORC调节的基因,这10个细胞就是细胞Y
再在染色体的低维空间中,计算从X到Y的方向和距离,就是“染色质潜力”,也就是图中的这个箭头
这个箭头长度用来衡量染色质状态与“未来” RNA状态有多不同
这是在UMAP图上展示出来的整体的“染色质潜力”图。
截取其中的一小段,
可以看到这些箭头,大体上是指向右边的
这是一个毛囊的垂直的剖面图
我们可以看到,TAC细胞的分化轨迹,从最接近毛囊中央,到毛囊的外侧,是分化成不同的细胞的。
最接近中央的TAC细胞分化成毛杆细胞,主导的基因是Lef1和Lhx2,再进一步的分化又受到Notch1的控制
中间层分化成内根鞘,主导的基因是ld3和Gata3
外层分化成外根鞘
总结
地址:上海市松江区中心路1158号5幢5楼
电话:400-9200-612 传真:+86 21 6090 1207/1208-8154
dafabet手机黄金版技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号
微信:genenergy