Engage to Life Energy
*
课程简介
*
scATAC-seq就是“单细胞的染色质转座酶可及性的高通量测序”。这是一种检测单个细胞中染色质在什么位置松开的方法,相应地能够得到转录因子在什么位置能够与基因启动子结合、细胞的哪些基因可能被高效转录的信息。
在上周直播课中,“陈巍学基因”创始人陈巍老师为大家介绍了这个方法的工作原理和对分析报告的解读。
*扫描二维码观看回放*
单细胞ATAC测序的概念
scATAC-seq 是 single cell Assay for Transposase Accessible Chromatin with high-throughput sequencing 的首字母缩写
翻译成中文,意思是:单细胞的染色质转座酶可及性的高通量测序
单细胞ATAC测序要解决的问题是:
通过转座酶对染色质的哪些位置的DNA进行切割,来分析紧密缠绕的染色质在哪些位置有松开
染色质松开的地方,一般也是转录因子容易接近染色质DNA的地方,也就是转录行为更多地发生的地方
一个细胞的哪些基因被转录,决定了这个细胞执行哪些基因功能,和这个细胞有哪些特征
实验方法
单细胞ATAC的实验过程,分成以下几步
第一步,把目标组织样本解离成多个单细胞,
第二步,分散好的单细胞用10x的仪器处理,变成许多细胞、凝胶微珠、和酶的混合微滴,这些微滴是油包水的乳浊液
第三步,带了DNA接头的转座酶,和染色质中的DNA进行接触,染色质中缠绕得比较松的地方,DNA就会裸露出来,裸露的DNA就容易和转座酶发生转座反应
我们这里看一下凝胶微珠,凝胶微珠上连着许多根DNA标签链,一个微珠上的所有标签链的序列是一样的
标签链上的序列分成三段
P5这一段,是将来能够与illumina测序芯片相结合、直接用于测序的序列
10x Barcode这一段序列,是针对这个微珠的序列,不同的微珠在这段序列是不一样的。也就是说这段序列是这个微珠的身份证号码,是唯一序列。将来高通量测序之后,可以通过这段序列把一个测序read回遡到原来的微珠
Read 1N是和转座酶连的接头的互补序列
我们再来看得做测序文库要做的反应
转座酶与染色质的DNA反应后,一方面会把DNA片段从染色质上切割下来,成为单独的小的DNA片段,
同时会把转座酶上连的DNA接头连接到DNA片段上
凝胶微珠上连着DNA标签链的Read 1N序列会与DNA片段上的接头序列互补,退火粘上
在聚合酶的作用下,DNA片段就会延伸出10x Barcode序列和P5序列
接着,对这些DNA片段进行建库操作,就会得到能够适配illumina测序仪的测序文库,而且这些测序文库中都带了10x Barcode序列
在后面的生物信息分析中,每个read都可以通过10x barcode序列回遡到原来特定的微珠
cell range ATAC的数据解读
做完测序后,就可以用Cell Range ATAC软件进行分析
分析的和第一步是做开放区域鉴定,也叫Call Peak,也就是把reads比对到参考基因组上之后,找出Fragments富集的地方,
Fragment是指测序测到一个片段,也就是高通量测序中一对reads框出一段序列叫一个fragment,
哪个地方的Fragment数量多,就是peak。也就是图中显示的一个一个的尖峰
在分析过程中,要去掉线粒体上的位置,一方面线粒体是没有组蛋白包裹的,是裸露的,很容易与转座酶起反应;另一方面线粒体的拷贝数比染色体DNA的拷贝数高许多,这也导致了线粒体上的Fragment数很高。所以分析过程中要去掉线粒体的Fragment。
因为ATAC测序得到的Fragment很散,会对后面的分析形成很大的噪音。
为了减少噪音,就要对哪些Fragment是可以算成是一个barcode内的,或者说一个细胞内的,另外哪些不能算成一个细胞内的,进行区分。
区分的标准是一个barcode中含有多少个peak。
我们看这张图,图的横轴是排列的一个一个的barcode,按照一个barcode中含有的Peak数从左到右按降序进行排列。
也就是越靠左边的,就是含peak数越多的barcode,越靠右边的,就是含peak数越少的barcode。
纵轴就是一个barcode里含的peak数,我们看到,在200个peak的这个高度,曲线被一截为二。
左边被标了黄颜色,是cells,也就是说这些barcode都聚合了较多的peak,对接下来的分析有意义,被作为细胞进行保留。
右边被标了蓝颜色,是non-cells,也就是说这些barcode聚合的peak较少,对接下来的分析没有意义,被舍弃。
对于Barcodes—Peaks图形,10x公司给我们举例说理了理想的、和与糟糕的两个图形
左边是理想的图形,它的特点是cells与non-cells之间的曲线,斜率很陡
右边是糟糕的图形,它的特点是cells与non-cells之间的曲线,斜率很缓
请注意,这里图中的轴的数值都是log值,而不是线性值,所以我们可以看到左图是有几千个barcode可以归为有效的cells,
而右图是只有不到100个barcodes可以归为有效的cells。
也就是说,左图是得到了更多的有效的细胞,而右图得到的有效的细胞要少很多
这是Barcode 所包含的 Fragments 数与Barcodes 的 关系图
横轴是一个barcode中所含的fragment数,纵轴是有多少这样的barcodes
黄颜色的是有效的、被认为是cell的barcode,
蓝色的是被认为是Non-cells的、被舍弃的barcode
我们可以看到有大量的散的fragment分散在大量的barcode中,
比如,只有一条fragment的barcode,超过了10万个。
这也说明了,为什么要对barcode进行区分。
因为散的,没几条fragment的barcode事实上占了相当大一部分,
也就是图中蓝色的那一大片,要把这些不能产生有效信息的Fragment和barcode都去除掉
对于Fragments—Barcodes图,10x公司给出了理想与糟糕两张样图,以示区别
左边,理想的图,cells和non-cells的两个区块有明显的分开
而右边糟糕的图,cells和non-cells之间有很大程度的重叠,而且cells的占比明显要小
这张图从另一个角度说明了Cells和Non-cells的区别。
横轴是一个barcode中有多少个fragment
纵轴是这个barcode中的fragment有多少比例是落在peak上的,
比如这个点,它对应的横座标是2,说明他读到了两个fragment
它对应的纵座标是0.5,说明他的两个fragment中有一个落在peak上。
蓝色的点就表示是归类成cells的点,
我们可以看到蓝色的cell点都位于右上方,也就是说,既要有足够的fragment,,又要fragment有足够比例的落在peak上,这个barcode才能归类成cells.
反之,红色的点是表示归类成non-cells的点。这些点都在左侧,或下方,说明Fragment数量少的、或者落在peak上比例少的,都被归类成是non-cells
10x公司给出了理想的与糟糕的分类图的样图
左图,是理想的分类图。就是有较多的barcode达到了cells的门槛,被归成cells
右图,是糟糕的分类图,就是达到cells门槛的barcode很少,绝大部分的barcode都被划分成了non-cells
挑出了好的barcodes之后,就对这些barcodes进行降维和聚类
降维的方法是LSA方法,也就是latent Semantic Analysis方法,
降维后进行聚类,再用tSNE图表示出来
这张图是一个好的聚类图,我们可以看到分成了13个簇,每个簇内部都聚拢在一起,簇和簇之间有较明显的空间区隔
10x公司同样给出了理想与糟糕的聚类结果
左图是理想的聚类结果,簇与簇有较明显的区隔
右图是糟糕的聚类结果,簇与簇之间没有明显的区隔,都混合在一起
这里的图是Fragment片段长度的分布图。
左图是理想的片段长度分布,它比较明显的特点是在略小于200bp处,有一个峰,这个峰对应于转座酶一般会得到的片段长度。图中还可以看到每隔约10.5个bp就有一个小齿,这个小齿是对应于DNA螺旋转一周的间距
右图是糟糕的片段长度分布,它没有明显的峰,这也说明它失去了染色质的结构
这两张图显示的是片段在转录起始位点附近的富集。
图中横轴上0所标示的,就是转录起始位点。纵轴是片段的富集程度
左图中,我们可以看到曲线的最高峰在转录起始位置偏上游约几十个BP的样子,我们知道转录因子就是从这里开始结合到DNA上,开始进行转录的,所以这里有一个尖峰是符合我们的预期的。
我们再看右图,我们注意一下右图的纵坐标,右图的纵坐标对应到最高峰是大约在2,
而左图中,纵坐标对应到最高峰是大约在10,这说明左图中的富集程度要比右图中的富集程度高许多。
所以左图是理想的情况,而在右图中是一个糟糕的情况
生物信息分析报告解读
在生物信息分析中,先根据每个细胞中的peak把细胞都聚类成簇
我们在图中可以看到细胞群被聚成10个簇,每个簇都用不同的颜色加以标识
左图是簇与簇之间的相似性比较,相似性高的,就用红色表示,相似性低的,就用蓝色进行表示
右图是把簇与簇之间的差距用两个主成份进行二维展开来进行演示,更加直观
接下来对簇进行GO分析,GO是GeneOntology的缩写,
Gene ontology是一个基因数据库,
这个数据库主要是标注基因翻译出来的蛋白的三个特点:
1、这个蛋白参与什么生物过程
2、蛋白定位在哪个细胞组件上
3、这个蛋白有什么功能
用大白话来说,就是说一个基因的蛋白产物:干什么活,呆在哪里,完成什么任务。
接下来对簇的peak所在基因进行GO数据库富集分析,
三种颜色,就是分析的三个方向:生物过程、细胞组件、分子功能
柱的长度是富集的显著性,柱子越长,富集程度的显著性越高
接下来,进一步做GO树状分析
因为GO数据库中的条目是树状目录
列在上面的条目,含盖的范围比较广,内容比较庞统,
列在下面的条目,则含盖的范围比较小,内容比较精细
把富集效果用树状图展示出来,可以看到一个簇的基因富集效果,是富集到哪些精细的条目上
GO散点图展示了簇在GO中富集的三个维度
从上往下,排列着一个个的GO条目
横轴则是这个簇中,与这个条目相关的基因数量,与这个条目总的基因的数量的比值
点的大小,显示了这个簇中与这个条目相关的基因数量
点的颜色,显示了在这个条目中,基因富集的显著性
这是按照P值显著性,对GO条目进行降序排列的图
图中从上往下是按条目富集P的值显著性进行降序排列,我们可以看到越靠上面的条子颜色偏红,显著性越高,越往下,条子的颜色越偏绿,显著性越低
条子的长度,显示了这个簇在这个条目有的基因数,占这个簇的全部基因数量的比例
这是显著性排前20的GO条目,和候选基因组成的网络图,
节点的大小,显示了该GO条目中候选基因的数量
这是显著性排前20的GO条目的网络图,
点的颜色越红,代表条目的显著性越高,
点越大,则这个条目中的候选基因越多
KEGG是Kyoto Encyclopedia of Genes and Genomes的首字母缩写,中文意思是“京都基因与基因组百科全书”
这是一个收集和整理生物通路的数据库。
通过对簇中富集的peak所对应的基因进行KEGG的各种分析,可以得到多种分析图,
这些图的展示逻辑,和前面GO的各种分析逻辑是很类似的,我们这里就不重复了
DisGeNET 是一个人类基因与疾病关系的数据库
这是对照DisGeNET进行各种分析,得到的多种分析图,
这些图的展示逻辑,也和前面GO的各种分析逻辑是很类似的,我们这里就不重复了
Trajectory拟时轨迹分析,是假设所有的细胞都是经过一个发育过程串联起来的,按照这种假设,把细胞按照变化过程连在一起。
我们可以看到,所有的细胞都被串在了一起,
图中1、2、3三个较大的簇被用数字标了出来。
这张图是按照簇标示的
这是按状态标示的结果
这是按伪时间来分的结果
共可接触性图,共可接触性是指两个peak往往在同一个细胞中出现
图中一段拱形连到两个peak,拱形的颜色越偏红,则被连接的两个peak的共性越强
各种细胞簇,则用柱子的颜色进行标示
小结
地址:上海市松江区中心路1158号5幢5楼
电话:400-9200-612 传真:+86 21 6090 1207/1208-8154
dafabet手机黄金版技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号
微信:genenergy