Engage to Life Energy
文章概要
文章的题目,是《Systematic comparison of single-cell and single-nucleus RNA-sequencing methods》,
文章发表在Nature Biotechnology 杂志的 2020 年 4 月刊上
通讯作者是 Joshua Levin,他是美国,麻省理工学院和哈佛大学布罗德研究所,高级组长和研究科学家。
研究背景
实验结果分析
实验内容的第一部分,参与比较的 scRNA-seq 方法和选定的样本
作者一共分析了7种方法。
这7种方法,分别是Smart-seq2, CEL-Seq2, sci-RNA-seq, 10x Chromium, Drop-seq, Seq-Well, 和 inDrops
在这7种方法中,Smart-seq2和CEL-seq2是基于微孔板的方法,并且是低通量的分析方法。
Sci-RNA-seq是基于微孔板的组合的方法,来隔离细胞,并且标识细胞的,它是高通量的分析方法
10x Chromium、Drop-seq、和inDrops,是基于微流控产生的油包水的方法,来隔离细胞。并且,是用带barcode序列的引物微珠来标识细胞的,是高通量的方法
而Seq- Well,是通过带微孔的芯片,来隔离细胞。再用微珠来标识细胞,是高通量的方法
作者取了三种样本,来供分析。
第一种,是人和小鼠的两种细胞系的培养细胞,进行混合,得到混合的细胞,拿来做单细胞测序。之所以要用两个物种的细胞,核心是想看最后实验中双细胞的数量占比。因为得到的reads有了物种序列的差异,就很容易分辨,到底这个序列是序列,还是小鼠的序列。在被读到的一个细胞barcode中,人的细胞与鼠的细胞,有没有混在一起。
第二种,是人的外周血单核细胞,也就是PBMC,用这个样本,好处是这些细胞天然就是分离的,细胞与细胞之间没有粘连,这可以排除用组织来做实验时,会引入的细胞消化过程所引入的问题。
第三种,是小鼠的脑皮层细胞核。之所以选用小鼠的脑皮层细胞的细胞核,是因为小鼠的脑皮层的单细胞分析,常用细胞核作为样本进行分析的。我这里补充一下,脑皮层的细胞,有相当大的一部分是细长的条型的,或者是星型的多角的状态的,所以用圆球型的细胞核,来代替形状各异的细胞做单细胞实验,是一种较为方便的方法。
用这三种类型的样本,在一个中心的六个独立实验室中生成了36个文库。
实验内容的第二部分,scumi 计算管道允许跨任何 scRNA-seq 方法进行统一分析
为了统一地分析几种实验方法得到的实验数据,作者开发了一种新的“通用”计算管道,以消除现有管道引入的处理差异。
作者这把个计算管道命名为“scumi”,是single-cell RNA-sequencing with UMI的首字母缩写。
这个计算管道,从 FASTQ 文件作为输入开始,并生成用于下游分析的基因-细胞表达计数矩阵。
接下来是要过滤掉低质量的细胞。
这点在比较几种方法时,尤其重要。目的是要确保对所有方法都公平,而且不那么主观。
用更多的测序深度,有可能提供更好的结果。但是为了搞清哪种方法的reads的信息含量更高,作者先对每种方法的每个细胞取相同的reads数。
这带来了相对具有更高比例的有信息含量的reads的方法,
作者通过几个关键指标评估这些方法
1、核基因组,和线粒全基因组的,结构,和比对
2、捕捉RNA分子的敏感性
3、在混合细胞的实验中,分析了多细胞的范围
4、它们在估计表达方面的技术精度,和重现性
5、在细胞类型中找出有意义的生物学差异的能力
实验内容的第三部分,Read 结构和比对揭示了方法之间的效率差异
这是各各个方法得到的 Reads 比对到的位置.
三张图,分别是对
细胞混合物、
PBMC、
和鼠脑皮层细胞,这三种样本的检测结果。
图中,每一根立柱,是一个实验的结果,
相互靠近的两个柱子,是对一个样本的2个重复实验。
图中,柱子中灰色的的部分,是对应于外显子的reads
土黄色的部分,是对于内含子的部分,
其它还有基因间的部分,和比对结果模糊的部分,和无法比对的部分。
其实,一般来说,最有用的部分,首先是比对到外显子的reads,而且大多数的研究,往往只用比对到外显子reads。
其次是比对到内含子的reads,在细胞核的研究中用得较多。
那么在混合细胞样本的实验中,Smart-Seq2的两个重复实验,和inDrops的一个实验,得到了比例最高的外显子reads,这三个的外显子reads数达到50%以上.
而sci-RNA-seq表现最差,外显子的比例是28.7%和29.4%。
与混合细胞样本相比,PBMC的外显子比例较低,只有inDrops的一个实验达到了46%。
脑皮层的细胞核的样本,得到的reads中,内含子相对于外显子的比例,要更高。
这和作者的预期是一致的。因为细胞核中包含了更多的没有经过剪切的转录本。
实验内容的第四部分,不同实验中方法灵敏度的相似相对排名
由于 scRNA-seq 方法从少量有限的 RNA 输入开始,一个关键的质量指标是灵敏度或捕获 RNA 分子的能力。
作者通过测量数据集中每个细胞检测到的 UMI 或基因的数量来评估每种方法的敏感性。
这张图,是6种方法检测到的每个细胞中的UMI数量。
说明一下,因为Smart-seq2方法本身没有UMI,所以这张图里面没有Smart-seq2的结果。
我们看这张图,CEL-Seq2方法,因为输入的细胞数少,所以每个细胞得到的UMI数量明显多于其它几种方法。
在剩下的5种高通量方法中,10x Chromium的方法,得到的每个细胞的UMI数量是最多的。
这是混合细胞,各方法检测到的每个细胞中的基因数量。
很明显,Smar-seq2和CEL-seq2这两个低通量的方法,检测到的每个细胞中的基因数最多。
剩下的5种方法中,10x Chromium方法得到的基因数量最多。
Indrops和Drop-seq方法得到的基因数量最少。
再看这组图,这组是PBMC样本得到的结果,
上面两个图是测到的单个细胞的UMI数量的分布情况
下面两个图是测到的单个细胞的基因的数量的分布情况。
大体上,是和前面混合细胞的情况是差不多的。
低通量的办法,也就是Smart-seq2和CEL-seq2,每个细胞可以测到更多的UMI数量,和更多的基因数量。
在高通量的办法中,10x Chromium的方法可以测到更多的UMI数量,和更多的基因数量。
这两张图,是小鼠脑皮质细胞核样本做的结果,
和预期一样,低通量的Smart-seq2方法,每个细胞检测到了最多的基因数量。
而几个高通量的方法中,10x chromium方法得到了最多的UMI数量,和最多的基因数量。
接下来,作者分析了各个方法,在每个细胞取相同的测序深度下,在每个细胞中,能够检测到的基因数量。
这里,每张图的横轴是测的reads数,纵轴是测到的基因数
可以看到左边的两张图是两个低通量方法的结果,两个低通量方法的结果差别不太大,
右边的两张图是高通量方法的结果。在高通量方法中,10x Chromium的方法,在相同的测序深度条件下,可以测到更多的基因。
这是在每个细胞取相同的测序深度下,在每个细胞中能检测到的UMI数量。
在高通量的条件下,10x Chromium的方法是在每个细胞中能检测的UMI数量最高的。
作者进一步分析了各个方法中,每个细胞中测到的UMI数量,与测到的基因数量的关系。
图中,横轴是一个细胞测到的UMI数量,纵轴是一个细胞测到的基因数量。
分析结果显示,每个细胞中测到的UMI数量,与测到的基因数量有线性关系。
实验内容的第五部分,混合实验能够检测多细胞和来自其他细胞的读数
接下来是看一个细胞barcode对应到多细胞的情况。
这是用小鼠的细胞,和人的细胞,混合后,进行检测。通过检测一个细胞barcode中,是否包含两个物种的序列,来判断多细胞的情况。
图中,横轴是细胞数量,纵轴是多细胞的比例
结果,所有的检测结果,多细胞的比例都低于3.5%,除了一个inDrops的实验结果是8.0%。
并且,两个低通量的方法,检测到的多细胞的比率最低。因为这两个方法,都是通过流式细你发仪将单个细胞放到平板的每个孔中的。
接下来,作者分析了这7种方法,各自的结果中,每种细胞混杂的来自其他细胞的污染。
这里的7张图,就是7种方法,每张图的横轴,是一个细胞中来自人类的基因数,纵轴是来自小鼠的基因数。
如果一个细胞中的序列很纯粹,那么代表这个细胞的点,就会要么出现在横轴上,要么出现在纵轴上,
反之,如果这个细胞中混有另一个物种的序列,那么这个点的位置,就会靠近图中央。
也就是说,一个方法中的两个物种的细胞,它们各自的拟合线越平,或者越直,越靠近X轴或Y轴,则这个方法中被污染的reads数越少。
在低通理的两个方法中,Smart-seq2的拟合线的坡更平,因此Smart-seq2的表现比CEL-seq2的表现更好。
高通量的方法中,inDrops方法的拟合线是最平直的。inDrops方法在这一项上的表现最好。
实验内容的第六部分,基因表达定量的技术精度、重现性和准确性
为了评估混合细胞实验的技术精度,该实验由在受控条件下培养的两个同质细胞系组成,作者还比较了 scRNA-seq 数据的变化,预计在这种情况下主要由技术变化驱动。
这些变化通常符合泊松分布。
而CEL-Seq2、inDrops 和 Drop-seq 始终具有相对较低的超出泊松分布之外的变异系数。
也就是说,这三种方法的实验结果可重复性较高。
而Smart-seq2有很高的超过泊松分布之外的变化。也就是说,这种方法的实验结果可重复性较低
实验内容的第七部分,基因表达定量的技术精度、重现性和准确性
在 scRNA-seq 研究的众多生物学特征中,最突出的实用例子之一,就是通过聚类 scRNA-seq 来识别不同的细胞类型。
这张图是4种检测方法分别得的PBMC样的本的t-SNE图。
各种方法,分辨出各种细胞簇的能力有所不同。
在PBMC样本中,10x Chromium 和 inDrops 的表现良好。
通常,大多数方法成功地找出了 PBMC 中丰富的细胞类型。
但是,对于稀有的细胞类型,如浆细胞样树突细胞、和血小板,这些细胞在不同的方法中,以不同的比例被捕获。
这是用点阵图,来展示各种方法检出的各细胞簇的多少。
对于低通量的方法,没有足够的细胞数量,来找出稀有的细胞类型。
在高通量的检测方法中,10x Chromium在检出各种细胞类型上的表现最佳。
小鼠皮层,也具有明确定义的多种细胞类型。
这是用各种方法检测得到的 t-SNE 图。
在用于分析的4种方法中,3种方法找到了要找的各种细胞类型。
而sci-RNA-seq这个方法,没有找到全部的细胞类型。
这是脑皮层样本的点阵图,图中点的颜色代表了找到特定类型细胞的确信度。
可以看到,在这其中,sci-RNA-seq的样本找不到少突胶质祖细胞,也找不到小胶质细胞
实验内容的第八部分,跨方法的汇总数据分析增强了生物信号和一致性
考虑到各个检测方法,没有检测到部分细胞类型,可能的原因是,
1、由于实验的问题,文库不包含来某些细胞类型的cDNA
2、考虑到测序深度和细胞数量,来自这些细胞的数据质量不足以识别这些细胞
作者接下来把所有的、各个检测得到的细胞数据进行合并分析。
左图是这个合并分析得到的t-SNE图。
右图是分析得到的经果,可以看到,在合并之后,各个方法都分析出了那些稀有的细胞类型。
这是几种方法单独分析,和合并分析,两者的结果对比。
纵轴是合并分析的结果。
横轴,是8个实验的单独的结果。
格子中的红色,是一致性。
我们可以看到
10x Chromium V2的结果,单独与合并有最好的一致性。其次是10x Chromium V3的结果。
对皮层细胞核做同样的分析,分析结果是,10x Chromium有最好的一致性。
这是几种参与比较的方法的评比结论。
首先,基于微孔板两种低通量检测方法的灵敏度是最好的,明显高于其它的几种高通量的检测方法。
在识别细胞类型这一点上,10x Chromium的结果是最好的。
并且,因为10x Chromium的方法做了很好的商业化的整合包装,所以它的易用性也是最好的。
其它的特点,大家可以慢慢细看这个表。
地址:上海市松江区中心路1158号5幢5楼
电话:400-9200-612 传真:+86 21 6090 1207/1208-8154
dafabet手机黄金版技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号
微信:genenergy