Engage to Life Energy
文章概要
这篇文章, 题目是《Scalable, multimodal profiling of chromatin accessibility, gene expression and protein levels in single cells》
文章发表在nature biotechnology杂志的2021年6月刊上
文章的题目,翻译成中文,意思是《大规模多模态地对单细胞的染色质可及性、基因表达、和蛋白水平进行扫描》
文章的通讯作者,是Peter Smibert,他是Immunai 功能基因组学的副总裁。他还是纽约基因组中心技术创新实验室的前主任。顺便说一下,Peter Smibert还是发明CITE-seq和ECCITE-seq的两篇论文的通讯作者。
研究背景
实验结果分析
实验内容的第一部分,开发并验证 ASAP-seq 方法
这是 ASAP-seq 方法的原理图。
先用带核酸链标签的抗体panel,
与被检测样本的细胞进行孵育,孵育过程中,抗体会和细胞上的抗原进行结合。
接下来,把细胞进行固定、和通透化。
通透化之后,用带了核酸标签接头Tn5的转座酶与被固定的细胞进行反应。
反应的结果,就是Tn5转座酶上面带的核酸标签,就会连接到染色体的DNA链开放区的位置。
然后,用一个桥接的寡核苷酸连到抗体的标签链上,
接下来进行10x的单细胞化,再建库、测序。
这里,是BOA接头的结构,和它的工作原理。
先看上面的抗体连的核酸标签。
这个标签链上,最右边是连到抗体上的。
标签链的中间紫色的这一段,是针对抗体的barcode序列。测序完成之后,就是用这段序列来识别对应的是哪个抗体。
标签链3’端是一段AAAA的序列,它的作用是模拟天然mRNA的poly(A)尾巴,与桥接接头的poly(T)粘上,并进行延伸反应
桥接接头,它的3’端是一连串的T,一共32个T碱基。这些T碱基,是与抗体的标签链上的poly(A)形成互补。它最后一个T碱基的3’端是被堵住的,不会发生延伸反应。
抗体标签链,与桥接接头退火粘上之后,抗体标签链就会延伸。
延伸的结果,就是把N9V这段序列加到了原来的抗体标签链上。这段N9V序列起到UMI序列的作用,用来识别这条核酸链在最一开始时,是来自于哪一个标签链分子的。
接下来,经过了延长的抗体标签链,再与凝胶微珠上的序列进行互补退火,并且再延伸。
再次延伸,就加上了凝胶微珠上带的细胞barcode,用来识别这条核酸链是来自哪个细胞的。
这是一个从液滴内的角度来看这个加barcode的过程。
右边的紫色的这段,是标记抗体的barcode,测序得到这段序列,就可以知道这是连到哪一种抗体上的。
中间,N9V,N9,就是9个随机的的碱基,这9个随机的碱基起到的是UMI的作用。
左边,灰色的序列,是连到ATAC微珠上的序列,
ATAC微珠的红色的序列,通过延长反应,就加入到标签链上。
红色的这段序列,就标示了这个微珠的身份信息。
除了BOA接头之外,作者还设计了BOB接头。
BOB接头的工作原理大体上与BOA的接头的工作原理相似,
但是BOB的接头上直接就接了UMI序列,
BOB接头粘上桥接接头,进行延伸
接着就可以与微珠上的DNA链退火,再延伸,
这样就可以加上cell barcode了。
接下来,作者想知道这个方法引起的双细胞的情况。
作者用小鼠和人,两个物种的细胞系做实验。用两个物种的细胞做实验的道理在于,可以通过基因序列,直接判断这是来自于人的序列,还是来自于小鼠的基因序列。
这里用的人的细胞系,是HEK-293T细胞;用的小鼠的细胞,是NIH-3T3细胞。
并且用的抗体也是物种特异的。
这里,左图,是染色质可及性的结果。
横轴是一个微滴中读到的人类的fragment数,
纵轴是一个微滴中读到的小鼠的fragment数。
用三种颜色来区分每个微滴中读到的是哪个物种的序列。
用红颜色标了是小鼠的微滴,用蓝色标了是人的细胞的微滴。混有两种物种的微粒,被用紫色标示。
这里,可以看到有2千多个人类单细胞,1千6百多个小鼠的单细胞,人和小鼠细胞混合的微滴有108个。
右图,是从测序得到的抗体的角度来看的结果,同样是用三种颜色,来标示,人、小鼠、混合,三种情况。
作者又比较了Pre-SPRI 和 Post SPRI的结果。
SPRI是指用磁珠来对得到的文库进行分选。
图中,蓝色的是SPRI分选前的效果,绿色的SPRI分选后的效果
可以看到,SPRI的分选,会对文库产生一些小的影响,但不会对文库产生大的影响。
作者比较了有蛋白标签的单细胞ATAC-seq,得到的开放位置,
和没有蛋白标签的ATAC-seq得到的开放位置。
图中,横轴上0就是转录起始的位置。
我们可以看到,左右两张图的形状很相似。也就是说,有蛋白标签,和没有蛋白标签,两者都到的效果是高度一致的。
这是根据ATAC-seq的数据制作出的UMAP图,再在图中,用颜色标出了各种蛋白在各个细胞上的表达量。
我们可以看到,CD4和CD8这两种蛋白,在细胞上的表达是互斥的,也就是表达CD4蛋白的细胞,就不表达CD8;反之,表达CD8蛋白的细胞就不表达CD4.
CD16在NK细胞上表达,CD14在与CD16不交叠的单核细胞上表达。
这是测序中,得到的线粒体的基因序列,并且在经过基因序列比对后,找到的基因突变。
可以看到,对线粒体基因分析的结果,可以很好地找到样本中存在的基因突变。
实验内容的第二部分,ASAP-seq是一个模块化的工具
作者要把ASAP-seq这个方法做成一个模块化的工具。那就需要检验这个方法与其它方法的兼容性、和一致性。
首先,作者要检验UBI是否能起到和UMI一样的作用,以及这两者之间的一致性。
所以,作者把含有UBI的接头,也就是TSB接头,与含有UMI的接头,也就是TSA接头,以一比一的比例,混在一起,对PBMC做实验。
这里,b图就是实验结果中,各个基因在细胞中的UMI数与UBI数的对比关系。这其中的每张小图中,如果图中绿色的点落在从左下角到右上角的对角线上,就说明UMI和UBI的一致性好。
反之,则说明一致性不好。
我们可以看到,大多数的点,是落在了对角线的附近,
Pearson相关系数r,是落在0.44到0.93之间。
这说明UBI是可靠地接近于UMI的。
作者接下来要确定用LLL和OMNI这两种透化方法,对最后能测到的线粒体的片段数的影响。
其中LLL是一种温和的透化方法,而OMNI是一种强的透化方法。
实验的结果显示,这两种透化方法,导致测到的线粒体片段数量的很大的差异。
用LLL,可以得到大量的线粒体的片段,
而用OMNI,得到的线粒体的片段数量很少。
这是两种透化方法,对几种蛋白的UBI数的影响,我们可以看到,这两种透化方法,对蛋白的UBI数的影响小。
实验内容的第三部分,ASAP-seq揭示了细胞的状态,以及骨髓中的细胞系
接下来,作者做了对骨髓细胞的分析。
操作流程如图,从一个健康人的骨头中取得骨髓细胞,
然后,用ASAP-seq的方法,测染色质可及性、线粒体突变、和一个蛋白panel中的蛋白含量.
最后是得到了10,928个高质量细胞的数据。
这是染色质可及性的UMAP图,染色质可及性把细胞分成了若干个亚细胞群
如作者所预期的,染色质可及性、和细胞表面蛋白之间是有相关性的。
这张图,横轴排列的是25个变化最大的细胞表面marker蛋白,
纵轴排列的是25个变化最大的转录因子。
图中蓝颜色是有负的相关性,红颜色是有正的相关性。
可以看到一些经典的相关性,例如:GATA1和红细胞的紧密关系,
CEBPA与骨髓细胞的紧密关系
这张图,是用蛋白做标记后,看细胞被分到细胞簇的百分比。
作者发现,用染色质可及性分细胞簇分得不好,但用蛋白marker来分,可以把细胞簇分得很好。
实验内容的第四部分,细胞分化期间的表面蛋白动态
作者假设把染色体可及性和蛋白标签整合起来,能够更好地理解造血过程中的细胞谱系的传递和分化。
为此,作者把CD34+并且CD38-的多能造血干细胞和祖细胞分析结果做成拟时序图。
这里,左边的图是多能造血干细胞的拟时序图。
可以看到细胞从中间向左上方的分化。
右边的图是祖细胞的拟时序图,
可以看到细胞从中间向右侧的分化。
这是单核细胞中,各蛋白标签在拟时图上的变化,可以看到多能的标签蛋白和祖细胞的标签蛋白,
例如:CD34,在轨迹一开始,就下调。
单核细胞的标签蛋白,例如:CD31和CD64,一开始就快速上调,然后在整个分化过程中都保持高水平。
而CD11c,则是在最后的时候上调。
在红细胞分化中,各标签蛋白在拟时序图上的变化也有类似的情况。
在单核细胞的分化过程中,大体上是一个基因的染色质可及性先提高,接着这个基因对应蛋白的表达提高。
这张图,是比较染色质可及性提高与蛋白表达提高的先后时间顺序。
横轴是基因的可及性的开放达到最高点的时间,
纵轴是蛋白表达到最高点的时间。
对角线左上方的,就是蛋白表达达到最高点晚于基因开放达到最高的时间点的,这样的基因有40个
对角线右下方的,就是蛋白表达达到最高点早于基因开放达到最高的时间点的,这样的基因有4个。
很明显,绝大多数的基因,是基因先开放,随后蛋白的表达升高。
实验内容的第五部分,ASAP-seq和CITE-seq揭示了三种调节
CITE-seq,是作者之前开发的另一种可以同时测细胞表面蛋白、和细胞RNA表达的单细胞测序方法。
作者想要看一看,把ASAP-seq和CITE-seq同时对样本做分析,会得出什么样的结果。
这张图,就是作者的设计出来的流程。
取PBMC细胞,一部分用抗CD28和抗CD3 的抗体,再加上IL-2,进行刺激培养16个小时;
另一部分细胞不进行刺激。
然后,用一个含227种抗体的panel染一下,
染过的细胞,两部分,分别做CITE-seq和ASAP-seq.
这是ASAP-seq和CITE-seq得到的UMAP图。
这里,上面的图是两种文库的复杂度的比较。
红的是ASAP-seq文库的结果,蓝的是CITE-seq文库的结果
如作者所预期的,
CITE-seq得到的文库复杂度,比ASAP-seq得到的文库的复杂度高,前者的分子复杂度约是后的1.7倍到2倍。
但是,两者的蛋白一致性较好。
这是比较ASAP-seq和CITE-seq测到的蛋白变化的一致性。
可以看到大多数的点都落在从左下方到右上方的对角线上,r值是0.95.
这说明这两种方法得到的细胞受刺激后,蛋白变化的趋势、变化程度,是高度相似的。
这张图,是展示受刺激、和没有受刺激的细胞,在三种模态上表现出的差异
染色质可及性的峰,15.8%有差异
mRNA的表达量,9.0%有差异
表面蛋白,31.3%有差异。
这与之前做的Bulk测序得到的结果是一致的。
作者举了CD3基因,作为一个例子,来说明三个模态的信息的意义。
可以看到,受刺激的样本中CD3蛋白明显比没有受刺激的要少许多,
但是在染色质可及性上,受刺激与没有受刺激的细胞,没有大的差别。
也就是说,加上蛋白的信息,可以看到更多的差异
实验内容的第六部分,DOGMA-seq让同时测细胞的4种模态成为可能
在作者推进工作的同时,10x公司推出了Multiome产品。Multiome产品可以同时测ATAC信息、和RNA转录信息。
这让作者想到,可以把作者自己之前做的CITE-seq和10x公司的Multiome的产品结合起来。
作者开发了新的DOGMA-seq单细胞测序方法。
这张图是DOGMA-seq方法的流程示意图。
和前面的ASAP-seq不同之处在于,这里,DOGMA-seq抗体上连的是带poly(A)尾巴的核酸标签。
在做了这样的改进之后,DOGMA测序就可以测到细胞表面蛋白的信息了。
而且,如果是用LLL这个方法做细胞的通透化,还可以测到线粒体的基因序列。
这是三种方法得ATAC的富集的位置。
可以看到,三种方法得到的ATAC富集的位置是高度相似的。
但是,DIG方法和LLL方法得到的ATAC复杂度
是低于Multiome方法的。
比较三种方法得到的线粒体的序列,
可以看到LLL方法得到的线粒体序列占的比较是较高的,
而DIG得到的线粒体的序列的比例是很低的。估计这与DIG是一种温和的透化方法有关,DIG不能裂解线粒体,所以得到的线粒体序列的占比就低。
得益于DIG方法是较为温和的透化剂,因此DIG方法保留了较多的细胞表面蛋白。
所以,测序结果中,DIG方法得到的蛋白标签的复杂度
高于LLL方法。
这是三种方法得到的表达的基因的数量,也就是测到的mRNA对应的基因的数量。
可以看到LLL方法和Multi方法,得到了较多的表达的基因的数量,
而DIG得到的基因数量较少。
接下来,作者把用LLL方法得到细胞的三个模态的数据,用权重最近邻居方法分细胞簇。
得到了25个细胞簇。
G图中,左边是对照组的细胞,右边是受刺激的细胞
H图,是把各组细胞标注了细胞类型得到的结果
这是,ATAC、RNA、细胞表面RNA,这三种模态的数据,分别对细胞分簇的贡献。
这是三个模态对细胞簇的区分,对比两个模态对细胞簇的区分。
作者举例,第17个细胞簇,在没有蛋白的数据时,是分不出来的。
只有在加入蛋白的信息后,第17个细胞簇才可以被区分出来
实验内容的第七部分,在原始的T细胞中复用CRISPR扰动
作者取CD4+ T细胞,进行CRISPR干扰。再结合Hashing方法对细胞进行分析。
被CRISPR干扰的基因是CD3E、CD4、ZAP70和NFKB2
这张图,是展示CRISPR干扰后,基因表达的改变,和蛋白含量的改变
横轴,是显示各个蛋白的含量的改变,向右是含量增加,向左是含量减少
纵轴,是RNA的表达量的变化。
可以看到有几个CD3E、CD4的点,是明显地偏到了图的左侧,说明这几个点代表蛋白含量有明显的下降。
值得注意的是,CD45、和CD69的点,偏到原点的上方,这是CRISPR干扰后,引起的相关的变化。
实验内容的第八部分,ASAP-seq让检测细胞内的蛋白成为可能
这是检测细胞内的蛋白含量的实验方法示意图。
作者先用针对细胞表面蛋白的TSA抗体Panel对PBMC细胞进行第一轮的抗体吸附。
接着对细胞做固定,然后对细胞做透化。
再接下来,用TSB的抗体Panel对细胞做第二轮的、针对细胞内部蛋白的抗体吸附,细胞内的目标蛋白被染上抗体。
接下来,染色体可及性等的实验操作是和前面一样的实验步骤。
这里,左边的b图,是测序后,得到的单细胞ATAC的UMAP图,并被标注上了细胞亚群所属的细胞类型。
C图,是经过数据分析,得到的细胞表面的几个特征的蛋白在各个单细胞上的表达情况。
D图,是细胞内部的几个特征蛋白的表达情况。
作者再进一步,看sgRNA干扰的效果,作者针对10个基因,每个基因用2个sgRNA,一共用20个sgRNA对细胞进行CRISPR干扰,再进行单细胞测序。
这是被干扰的10人基因。
这张图是被干扰后,测序得到的结果。
这是被干扰后,几个蛋白的含量情况
可以看到Ki-67这个蛋白,它是一个核蛋白,
在有刺激的时候,
比没有刺激时候的含量高许多。
而CD152,也就是CTLA-4,这个蛋白在细胞表面和细胞内都存在。现在,可以可以分开来检测这个蛋白在细胞表面的含量、和在细胞内部的含量了,而且分别都被检测到了。
在细胞表面的CD152中,还观察到它的分布不是连续的,也就是小提琴的形状,中间是一个很细的腰的。
总结
地址:上海市松江区中心路1158号5幢5楼
电话:400-9200-612 传真:+86 21 6090 1207/1208-8154
dafabet手机黄金版技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号
微信:genenergy