Engage to Life Energy
dafabet手机黄金版特邀名师讲堂第一课上周四结束啦,为方便大家学习,小编把PPT整理出来啦。
扫描二维码进入直播间观看直播回放
N1
一、整体概况
10x 公司的Visium空间转录组方法,它和10x的单细胞测序,在原理上很相似。
单细胞测序是用胶珠和油包水方法,把细胞分隔开,同时又用DNA条形码保留单细胞信息。
Visium空间转录组则是把切片在芯片上展开,在空间上用条形码来保留切片上每个小点的空间位置信息。
空间转录组,在操作上是先把切片固定到芯片上,并用H&E染色之后,就可以在显微镜下看到这样的图。
这里是一个成年小鼠脑子的切片。芯片上四周会做许多个小点,这些点是用来在空间上给切片定位用的。
在接下来的讲解当中,我们都会围绕这个小鼠脑子样本的测序结果进行展开。
我们经过对这个样本的测序,得到的初步结果就是有1.4亿多条的reads,有2699个spot上是有测到序列,每个spot上平均有5.4万条的reads,每个spot上有表达的基因数量的中值是4851个基因。
N2
二、聚类分析
几千个spot,每个spot有几千个甚至上万个基因的表达量,这远远超出了普通人能够理解或者想象的范围。
所以,我们要对数据进行降维和聚类。通过降维,大量信息变成两维的、或低维的信息,以便于在荧幕上或者纸面上进行展示。几千个spots通过聚类被划分成几个或者十几、二十几个的cluster(簇),方便人脑识别,也方便接下来进行再下面的分析。
那么我们先是用PCA方法对表达数据进行主成份分析,PCA是Principal Component Analysis的首字母缩写。简单来说,PCA就是一个算法,它能在千万个变化量中,找到主要矛盾。
经过PCA降维分析之后,把第一个主成份,也就是PC_1,和第二个主成份,也就是PC_2,做成一个2维图,就是这样。
接下来取PCA当中的前30个主要成份,用Seurat软件中的Graph Base Louvain Cluster方法进行聚类,再用t-SNE降维并展示。t-SNE是t-distributed stochastic neighborembedding算法的首字母缩写,它非常适用于降维。
并且t-SNE算法有一个好处,就是能把有聚类的点在显示的时候聚合在一起进行显示。
在这张图当中,我们可以看到有相似性的点被聚集在一起,算法把它们分成了18个簇。
在图中这18个簇用18种颜色标了出来,图的右侧的图例是簇的编号与簇的颜色的对应关系。
接着,我们还可以做UMAP图(Uniform Manifold Approximation andProjection)。
UMAP除了把spot以聚类的方式表现出来之外,它还可以表现出细胞分化的轨迹。
也就是说,如果两个簇的细胞是从同一个来源分化出来的,那么UMAP就会把它们放到相近的位置。
这有利于发现细胞分化树的信息。
但因为t-SNE出现得比较早,有很多人更习惯用t-SNE,我们就在我们报告中同时保留了t-SNE和UMAP两种图。
我们这里要说明一点:就是PCA、t-SNE和UMAP这三张图当中,每一个簇有对应的关系。
也就是1号簇在这3张图中,都是1号簇,都用浅蓝色进行表示(其它簇也是一样)。
有了t-SNE和UMAP图之后,我们就可以直接对每个spot的基因表达量做分布图。
这个是nFeature_Spatial图,首先它是基于t-SNE图的,用来表示一个spot当中有多少个基因的表达被检测到。
表达的基因数越多,则颜色越红。
因为一般而言,一个细胞当中能表达的基因数量越多,往往表示这个细胞的分化程度越低。而一个细胞当中能表达的基因数量越少,则这个细胞的分化程度越高。
大家可以有一些联想,就是红色的spot可能其中的细胞的分化程度低。灰色的spot可能其中的细胞的分化程度高。但这是不一定的,因为每个spot当中有多少个细胞是不确定的。我提出来,可以让大家有一个思路,供大家参考。
这个是nCount_Spatial图,逻辑是一样的。
只是把有多少个基因被检测到,换成多少条UMI被检测到。而每一条UMI都关联到一条原始的mRNA。所以nCount的这张图,也可以理解成对spot当中的mRNA的多少进行描述的一张图。
然后,我们可以通过10x公司的Loupe Browser软件,轻松地把这些归纳成簇的spot还原到切片的空间位置上。
这样,cluster和切片的关系,就以用很直观的方式呈现在大家面前了。
这是cluster 1, 这是cluster 2,依次类推。
N3
三、差异表达分析
这是个把所有的簇进行两两比较的图,也就是一个矩阵。
图中红颜色是两个cluster相似性很高,蓝颜色则表示相似性低。
在这个矩阵当中可以直观地看到各个cluster的两两的相似性。
这张图是簇的PCA图。
PCA图以更加直观的方法,让大家可以直观地从整体上看到各个cluster之间的相互距离和相互差异。
接下来是群特异表达基因的热图,横轴是按簇被组织起来的spot。每一条细的纵列,就是一个spot;每一块纵向的块,就是一个簇。纵轴上,是一个一个的基因。在第一个cluster当中高表达的那些基因被聚集起来放在最上面,接下来排第2个cluster当中高表达的基因,这样依次排下去。
黄颜色表示高表达,紫颜色表示低表达。
有了这样一张热图,一个簇里面有哪些基因是高表达的,就一目了然了。
那我们来看一下,有哪些基因被富集出来?。
我们把最左上角展开来,也就是把它的第一个簇中,表达量最高的那些基因显示出来。
我们看到,这里排在第1位的基因是Efhd2,我查了一下,这个基因可能是与老年痴呆症有相关的。
接下来的这张图,还是簇和基因表达量的关系,每一个点就是一个基因和一个簇的交叉关系。
但这张图更加关注簇,而不是关心spot,最小一个纵列是一个簇。
同时,这张图中的每个点上有两个新维度。
一个是点的大小,代表是该簇当中该基因的UMI大于零的spot的数量。
也就是该簇当中有几个spot表达了这个基因。
第二是点的颜色,它表示该簇当中平均每个spot表达该基因的平均表达量,越红则平均表达量越高。
我们把这张图的最左下角展开来,还是第一簇当中表达最高的那些基因,第一个基因还是Efhd2。
既然Efhd2是这么一个很有特点的基因,那我们接下来还会反复追踪这个基因,用来给大家做展示。
这是在所有的spot当中的Efhd2这个基因的表达量放在t-SNE的当中,大家来看。
这是之前的按簇划分的t-SNE图,这当中1号簇是位于上面中间的浅蓝色的这些点。
我们在这里可以清楚地看到,Efhd2这个基因就是在上面中间的这些点里面颜色最红,表达量最高。
接下来,我们来看各个基因的小提琴图。
我们先来解释一下小提琴图。
这里的小提琴图表现的是一个基因在各个簇里的表达情况。
横轴上是18个簇。
纵轴是一个spot当中该基因的表达量,越高则表示表达量越大。
提琴的宽度是指在这个表达量水平,有多少个spot。
从图中,我们可以看到,Efhd2这个基因的表达量,在第一个簇里是最高的。
而且第一个簇里大多数的细胞的Efhd2表达量集中在略超过2的水平。
把Efhd2这个基因的表达还原到spot的原来空间位置。
我们可以看到,最红的点,也就是Efhd2表达量最高的spot都集中在这一个弧线上。
再来和第1个簇中的spot在切片当中的分布情况对照一下。
很明显,Efhd2这个基因的高表达的空间位置,就是和第1个簇的空间位置高度重合的。
这样,我们就把表达差异的几种图示方法给大家介绍了一遍。
N4
四、与数据库结合分析
第1个结合分析的数据库就是GO数据库。
先说一下GO数据库是什么。GO是geneontology的首字母缩写。gene ontology从字面直接翻译,就是“基因本体论”。
GO数据库是公开的,就是这个链接。目前,GO数据库是按三个大方向来对基因进行描述。
这三个大方向分别是:1、细胞组件,Cellular Component,CC。也就是这个基因表达出来的蛋白,它会组成细胞的哪个部分,或者说它的蛋白会跑到细胞的哪里去,定位在细胞的什么地方。比如这个蛋白是会定位在细胞膜上,还是呆在线粒体上。
2、分子功能,Molecular Function,MF。也就是这个基因的产物有什么功能,比如它是一个酶,有特定的催化功能。
3、生物过程,Biological Process,BP。也就是它会参与到生命的哪个过程当中去。
用大白话来讲,就是:你呆在什么地方?你做什么事?你完成什么任务?。
通过回答这样三个问题,来确认一个基因的概况。
GO数据库里面,对于这三大块,都是有现成的定义好的大量节点。
而且这些节点是成树状结构的。
且每棵树都很庞大。我们在这里可以看一下,其中一棵大树的大体样子。
对GO数据库我们就先介绍这些。
接下来要做的事情,就是把各个cluster当中有明显高表达的基因映射到这三棵树上去,然后看有哪些节点是有明显的富集的。
通过富集,第一步,就得到这张图。
这张图就是把第1个簇映射到三棵树上之后,把每棵树上富集度最高的10个节点列出来。
我们来看这生物过程(BP)的第一个节点,神经系统发育。
细胞组份(CC)的第一节点,突触。分子功能(MF)的第一节点,蛋白结合。
这都和这个样本来自于小鼠的脑子,是高度符合的。
刚才我们说了,GO是三棵大树,是由数据节点组成的树。
那我们就要仔细看一下,我们的高表达基因在树上的精细结构当中的富集情况。
这是第1个簇在三棵树上的富集情况。
先看在生物过程(BP)当中的富集情况。
在这里,越上面的节点,包括的内容就越宽泛。
越是下面的节点包含的内容就越是特定,范围越精细。
如果热点基因在一个节点当中的富集程度越高,则这个节点的颜色就越红,反之,如果富集程度低,则节点的颜色就越淡。
我们来看一下这个最红的节点,它的内容就是chemical synaptic transmission,化学突触传递。
这与我们在研究的是一个脑组织这一点,是高度吻合的。
对于在CC(细胞部件)、MF(分子功能)那两棵树上的映射,逻辑是一样的。我们这里就不重复了。
看清楚了在哪些节点有富集,接下就要对有富集的节点进行更细化的展示。
通过这张图,我们可以看到:基因数、富集因子、P值,这三个值。
基因数用圆点的面积大小来表示,圆点的面积越大,则这个点当中有表达的基因越多。
富集因子rich factor 用横轴来表示,越靠右边,则富集程度越高。
rich factor是指这里的基因数量,与平均基因数量的比值。
是odd ratio的意思。
P值则用颜色来表示,P值越显著,圆点的颜色越偏红。
接下来,是基因比例图。
比例当中的分子是这个节点有表达的基因数,分母是这次分析中找到的全部基因数,以百分比的方式,在横轴上显示出来。
看过了单个的节点,接下来来看显著富集GO节点与候选基因网络图。
这个图当中,中心的圆点是一些GO的节点。
这是根据节点P值的显著性,挑出的前20个节点。
节点的圆面积,表示这个节点当中包含的基因数量。
外面分出去的点,是一个一个的基因。
这里,我想用我自己的理解来解释一下这张图。
这是一幢大楼,上面用灯光打出了“欢迎回家,致敬英雄”八个字。
要注意的是,其实这些灯,早就已经安装到大楼上了。
而且安装的灯的总数要远远大于亮起的那些灯。
只是通电让部分灯管亮起来,显出几个汉字。
显著富集GO节点与候选基因网络图,也是这个道理。
也就是说,网络中有哪些节点,有哪些基因,其实早就存在于一个完整的GO节点与基因的网络图中。
但是那个网络图包含的节点与基因都太多了。
我们今天用富集的方法,把与实验样本最相关的一些节点和一些基因给高亮出来。
让科学家注意到在这个样本中,这些节点或者基因可能会带有特殊的意义,可以进行进一步的研究。
就象大楼上的少部分亮起来的灯管,让我们看到了几个有意义的汉字,这个道理是一样的。
看过了节点与候选基因的网络图,我们再来看GO节点关系图。
这里列出了P值最显著的20个节点。每个节点当中包含的基因越多,则这个节点的圆点就越大。
P值越显著,则点的颜色越偏红。
这张图更强调节点与节点之间的关系,逻辑是和前面的图一样的,我这里就不赘述了。
接下来,我们看KEGG的图。
KEGG是 Kyoto Encyclopedia of Genes and Genomes的首字母缩写,翻成中文就是“京都基因与基因组百科全书”。
它是一个关于生物通路的数据库。
理解KEGG图和理解GO图的思路是一样的。
我们这里就不重复了。
在我们的这个实例当中,P值最显著的是synaptic vesicle cycle,突触小泡循环。
这和我们做的是小鼠脑子的样本是一致的。
接下来是疾病和基因的关系。用的数据库是DisGeNET。根据富集的基因,在数据库中对相关的疾病,做一个富集。
我们看到,老年痴呆症、精神分裂症被富集出来。这与我们用的是脑组织样本,是高度一致的。
显著富集疾病与基因的网络图,可以把疾病与基因的关联关系告诉我们。
这里显示P值最显著的前20个疾病,以及我们富集的相关基因。
接下来把富集的基因与蛋白网络对应起来。
蛋白网络用的数据库是STRING数据库。
这里显示的是相互关联有显著差异的前50个基因。
映射到STRING数据库,得到的映射图。
有相互作用的蛋白之间,就会显示出一条连线。
STRING数据库当中,除了人之外,还纳入了许多别的物种的蛋白质相互作用,所以会带来新的参考信息。
这张图中,最大的这个点是Ncald。
全名是Neurocalcin delta, 它的中文名是“神经钙 delta”。
注意:这个Ncald基因并没有出现在cluster 1之前最富集的基因列表当中。
而Ncald这个基因与神经发育有关,这是很有趣的一件事情。
接下来,是做与10x单细胞数据结合分析。
做这个分析,目的在于搞清楚空间转录组当中。一个spot当中最可能是什么种类的细胞,或者说占大头的是哪一类细胞。
是神经胶质细胞?神经元?上皮细胞?或者其它什么细胞?。
要做这项工作,首先要对目标样本邻近的组织做一个10x的单细胞测序。
单细胞测序完了之后,再做PCA分析,然后把分析结果与经验数据进行比较,以判定组织中有哪些种类的细胞。
接下来,再把一个spot中的mRNA数据和用10x方法判定出来的细胞种类、表达值进行比较。
找出这个spot中大部分细胞最有可能是哪种细胞。
我用大白话来解释一下,这就象是中国的农村,这个村里80%的人姓王,我们就称这个村为“王村”。
虽然村中有少数人姓别的姓,但我们还是叫这个村是“王村”。
而旁边的另一个村姓李的人最多,我们就叫那个村为“李村”。
类似的,一个spot里面大多数的细胞可能是上皮细胞,那我们就把这个spot标成“上皮细胞”。
接下来,就是把标好细胞种类的spot还原到切片空间当中去。
如这个图,就是星形细胞的空间图。
下一个就是内皮细胞的空间图。
N5
五、总结
空间转录组,目前的分析思路,就是:先对spot进行降维、聚类分析。
得到聚好类的cluster,找出mRNA表达差异。
结合已有的数据库,对差异高表达进行进一步分析。
找到功能、细胞内定位、通路、蛋白、疾病的各种显著性差异。
以及各种高富集性、高关联性。
与10x数据结合,把spot还原到细胞种类。
通过以上方法得到新的科研线索,这就是目前的分析思路。
10x空间转录组还是一个新推出的服务,相信还有许多可以提升的方面、和可以挖掘的潜能。
地址:上海市松江区中心路1158号5幢5楼
电话:400-9200-612 传真:+86 21 6090 1207/1208-8154
dafabet手机黄金版技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号
微信:genenergy