dafabet手机黄金版_dafabet黄金手机版

晶诚所至 生命所能

Engage to Life Energy

 
上课笔记| 特邀名师讲堂第一课--空间转录组测序图表数据挖掘思路&分析方法
发布日期:2020-06-12浏览:

 

 

dafabet手机黄金版特邀名师讲堂第一课上周四结束啦,为方便大家学习,小编把PPT整理出来啦。

 

扫描二维码进入直播间观看直播回放


N1

一、整体概况

 

10x 公司的Visium空间转录组方法,它和10x的单细胞测序,在原理上很相似。

 

单细胞测序是用胶珠和油包水方法,把细胞分隔开,同时又用DNA条形码保留单细胞信息。

 

 

Visium空间转录组则是把切片在芯片上展开,在空间上用条形码来保留切片上每个小点的空间位置信息。

 

空间转录组,在操作上是先把切片固定到芯片上,并用H&E染色之后,就可以在显微镜下看到这样的图。

 

 

这里是一个成年小鼠脑子的切片。芯片上四周会做许多个小点,这些点是用来在空间上给切片定位用的。

 

在接下来的讲解当中,我们都会围绕这个小鼠脑子样本的测序结果进行展开。

 

我们经过对这个样本的测序,得到的初步结果就是有1.4亿多条的reads,有2699个spot上是有测到序列,每个spot上平均有5.4万条的reads,每个spot上有表达的基因数量的中值是4851个基因。

 

 

N2

二、聚类分析

 

几千个spot,每个spot有几千个甚至上万个基因的表达量,这远远超出了普通人能够理解或者想象的范围。

 

所以,我们要对数据进行降维和聚类。通过降维,大量信息变成两维的、或低维的信息,以便于在荧幕上或者纸面上进行展示。几千个spots通过聚类被划分成几个或者十几、二十几个的cluster(簇),方便人脑识别,也方便接下来进行再下面的分析。

 

那么我们先是用PCA方法对表达数据进行主成份分析,PCA是Principal Component Analysis的首字母缩写。简单来说,PCA就是一个算法,它能在千万个变化量中,找到主要矛盾。

 

 

经过PCA降维分析之后,把第一个主成份,也就是PC_1,和第二个主成份,也就是PC_2,做成一个2维图,就是这样。

 

接下来取PCA当中的前30个主要成份,用Seurat软件中的Graph Base Louvain Cluster方法进行聚类,再用t-SNE降维并展示。t-SNE是t-distributed stochastic neighborembedding算法的首字母缩写,它非常适用于降维。

 

 

并且t-SNE算法有一个好处,就是能把有聚类的点在显示的时候聚合在一起进行显示。

 

在这张图当中,我们可以看到有相似性的点被聚集在一起,算法把它们分成了18个簇。

 

在图中这18个簇用18种颜色标了出来,图的右侧的图例是簇的编号与簇的颜色的对应关系。

 

接着,我们还可以做UMAP图(Uniform Manifold Approximation andProjection)。

 

 

UMAP除了把spot以聚类的方式表现出来之外,它还可以表现出细胞分化的轨迹。

 

也就是说,如果两个簇的细胞是从同一个来源分化出来的,那么UMAP就会把它们放到相近的位置。

 

这有利于发现细胞分化树的信息。

 

但因为t-SNE出现得比较早,有很多人更习惯用t-SNE,我们就在我们报告中同时保留了t-SNE和UMAP两种图。

 

 

我们这里要说明一点:就是PCA、t-SNE和UMAP这三张图当中,每一个簇有对应的关系。

 

也就是1号簇在这3张图中,都是1号簇,都用浅蓝色进行表示(其它簇也是一样)。

 

有了t-SNE和UMAP图之后,我们就可以直接对每个spot的基因表达量做分布图。

 

 

这个是nFeature_Spatial图,首先它是基于t-SNE图的,用来表示一个spot当中有多少个基因的表达被检测到。

 

表达的基因数越多,则颜色越红。

 

因为一般而言,一个细胞当中能表达的基因数量越多,往往表示这个细胞的分化程度越低。而一个细胞当中能表达的基因数量越少,则这个细胞的分化程度越高。

 

大家可以有一些联想,就是红色的spot可能其中的细胞的分化程度低。灰色的spot可能其中的细胞的分化程度高。但这是不一定的,因为每个spot当中有多少个细胞是不确定的。我提出来,可以让大家有一个思路,供大家参考。

 

这个是nCount_Spatial图,逻辑是一样的。

 

 

只是把有多少个基因被检测到,换成多少条UMI被检测到。而每一条UMI都关联到一条原始的mRNA。所以nCount的这张图,也可以理解成对spot当中的mRNA的多少进行描述的一张图。

 

然后,我们可以通过10x公司的Loupe Browser软件,轻松地把这些归纳成簇的spot还原到切片的空间位置上。

 

 

这样,cluster和切片的关系,就以用很直观的方式呈现在大家面前了。

 

这是cluster 1, 这是cluster 2,依次类推。

 

N3

三、差异表达分析

 

这是个把所有的簇进行两两比较的图,也就是一个矩阵。

 

 

图中红颜色是两个cluster相似性很高,蓝颜色则表示相似性低。

 

在这个矩阵当中可以直观地看到各个cluster的两两的相似性。

 

这张图是簇的PCA图。

 

PCA图以更加直观的方法,让大家可以直观地从整体上看到各个cluster之间的相互距离和相互差异。

 

接下来是群特异表达基因的热图,横轴是按簇被组织起来的spot。每一条细的纵列,就是一个spot;每一块纵向的块,就是一个簇。纵轴上,是一个一个的基因。在第一个cluster当中高表达的那些基因被聚集起来放在最上面,接下来排第2个cluster当中高表达的基因,这样依次排下去。

 

 

黄颜色表示高表达,紫颜色表示低表达。

 

有了这样一张热图,一个簇里面有哪些基因是高表达的,就一目了然了。

 

那我们来看一下,有哪些基因被富集出来?。

 

我们把最左上角展开来,也就是把它的第一个簇中,表达量最高的那些基因显示出来。

 

 

我们看到,这里排在第1位的基因是Efhd2,我查了一下,这个基因可能是与老年痴呆症有相关的。

 

 

接下来的这张图,还是簇和基因表达量的关系,每一个点就是一个基因和一个簇的交叉关系。

 

 

但这张图更加关注簇,而不是关心spot,最小一个纵列是一个簇。

 

 

同时,这张图中的每个点上有两个新维度。

 

一个是点的大小,代表是该簇当中该基因的UMI大于零的spot的数量。

 

也就是该簇当中有几个spot表达了这个基因。

 

第二是点的颜色,它表示该簇当中平均每个spot表达该基因的平均表达量,越红则平均表达量越高。

 

我们把这张图的最左下角展开来,还是第一簇当中表达最高的那些基因,第一个基因还是Efhd2。

 

既然Efhd2是这么一个很有特点的基因,那我们接下来还会反复追踪这个基因,用来给大家做展示。

 

这是在所有的spot当中的Efhd2这个基因的表达量放在t-SNE的当中,大家来看。

 

 

这是之前的按簇划分的t-SNE图,这当中1号簇是位于上面中间的浅蓝色的这些点。

 

我们在这里可以清楚地看到,Efhd2这个基因就是在上面中间的这些点里面颜色最红,表达量最高。

 

接下来,我们来看各个基因的小提琴图。

 

 

我们先来解释一下小提琴图。

 

这里的小提琴图表现的是一个基因在各个簇里的表达情况。

 

横轴上是18个簇。

 

 

纵轴是一个spot当中该基因的表达量,越高则表示表达量越大。

 

提琴的宽度是指在这个表达量水平,有多少个spot。

 

从图中,我们可以看到,Efhd2这个基因的表达量,在第一个簇里是最高的。

 

而且第一个簇里大多数的细胞的Efhd2表达量集中在略超过2的水平。

 

把Efhd2这个基因的表达还原到spot的原来空间位置。

 

 

我们可以看到,最红的点,也就是Efhd2表达量最高的spot都集中在这一个弧线上。

 

再来和第1个簇中的spot在切片当中的分布情况对照一下。

 

很明显,Efhd2这个基因的高表达的空间位置,就是和第1个簇的空间位置高度重合的。

 

这样,我们就把表达差异的几种图示方法给大家介绍了一遍。

 

N4

四、与数据库结合分析

 

第1个结合分析的数据库就是GO数据库。

 

 

先说一下GO数据库是什么。GO是geneontology的首字母缩写。gene ontology从字面直接翻译,就是“基因本体论”。

 

GO数据库是公开的,就是这个链接。目前,GO数据库是按三个大方向来对基因进行描述。

 

 

这三个大方向分别是:1、细胞组件,Cellular Component,CC。也就是这个基因表达出来的蛋白,它会组成细胞的哪个部分,或者说它的蛋白会跑到细胞的哪里去,定位在细胞的什么地方。比如这个蛋白是会定位在细胞膜上,还是呆在线粒体上。

 

2、分子功能,Molecular Function,MF。也就是这个基因的产物有什么功能,比如它是一个酶,有特定的催化功能。

 

3、生物过程,Biological Process,BP。也就是它会参与到生命的哪个过程当中去。

 

用大白话来讲,就是:你呆在什么地方?你做什么事?你完成什么任务?。

 

通过回答这样三个问题,来确认一个基因的概况。

 

GO数据库里面,对于这三大块,都是有现成的定义好的大量节点。

 

 

而且这些节点是成树状结构的。

 

且每棵树都很庞大。我们在这里可以看一下,其中一棵大树的大体样子。

 

对GO数据库我们就先介绍这些。

 

接下来要做的事情,就是把各个cluster当中有明显高表达的基因映射到这三棵树上去,然后看有哪些节点是有明显的富集的。

 

 

通过富集,第一步,就得到这张图。

 

这张图就是把第1个簇映射到三棵树上之后,把每棵树上富集度最高的10个节点列出来。

 

 

我们来看这生物过程(BP)的第一个节点,神经系统发育。

 

细胞组份(CC)的第一节点,突触。分子功能(MF)的第一节点,蛋白结合。

 

这都和这个样本来自于小鼠的脑子,是高度符合的。

 

刚才我们说了,GO是三棵大树,是由数据节点组成的树。

 

 

那我们就要仔细看一下,我们的高表达基因在树上的精细结构当中的富集情况。

 

这是第1个簇在三棵树上的富集情况。

 

 

先看在生物过程(BP)当中的富集情况。

 

在这里,越上面的节点,包括的内容就越宽泛。

 

越是下面的节点包含的内容就越是特定,范围越精细。

 

如果热点基因在一个节点当中的富集程度越高,则这个节点的颜色就越红,反之,如果富集程度低,则节点的颜色就越淡。

 

我们来看一下这个最红的节点,它的内容就是chemical synaptic transmission,化学突触传递。

 

这与我们在研究的是一个脑组织这一点,是高度吻合的。

 

对于在CC(细胞部件)、MF(分子功能)那两棵树上的映射,逻辑是一样的。我们这里就不重复了。

 

看清楚了在哪些节点有富集,接下就要对有富集的节点进行更细化的展示。

 

通过这张图,我们可以看到:基因数、富集因子、P值,这三个值。

 

 

基因数用圆点的面积大小来表示,圆点的面积越大,则这个点当中有表达的基因越多。

 

富集因子rich factor 用横轴来表示,越靠右边,则富集程度越高。

 

rich factor是指这里的基因数量,与平均基因数量的比值。

 

是odd ratio的意思。

 

P值则用颜色来表示,P值越显著,圆点的颜色越偏红。

 

接下来,是基因比例图。

 

 

比例当中的分子是这个节点有表达的基因数,分母是这次分析中找到的全部基因数,以百分比的方式,在横轴上显示出来。

 

看过了单个的节点,接下来来看显著富集GO节点与候选基因网络图。

 

 

这个图当中,中心的圆点是一些GO的节点。

 

这是根据节点P值的显著性,挑出的前20个节点。

 

节点的圆面积,表示这个节点当中包含的基因数量。

 

外面分出去的点,是一个一个的基因。

 

这里,我想用我自己的理解来解释一下这张图。

 

 

这是一幢大楼,上面用灯光打出了“欢迎回家,致敬英雄”八个字。

 

要注意的是,其实这些灯,早就已经安装到大楼上了。

 

而且安装的灯的总数要远远大于亮起的那些灯。

 

只是通电让部分灯管亮起来,显出几个汉字。

 

显著富集GO节点与候选基因网络图,也是这个道理。

 

也就是说,网络中有哪些节点,有哪些基因,其实早就存在于一个完整的GO节点与基因的网络图中。

 

但是那个网络图包含的节点与基因都太多了。

 

我们今天用富集的方法,把与实验样本最相关的一些节点和一些基因给高亮出来。

 

让科学家注意到在这个样本中,这些节点或者基因可能会带有特殊的意义,可以进行进一步的研究。

 

就象大楼上的少部分亮起来的灯管,让我们看到了几个有意义的汉字,这个道理是一样的。

 

看过了节点与候选基因的网络图,我们再来看GO节点关系图。

 

 

这里列出了P值最显著的20个节点。每个节点当中包含的基因越多,则这个节点的圆点就越大。

 

P值越显著,则点的颜色越偏红。

 

这张图更强调节点与节点之间的关系,逻辑是和前面的图一样的,我这里就不赘述了。

 

接下来,我们看KEGG的图。

 

 

KEGG是 Kyoto Encyclopedia of Genes and Genomes的首字母缩写,翻成中文就是“京都基因与基因组百科全书”。

 

它是一个关于生物通路的数据库。

 

理解KEGG图和理解GO图的思路是一样的。

 

我们这里就不重复了。

 

在我们的这个实例当中,P值最显著的是synaptic vesicle cycle,突触小泡循环。

 

这和我们做的是小鼠脑子的样本是一致的。

 

接下来是疾病和基因的关系。用的数据库是DisGeNET。根据富集的基因,在数据库中对相关的疾病,做一个富集。

 

 

我们看到,老年痴呆症、精神分裂症被富集出来。这与我们用的是脑组织样本,是高度一致的。

 

显著富集疾病与基因的网络图,可以把疾病与基因的关联关系告诉我们。

 

 

这里显示P值最显著的前20个疾病,以及我们富集的相关基因。

 

接下来把富集的基因与蛋白网络对应起来。

 

 

蛋白网络用的数据库是STRING数据库。

 

这里显示的是相互关联有显著差异的前50个基因。

 

映射到STRING数据库,得到的映射图。

 

有相互作用的蛋白之间,就会显示出一条连线。

 

STRING数据库当中,除了人之外,还纳入了许多别的物种的蛋白质相互作用,所以会带来新的参考信息。

 

这张图中,最大的这个点是Ncald。

 

全名是Neurocalcin delta, 它的中文名是“神经钙 delta”。

 

注意:这个Ncald基因并没有出现在cluster 1之前最富集的基因列表当中。

 

而Ncald这个基因与神经发育有关,这是很有趣的一件事情。

 

接下来,是做与10x单细胞数据结合分析。

 

 

做这个分析,目的在于搞清楚空间转录组当中。一个spot当中最可能是什么种类的细胞,或者说占大头的是哪一类细胞。

 

是神经胶质细胞?神经元?上皮细胞?或者其它什么细胞?。

 

要做这项工作,首先要对目标样本邻近的组织做一个10x的单细胞测序。

 

 

单细胞测序完了之后,再做PCA分析,然后把分析结果与经验数据进行比较,以判定组织中有哪些种类的细胞。

 

接下来,再把一个spot中的mRNA数据和用10x方法判定出来的细胞种类、表达值进行比较。

 

找出这个spot中大部分细胞最有可能是哪种细胞。

 

我用大白话来解释一下,这就象是中国的农村,这个村里80%的人姓王,我们就称这个村为“王村”。

 

虽然村中有少数人姓别的姓,但我们还是叫这个村是“王村”。

 

而旁边的另一个村姓李的人最多,我们就叫那个村为“李村”。

 

类似的,一个spot里面大多数的细胞可能是上皮细胞,那我们就把这个spot标成“上皮细胞”。

 

 

接下来,就是把标好细胞种类的spot还原到切片空间当中去。

 

如这个图,就是星形细胞的空间图。

 

 

下一个就是内皮细胞的空间图。

 

N5

五、总结

 

空间转录组,目前的分析思路,就是:先对spot进行降维、聚类分析。

 

 

得到聚好类的cluster,找出mRNA表达差异。

 

结合已有的数据库,对差异高表达进行进一步分析。

 

找到功能、细胞内定位、通路、蛋白、疾病的各种显著性差异。

 

以及各种高富集性、高关联性。

 

与10x数据结合,把spot还原到细胞种类。

 

通过以上方法得到新的科研线索,这就是目前的分析思路。

 

10x空间转录组还是一个新推出的服务,相信还有许多可以提升的方面、和可以挖掘的潜能。

 

上一条:上课笔记|人类背外侧前额叶皮层转录组规模的空间基因表达
下一条:抓住机会!空间转录组测序样本0元检测活动即将结束!
返回
网站地图 | 法律声明 | 联系我们

地址:上海市松江区中心路1158号5幢5楼

电话:400-9200-612  传真:+86 21 6090 1207/1208-8154

dafabet手机黄金版技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号

友情链接: