dafabet手机黄金版_dafabet黄金手机版

晶诚所至生命所能

Engage to Life Energy

科技服务

单细胞测序服务

单细胞转录组测序

单细胞免疫谱测序

10x Genomics 空间转录组测序

单细胞ATAC-seq

万乘单细胞平台

墨卓单细胞平台

10x Visium HD

基因组水平

全基因组重测序

全外显子组捕获测序

目标序列捕获测序

新物种de novo 测序

宏基因组

Illumina ASA 芯片技术服务

Illumina GSA 芯片技术服务

转录组水平

有参考基因组的全转录组测序

链特异性转录组测序

lncRNA测序

环状RNA测序

small RNA测序

新物种de novo 转录组测序

单细胞基因组/转录组测序

原核微生物转录组测序

表观遗传水平

WGBS甲基化测序

RRBS甲基化测序

Human靶向甲基化测序

ChIP-Seq

RIP-Seq

CLIP-Seq

Illumina 人DNA甲基化芯片服务

基因芯片

Illumina ASA 芯片技术服务

Illumina GSA 芯片技术服务

Illumina MSA 芯片技术服务

Illumina 935K 芯片技术服务

蛋白组学服务

Label-free 定量蛋白质组

Label-free 定量蛋白质组

代谢组学服务
技术平台

10x Genomics平台

高通量测序平台

基因芯片平台

生物信息学平台

10x Genomics平台

高通量测序平台

基因芯片平台

生物信息学平台

分子生物学平台

细胞生物学平台
云平台
dafabet黄金手机版

公司新闻

研究动态

促销专栏

技术讲座
关于我们

企业简介

发展历程

专家顾问

资质荣誉

发表文章

员工风采

加入我们

联系我们
资料下载

上课笔记| 特邀名师讲堂第一课--空间转录组测序图表数据挖掘思路&分析方法

发布日期：2020-06-12浏览：次

dafabet手机黄金版特邀名师讲堂第一课上周四结束啦，为方便大家学习，小编把PPT整理出来啦。

扫描二维码进入直播间观看直播回放

一、整体概况

10x 公司的Visium空间转录组方法，它和10x的单细胞测序，在原理上很相似。

单细胞测序是用胶珠和油包水方法，把细胞分隔开，同时又用DNA条形码保留单细胞信息。

Visium空间转录组则是把切片在芯片上展开，在空间上用条形码来保留切片上每个小点的空间位置信息。

空间转录组，在操作上是先把切片固定到芯片上，并用H&E染色之后，就可以在显微镜下看到这样的图。

这里是一个成年小鼠脑子的切片。芯片上四周会做许多个小点，这些点是用来在空间上给切片定位用的。

在接下来的讲解当中，我们都会围绕这个小鼠脑子样本的测序结果进行展开。

我们经过对这个样本的测序，得到的初步结果就是有1.4亿多条的reads，有2699个spot上是有测到序列,每个spot上平均有5.4万条的reads,每个spot上有表达的基因数量的中值是4851个基因。

二、聚类分析

几千个spot，每个spot有几千个甚至上万个基因的表达量，这远远超出了普通人能够理解或者想象的范围。

所以，我们要对数据进行降维和聚类。通过降维，大量信息变成两维的、或低维的信息，以便于在荧幕上或者纸面上进行展示。几千个spots通过聚类被划分成几个或者十几、二十几个的cluster（簇），方便人脑识别，也方便接下来进行再下面的分析。

那么我们先是用PCA方法对表达数据进行主成份分析，PCA是Principal Component Analysis的首字母缩写。简单来说，PCA就是一个算法，它能在千万个变化量中，找到主要矛盾。

经过PCA降维分析之后，把第一个主成份，也就是PC_1，和第二个主成份，也就是PC_2，做成一个2维图，就是这样。

接下来取PCA当中的前30个主要成份，用Seurat软件中的Graph Base Louvain Cluster方法进行聚类，再用t-SNE降维并展示。t-SNE是t-distributed stochastic neighborembedding算法的首字母缩写，它非常适用于降维。

并且t-SNE算法有一个好处，就是能把有聚类的点在显示的时候聚合在一起进行显示。

在这张图当中，我们可以看到有相似性的点被聚集在一起，算法把它们分成了18个簇。

在图中这18个簇用18种颜色标了出来，图的右侧的图例是簇的编号与簇的颜色的对应关系。

接着，我们还可以做UMAP图(Uniform Manifold Approximation andProjection)。

UMAP除了把spot以聚类的方式表现出来之外，它还可以表现出细胞分化的轨迹。

也就是说，如果两个簇的细胞是从同一个来源分化出来的，那么UMAP就会把它们放到相近的位置。

这有利于发现细胞分化树的信息。

但因为t-SNE出现得比较早，有很多人更习惯用t-SNE，我们就在我们报告中同时保留了t-SNE和UMAP两种图。

我们这里要说明一点：就是PCA、t-SNE和UMAP这三张图当中，每一个簇有对应的关系。

也就是1号簇在这3张图中，都是1号簇，都用浅蓝色进行表示（其它簇也是一样）。

有了t-SNE和UMAP图之后，我们就可以直接对每个spot的基因表达量做分布图。

这个是nFeature_Spatial图，首先它是基于t-SNE图的，用来表示一个spot当中有多少个基因的表达被检测到。

表达的基因数越多，则颜色越红。

因为一般而言，一个细胞当中能表达的基因数量越多，往往表示这个细胞的分化程度越低。而一个细胞当中能表达的基因数量越少，则这个细胞的分化程度越高。

大家可以有一些联想，就是红色的spot可能其中的细胞的分化程度低。灰色的spot可能其中的细胞的分化程度高。但这是不一定的，因为每个spot当中有多少个细胞是不确定的。我提出来，可以让大家有一个思路，供大家参考。

这个是nCount_Spatial图，逻辑是一样的。

只是把有多少个基因被检测到，换成多少条UMI被检测到。而每一条UMI都关联到一条原始的mRNA。所以nCount的这张图，也可以理解成对spot当中的mRNA的多少进行描述的一张图。

然后，我们可以通过10x公司的Loupe Browser软件，轻松地把这些归纳成簇的spot还原到切片的空间位置上。

这样，cluster和切片的关系，就以用很直观的方式呈现在大家面前了。

这是cluster 1，这是cluster 2，依次类推。

三、差异表达分析

这是个把所有的簇进行两两比较的图，也就是一个矩阵。

图中红颜色是两个cluster相似性很高，蓝颜色则表示相似性低。

在这个矩阵当中可以直观地看到各个cluster的两两的相似性。

这张图是簇的PCA图。

PCA图以更加直观的方法，让大家可以直观地从整体上看到各个cluster之间的相互距离和相互差异。

接下来是群特异表达基因的热图，横轴是按簇被组织起来的spot。每一条细的纵列，就是一个spot；每一块纵向的块，就是一个簇。纵轴上，是一个一个的基因。在第一个cluster当中高表达的那些基因被聚集起来放在最上面，接下来排第2个cluster当中高表达的基因，这样依次排下去。

黄颜色表示高表达，紫颜色表示低表达。

有了这样一张热图，一个簇里面有哪些基因是高表达的，就一目了然了。

那我们来看一下，有哪些基因被富集出来？。

我们把最左上角展开来，也就是把它的第一个簇中，表达量最高的那些基因显示出来。

我们看到，这里排在第1位的基因是Efhd2，我查了一下，这个基因可能是与老年痴呆症有相关的。

接下来的这张图，还是簇和基因表达量的关系，每一个点就是一个基因和一个簇的交叉关系。

但这张图更加关注簇，而不是关心spot，最小一个纵列是一个簇。

同时，这张图中的每个点上有两个新维度。

一个是点的大小，代表是该簇当中该基因的UMI大于零的spot的数量。

也就是该簇当中有几个spot表达了这个基因。

第二是点的颜色，它表示该簇当中平均每个spot表达该基因的平均表达量，越红则平均表达量越高。

我们把这张图的最左下角展开来，还是第一簇当中表达最高的那些基因，第一个基因还是Efhd2。

既然Efhd2是这么一个很有特点的基因，那我们接下来还会反复追踪这个基因，用来给大家做展示。

这是在所有的spot当中的Efhd2这个基因的表达量放在t-SNE的当中，大家来看。

这是之前的按簇划分的t-SNE图，这当中1号簇是位于上面中间的浅蓝色的这些点。

我们在这里可以清楚地看到，Efhd2这个基因就是在上面中间的这些点里面颜色最红，表达量最高。

接下来，我们来看各个基因的小提琴图。

我们先来解释一下小提琴图。

这里的小提琴图表现的是一个基因在各个簇里的表达情况。

横轴上是18个簇。

纵轴是一个spot当中该基因的表达量，越高则表示表达量越大。

提琴的宽度是指在这个表达量水平，有多少个spot。

从图中，我们可以看到，Efhd2这个基因的表达量，在第一个簇里是最高的。

而且第一个簇里大多数的细胞的Efhd2表达量集中在略超过2的水平。

把Efhd2这个基因的表达还原到spot的原来空间位置。

我们可以看到，最红的点，也就是Efhd2表达量最高的spot都集中在这一个弧线上。

再来和第1个簇中的spot在切片当中的分布情况对照一下。

很明显，Efhd2这个基因的高表达的空间位置，就是和第1个簇的空间位置高度重合的。

这样，我们就把表达差异的几种图示方法给大家介绍了一遍。

四、与数据库结合分析

第1个结合分析的数据库就是GO数据库。

先说一下GO数据库是什么。GO是geneontology的首字母缩写。gene ontology从字面直接翻译，就是“基因本体论”。

GO数据库是公开的，就是这个链接。目前，GO数据库是按三个大方向来对基因进行描述。

这三个大方向分别是：1、细胞组件，Cellular Component，CC。也就是这个基因表达出来的蛋白，它会组成细胞的哪个部分，或者说它的蛋白会跑到细胞的哪里去，定位在细胞的什么地方。比如这个蛋白是会定位在细胞膜上，还是呆在线粒体上。

2、分子功能，Molecular Function，MF。也就是这个基因的产物有什么功能，比如它是一个酶，有特定的催化功能。

3、生物过程，Biological Process，BP。也就是它会参与到生命的哪个过程当中去。

用大白话来讲，就是：你呆在什么地方？你做什么事？你完成什么任务？。

通过回答这样三个问题，来确认一个基因的概况。

GO数据库里面，对于这三大块，都是有现成的定义好的大量节点。

而且这些节点是成树状结构的。

且每棵树都很庞大。我们在这里可以看一下，其中一棵大树的大体样子。

对GO数据库我们就先介绍这些。

接下来要做的事情，就是把各个cluster当中有明显高表达的基因映射到这三棵树上去，然后看有哪些节点是有明显的富集的。

通过富集，第一步，就得到这张图。

这张图就是把第1个簇映射到三棵树上之后，把每棵树上富集度最高的10个节点列出来。

我们来看这生物过程（BP）的第一个节点，神经系统发育。

细胞组份（CC）的第一节点，突触。分子功能（MF）的第一节点，蛋白结合。

这都和这个样本来自于小鼠的脑子，是高度符合的。

刚才我们说了，GO是三棵大树，是由数据节点组成的树。

那我们就要仔细看一下，我们的高表达基因在树上的精细结构当中的富集情况。

这是第1个簇在三棵树上的富集情况。

先看在生物过程（BP）当中的富集情况。

在这里，越上面的节点，包括的内容就越宽泛。

越是下面的节点包含的内容就越是特定，范围越精细。

如果热点基因在一个节点当中的富集程度越高，则这个节点的颜色就越红，反之，如果富集程度低，则节点的颜色就越淡。

我们来看一下这个最红的节点，它的内容就是chemical synaptic transmission，化学突触传递。

这与我们在研究的是一个脑组织这一点，是高度吻合的。

对于在CC（细胞部件）、MF（分子功能）那两棵树上的映射，逻辑是一样的。我们这里就不重复了。

看清楚了在哪些节点有富集，接下就要对有富集的节点进行更细化的展示。

通过这张图，我们可以看到：基因数、富集因子、P值，这三个值。

基因数用圆点的面积大小来表示，圆点的面积越大，则这个点当中有表达的基因越多。

富集因子rich factor 用横轴来表示，越靠右边，则富集程度越高。

rich factor是指这里的基因数量，与平均基因数量的比值。

是odd ratio的意思。

P值则用颜色来表示，P值越显著，圆点的颜色越偏红。

接下来，是基因比例图。

比例当中的分子是这个节点有表达的基因数，分母是这次分析中找到的全部基因数，以百分比的方式，在横轴上显示出来。

看过了单个的节点，接下来来看显著富集GO节点与候选基因网络图。

这个图当中，中心的圆点是一些GO的节点。

这是根据节点P值的显著性，挑出的前20个节点。

节点的圆面积，表示这个节点当中包含的基因数量。

外面分出去的点，是一个一个的基因。

这里，我想用我自己的理解来解释一下这张图。

这是一幢大楼，上面用灯光打出了“欢迎回家，致敬英雄”八个字。

要注意的是，其实这些灯，早就已经安装到大楼上了。

而且安装的灯的总数要远远大于亮起的那些灯。

只是通电让部分灯管亮起来，显出几个汉字。

显著富集GO节点与候选基因网络图，也是这个道理。

也就是说，网络中有哪些节点，有哪些基因，其实早就存在于一个完整的GO节点与基因的网络图中。

但是那个网络图包含的节点与基因都太多了。

我们今天用富集的方法，把与实验样本最相关的一些节点和一些基因给高亮出来。

让科学家注意到在这个样本中，这些节点或者基因可能会带有特殊的意义，可以进行进一步的研究。

就象大楼上的少部分亮起来的灯管，让我们看到了几个有意义的汉字，这个道理是一样的。

看过了节点与候选基因的网络图，我们再来看GO节点关系图。

这里列出了P值最显著的20个节点。每个节点当中包含的基因越多，则这个节点的圆点就越大。

P值越显著，则点的颜色越偏红。

这张图更强调节点与节点之间的关系，逻辑是和前面的图一样的，我这里就不赘述了。

接下来，我们看KEGG的图。

KEGG是 Kyoto Encyclopedia of Genes and Genomes的首字母缩写，翻成中文就是“京都基因与基因组百科全书”。

它是一个关于生物通路的数据库。

理解KEGG图和理解GO图的思路是一样的。

我们这里就不重复了。

在我们的这个实例当中，P值最显著的是synaptic vesicle cycle，突触小泡循环。

这和我们做的是小鼠脑子的样本是一致的。

接下来是疾病和基因的关系。用的数据库是DisGeNET。根据富集的基因，在数据库中对相关的疾病，做一个富集。

我们看到，老年痴呆症、精神分裂症被富集出来。这与我们用的是脑组织样本，是高度一致的。

显著富集疾病与基因的网络图，可以把疾病与基因的关联关系告诉我们。

这里显示P值最显著的前20个疾病，以及我们富集的相关基因。

接下来把富集的基因与蛋白网络对应起来。

蛋白网络用的数据库是STRING数据库。

这里显示的是相互关联有显著差异的前50个基因。

映射到STRING数据库，得到的映射图。

有相互作用的蛋白之间，就会显示出一条连线。

STRING数据库当中，除了人之外，还纳入了许多别的物种的蛋白质相互作用，所以会带来新的参考信息。

这张图中，最大的这个点是Ncald。

全名是Neurocalcin delta, 它的中文名是“神经钙 delta”。

注意：这个Ncald基因并没有出现在cluster 1之前最富集的基因列表当中。

而Ncald这个基因与神经发育有关，这是很有趣的一件事情。

接下来，是做与10x单细胞数据结合分析。

做这个分析，目的在于搞清楚空间转录组当中。一个spot当中最可能是什么种类的细胞，或者说占大头的是哪一类细胞。

是神经胶质细胞？神经元？上皮细胞？或者其它什么细胞？。

要做这项工作，首先要对目标样本邻近的组织做一个10x的单细胞测序。

单细胞测序完了之后，再做PCA分析，然后把分析结果与经验数据进行比较，以判定组织中有哪些种类的细胞。

接下来，再把一个spot中的mRNA数据和用10x方法判定出来的细胞种类、表达值进行比较。

找出这个spot中大部分细胞最有可能是哪种细胞。

我用大白话来解释一下，这就象是中国的农村，这个村里80%的人姓王，我们就称这个村为“王村”。

虽然村中有少数人姓别的姓，但我们还是叫这个村是“王村”。

而旁边的另一个村姓李的人最多，我们就叫那个村为“李村”。

类似的，一个spot里面大多数的细胞可能是上皮细胞，那我们就把这个spot标成“上皮细胞”。

接下来，就是把标好细胞种类的spot还原到切片空间当中去。

如这个图，就是星形细胞的空间图。

下一个就是内皮细胞的空间图。

五、总结

空间转录组，目前的分析思路，就是：先对spot进行降维、聚类分析。

得到聚好类的cluster，找出mRNA表达差异。

结合已有的数据库，对差异高表达进行进一步分析。

找到功能、细胞内定位、通路、蛋白、疾病的各种显著性差异。

以及各种高富集性、高关联性。

与10x数据结合，把spot还原到细胞种类。

通过以上方法得到新的科研线索，这就是目前的分析思路。

10x空间转录组还是一个新推出的服务，相信还有许多可以提升的方面、和可以挖掘的潜能。

上一条：上课笔记|人类背外侧前额叶皮层转录组规模的空间基因表达
下一条：抓住机会!空间转录组测序样本0元检测活动即将结束！

网站地图 | 法律声明 | 联系我们

地址：上海市松江区中心路1158号5幢5楼

电话：400-9200-612 传真：+86 21 6090 1207/1208-8154

友情链接：