Engage to Life Energy
如何进行跨平台的数据整合是单细胞分析当前面临的挑战之一,比如针对相同或近似样本的10x Chromium单细胞和Visium空间转录表达数据,考虑它们存在一定的关联性,通过整合分析的视角可更好地了解样本的各种细胞类型组成和空间分布。
在上节直播课程中,dafabet手机黄金版生信分析高级工程师——何飞博士对Seurat的Label Transfer(标签转移注释)和Multimodal Intersection Analysis (多模态数据特征交集分析)这两种常用方法的核心思想和实现过程进行详细讲解。
小编把大家最关心的重点内容以图文形式展现给大家,如果想观看回放直播课程,扫描下方二维码免费报名!
10X Single Cell RNA简述
10X单细胞表达数据的产生过程包括样本组织细胞解离成悬浮液,经过10X平台建库测序,一般每个样本有成千上万个单细胞进行数据分析。
10X Visium Spatial Transcriptome 简述
ST则对组织空间中通过样本制备,组织切片,组织质控和优化等步骤对组织内多个非常微小区域进行采样,从保留了细胞在组织中的空间坐标信息,结合表达数据进行数据分析
scRNA和ST的整合分析策略
我们使用公共数据集小鼠脑区组织的单细胞和ST的示例数据来讲解上面的两种整合分析策略。
组织ST的一张芯片上总共有4992个Spots,78行,128列,Spot在列中交替排列
目前整合分析达到的一个目的是利用single cell RNA的细胞注释信息预测ST-Spot的细胞类型
Label Transfer (Seurat)
整体步骤如下,单细胞高变基因表达数据进行PCA降维,将ST的Spot投射到PCA空间上,搜索和过滤双向近邻对,Seurat中有个术语叫做Anchor,如何定义双向近邻后面会以图示讲解
第一步PCA分析是高维的基因空间降低到低维的PCA空间,比较形象点来说是从成千上万的变数中抓住主要矛盾
第二步Mutual Nearest Neighbor 双向最近邻方法,分为四步,第一步 搜索Anchors
接下去我们自然想看下这些Anchors在tSNE图上的哪些位置以及已知细胞类型的注释信息
如果我们把这些Anchors投射到ST空间切片图上,可以看到空间上许多五颜六色的点表示不同细胞类型注释的Spot,而灰色表示不是Anchor和没有注释的Spot,也是我们想要去预测的Spot,如果在tSNE图上,我们看到是这样子的。
最后一个步骤是预测Spot的细胞类型,因为有一组Anchors,每个Anchor有已知细胞类型,假定有个待预测的Spot,我们可以算出这个Spot归属于每个Anchor的概率,按照细胞类型为单位累加则是这个Spot属于每个细胞类型的概率值,加和等于1,这个是详细的计算步骤。
好,有了前面介绍整个步骤的想法,那么我们如何去实现?Seurat提供了2个封装好的函数,重要的是了解下输入参数的意义,第一个是FindTransferAnchors函数,参数较多,按照不同性质划分为3组参数分别讲解,第二个是TransferData函数
黑色方框是FindTransferAnchors的命令, 红色显示参数名称
第二组参数命名为基因特征
第三组参数命名为Anchor K值
第二个是TransferData函数,以黑色方框显示,红色显示参数名称
最终我们得到Spot的细胞类型预测结果文件,行为Spot编号,以Spot行序号 加星号 加Spot列序号 组合表示,列为细胞类型,指定一个Spot,如果某个细胞类型的概率值最大,即预测为此细胞类型
我们可以将上面的表格进行空间切片图的可视化,左边每个Spot用最大概率的细胞类型用不同颜色显示
MIA (Multimodal Intersection Analysis)
MIA,多模态数据取交集方法,是针对Spot Cluster 水平上利用单细胞注释信息来对ST-Spot聚类结果进行细胞类型注释。
给定单细胞某个已知细胞类型和某个Spot的聚类编号,我们分别筛选各自的CellMarkers和SpotMarkers
其实这个就是超几何分布模型,我们可以一个公式来计算显著性P值,由于P值是0-1之间,很小的数,我们可以取-log10,转换为得分,此得分越高,注释与这个细胞类型的可能性就越高。
最终我们得到SpotCluster的细胞类型预测结果文件,行为Cluster编号,其中括号内的数字表示ST的SpotMarker数,列为细胞类型
我们可以将上面的表格进行热图展示,行为Cluster,列为细胞类型,对细胞类型做了层级聚类
另外类似地,进行空间切片图的可视化,观察细胞类型在空间上的分布模式,我们可以看到Cluster3和对应的Oligo这个细胞类型的空间分布。
总 结
共有两要点,第一个要点 Label Transfer和MIA方法的使用需要满足两个条件
2万多个单细胞数据显示脑区组织有23种已知的细胞类型,这里以不同记号表示。
比如细胞量最大的细胞类型标记为L5 IT,中文全称为脑区新皮层层状结构第5层IT细胞,IT表示端脑内侧束。
这个细胞类型在柱状图中对应于最高的一跟柱子,在tSNE图中对应中间的一个区域,其余细胞类型不在一一列举,大家可以在课后类似的对应查找和了解
此示例数据中产生有效2696个Spot,黄色点显示,聚类分析产生18个簇,这些聚类簇的细胞类型是未知的,这里以数字编号显示。
ST的Spot直径大约有55uM,根据不同组织样本的特点,我们一般认为在空间位置邻近的属于同一种细胞类型,因此一个Spot内的细胞类型是同质的,当然不能排除不同细胞类型区域的交接区域内Spot是异质
两个分析方法,第一个针对Spot-Level,比如Seurat-Label-Transfer 和 Deconvolution反卷积方法,后面这个方法也许在未来的课程中讲解
第二个针对Spot-Cluster水平的MIA方法。
最后对ST的Spot进行细胞类型概率值预测,总和为一,也可近似理解为每个Spot的细胞类型比例。
我们也可以从几何直观上去了解它,本质上它是在寻找数据变化程度最大的维度方向,而且这些方向在高维空间是正交垂直的
有一点我想特别说明下,PCA是一种线性降维,因此有显式的计算公式,如果新样本数据一来,带入公式可以将这些数据点投射到已知的PCA空间上,这样的操作可以起到不同数据Coembedding整合在同一个空间上去。
在PCA空间上找一些双向邻居对,蓝色点表示单细胞,红色点表示Spot,在PCA空间中从这个单细胞出发搜索ST中K个邻居Spots,比如这里参数K设置5个,反过来从Spot出发去搜索单细胞数据中K个邻居单细胞,如果是双向邻居则定义为一个Anchor,这样在我们的数据集会找到很多Anchors
第二步过滤不可靠Anchor,在过滤阶段要求放宽,不是互邻居,只满足单邻居就可以
第三步,确定较可靠的双向邻居对
第四步,量化这些邻居对的可靠程度,采用是共享邻居的比例
我们可以看到前2个步骤K的选取一般为5, 200,这两个参数可控制Anchor数。
由于存在平台效应,从tSNE图上看单细胞和ST数据集是分离的,也是意料之中
第二个图我们可以看到这些Anchor对,红点表示ST,蓝点表示单细胞,绿色连线表示Anchor对,单细胞中有许多Anchor对成员散落于不同细胞类型注释中
那么我们可以看到各自的细胞注释比例情况。
第一组参数命名为Seurat对象
reference表示single cell RNA数据集的Seurat对象
query表示ST数据集的Seurat对象
reference.assay表示single cell RNA数据集的Seurat对象中分析子对象RNA,这个RNA记号是可自定义的
query.assay表示ST数据集的Seurat对象分析子对象Spatial,这个Spatial记号也可自定义
normalization.method表示标准化方法,一般为log2normalization
features表示single cell RNA的PCA分析中使用的基因特征集
max.features表示过滤anchor时每个PCA对应的最多基因特征数
k.anchor表示PCA空间中搜索Anchor的近邻K值
K.filter表示基因特征空间中过滤Anchor的近邻K值
k.score表示anchor score使用的近邻K值
在这里我还是强调下2个参数k.anchor用于搜索Anchors,如果这个值越高anchors数越多,而k.filter用于过滤Anchors,如果这个值越高,则保留的anchors越多。
anchors表示前面的FindTransferAnchors得到的anchors对象;
refdata表示single cell RNA数据集中细胞编号对应的细胞类型;
prediction.assay表示是否进行细胞类型预测;
weight.reduction表示ST数据中用于Spot与anchors的距离计算时的PCA空间;
k.weight表示计算Spot与Anchor权重向量时的近邻K值。
举例来说,第一行的Spot,预测为L5 IT的概率值达到0.96,在其余细胞类型中是最高的,因此这个Spot预测的细胞类型为L5 IT,我们可以在空间切片图上看到这个Spot的坐标位置
右边每个子图是每个细胞类型下每个Spot的预测概率值的空间分布,可以直观看每个细胞类型在空间上的分布模式
比如这个是L5 IT这个细胞类型的空间分布。
Background定义为单细胞与ST数据共同表达的基因集,根据单细胞的CellMarkers可以将背景基因集分成两块区域,蓝色和黄色部分
然后将ST的SpotMarkers分别与这两个区域取交集
如果这个ST的SpotMarkers是随机抽取的,那么落在这两个区域的基因数应该是符合一定的比例, 如果出现过度集中与蓝色区域,则我们认为CellMarkers与SpotMarkers是显著重叠的,那么我们可以得到这个SpotCluster属于这个细胞类型的可能性越高。
很简单,我们可以在R中的基本函数phyper中实现,命令用黑色方框显示。
i表示同时属于scRNA的CellMarkers和ST的SpotMarkers
M表示scRNA的CellMarkers
大N表示scRNA和ST同时表达基因
小n表示ST的SpotMarkers
在这里我想说个题外话,这个模型简单且非常实用, 在基因功能富积分析使用的模型就是这个,所以课后不妨大家多多了解下
如果得分越高,这个SpotCluster属于这个细胞类型的可能性就越高,我们可以看到Cluster3属于Oligo的得分最高,因此属于这个细胞类型的可能性就最高。
我们可以看到红色方框内是Cluster3对应的Oligo细胞类型的数值,由于此值在Cluster3对应的所有细胞类型最高,因此此Cluster被预测为Oligo细胞类型
我们也可以用桑基图展示Cluster与已知细胞类型对应关系,比如Cluster3沿着这个弧线对应到Oligo细胞类型。
第一个必须有准确细胞类型注释的单细胞数据
第二个single cell RNA和ST相同或相近样本保证共同的细胞类型组成,
第二个要点,Label Transfer是基于双向最近邻的Spot-Level水平的细胞类型注释,无需提前对ST数据进行聚类, 如果对前面讲的整个过程还是感觉稀里糊涂的话,一句通俗的话来概括就是ST数据最开始对所有Spot标记细胞类型未知的情况下,给部分Spot贴上标记,最后到全部Spot贴上标记。
而MIA是基于ST数据的聚类结果,在Spot-Cluster水平的细胞类型注释,因此它们两个分辨率是不同的。
地址:上海市松江区中心路1158号5幢5楼
电话:400-9200-612 传真:+86 21 6090 1207/1208-8154
dafabet手机黄金版技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号
微信:genenergy