dafabet手机黄金版_dafabet黄金手机版

晶诚所至 生命所能

Engage to Life Energy

 
上课笔记|基于Space Ranger实现空间转录组数据分析
发布日期:2020-07-17浏览:

利用10x Genomics官方分析流程及软件(Space Ranger & Loupe Browser),可将细胞分群信息及其空间定位相结合,深入探索不同空间定位下特定细胞亚群的生物学功能。

 

dafabet手机黄金版特邀名师讲堂第五课主要介绍了Space Ranger的基本原理、主要命令、重要参数及对分析结果。此外,还将分享在空间转录组分析中经常遇到的问题及经验,比如图片基准点被组织覆盖,spots位点无法识别,如何通过Loupe Browser进行manual alignment人工校正等。

 

为方便大家学习,小编把PPT内容整理出来啦!

 

扫描二维码观看课程回放
 

 

 

 

 

 

 

 

 

 

NO 1

●●《space ranger的主要原理》●●

 

 

首先,spaceranger将前面产生的fastq测序数据比对到参考基因组上,进行基因表达的定量,即UMI计数

接着,依靠图像处理算法确定组织位置,即spots定量。这样就可以得到一个spots和基因的表达矩阵。

最后,基于这个表达矩阵,进行下一步降维,聚类及差异分析

 

好,我们先看如何实现基因的定量

主要分为四步:

第一步基因组比对,采用star将reads比对到参考基因组上,根据比对位置对reads进行分类:分为外显子区,内含子区及基因间隔区。

第二步MAPQ调整:对于有些reads同时比对到外显子区及其它区域,则优先认为比对到外显子;若该reads在外显子区域的MAPQ255,则更可信

第三步转录组比对:进一步将比对到外显子区的reads与己知转录本进行比对,如果比对上并且链相同,则认为比对上该转录本。只有unique比对到转录本的reads才会作为UMI计数

第四步UMI计数:主要有两个校正过程(1)UMI碱基进行校正:主要校正UMI中的测序错误(2)对基因进行校正:保留多数reads支持的基因注释

 

 

Space Ranger 如何识别组织区域?

 

主要解决两个关键问题:一是基准点对齐,二是确定组织位置;

图中红色点就是基准点,这些基准点组成一个基准框,基准框的角和边都是独特的,左上角是沙漏型,右上角是实心六边形;右下角是空心六边形,左下角是三角形。

 

首先提取“看起来”像基准点的spots,将这些候选基准点与已知的基准点模式对齐,识别出基准线独特的角和边,坐标转换,将spatial barcode与组织图像联系起来。

接着,计算和比较组织切片放置的多个估计值,这些估计值用于训练分类器,将捕获区域内的每个像素标记为组织还是背景。这样就可以识别出组织区域。

 

 

spatial barcode在切片中的空间位置信息是怎么表示的呢?

 

它们是有坐标信息的。

我将上面那张图片截取了左上角部分进行放大,捕获区域内spots总共有78行,第一行spots的行坐标从数字0开始标记到最后一行77;列是交叉排列的,偶数行,第一个spots列坐标标记为0,依次为246一直到126;对于奇数行,第一个spot空出半格,从列坐标从1开始标记,依次为357一直到127,相当于每行64列,因此共计78*64=4992 spots

也就是说每个捕获区域最多捕获4992spots。拿两个spots举例说明一下:行坐标是4,偶数行,第一个spot的列坐标024,这个spot的坐标为44这个spot行坐标是5,奇数行,第一个spot的列坐标从1开始,1357,坐标信息就是57。这个坐标信息就代表spatial barcode在切片中的空间位置。

 

经过基因组比对,识别组织区域,可以得到spots和基因的一个表达矩阵。基于表达矩阵,进行下一步降维,聚类及差异分析。降维过程中有一个非常重要的参数就是主成分个数。这个参数对后续spots聚类影响非常大的。这里space ranger 默认为10.

 

 

NO 2

●●space ranger的主要命令●●

 

space ranger主要有四个命令

1.mkfastq实现的功能将测序产生的bcl格式数据转换成fastq格式

2.mkgtf/mkref用于构建参考基因组索引文件

3.有了原始fastq测序数据及参考基因组索引文件,可以用count命令对单样本进行spot和基因进行定量,定量结果储存在featuresbarcodesmatrix三个文件里。

4.mat2csv进行格式转换,将spot和基因进行定量转换为一个行为基因列为barcode的表达矩阵,csv格式。

另外,还有testrun:测试软件是否安装成功;upload:上传日志文件;sitecheck:查看配置,输出系统信息

 

我们先看一下space ranger下载及安装,spaceranger对内存要求比较高,最好128G。直接去官网下载,解压即可;对于人和小鼠参考基因组可从官网下载

 

 

mkfastq命令实现功能是将测序议产生的bcl格式转换为fastq格式,生成三类fastq压缩文件R1,R2,I1;R1read1端测序数据,R2reads2短测序数据,I储存sample index 信息;操作命令非常简单,就一条命令,里面有一个参数非常重要--use-bases-mask=Y28,I8,Y151,行命令的意思就是Reads1截取28bp,reads2截取151bpsample index序列截取8bp,为什么这么做呢,我们看一下构建好的文库结果,这是reads1测序起始点,测到的是spatial barcode UMIpoly(T)序列,只有前28bp才是有用信息。这是reads2测序的起始位点,因此只有reads2测到的是转录本序列

 

spaceranger mkgtf/ref :构建参考基因组索引文件;人和小鼠参考基因组可从官网下载,其它物种从EnsembleUCSC等数据库下载fasta基因组文件和gtf注释文件

 

mkgtf实现的功能只过滤GTF文件,只保留感兴趣的基因注释 (gtf第三列特征类型必须有exon)mkref---输入FASTA 和过滤后的GTF文件构建索引;如果基因组文件比较大,mkref这个过程可能需要几个小时时间。

 

 

spaceranger count:实现的功能是spots和基因定量,输入是mkfastq得到的fastq文件及组织切片的图像,输出结果是一个outs目录,里面储存spots gene的定量结果及初步的降维聚类结果,后面会详细解读。

 

这张芯片最上面有个serial  number ,这是每个visium波片上印刷的唯一标识符,四个捕获区域,从上倒下一次标记为A1,B1,C1,D1;如果space ranger无法自动识别出组织区域,需要manual alignment导出json文件,人工识别组织区域。这里特别提示以下:space ranger count命令对fastq测序数据命名要求非常严格。

 

spaceranger mat2csv实现的功能进行格式转换

目前,spaceranger 还未发布多个空转样本合并分析命令;但可以用cellranger aggr合并spotsXgene表达矩阵。特别注意:barcodeID后面数字与cellranger aggr输入aggr.csv文件顺序是一致的

TAAGAGATCACCTTAT-1:细胞ID加后缀-1表示Sample1

GGCACTAGACTACAA-2:细胞ID加后缀-2表示Sample2

 

 

NO 3

●●《重要参数》●●

 

 

模板来自于http://meihua.docer.com/

 

10Xgenomics公司选取了人和小鼠五个数据集,read2的长度分别设置为7591120bp,分别统计每个数据集的比对率,绘制折线图。从图中可以看出read2设置91bp时,比对率最高;按同样的方法统计每个spot检测的基因个数中位数。同样在read291bp时,每个spot检测的基因个数中位数最高,这是因为测序过程中,随着试剂的消耗,reads测序末端质量偏低,引入碱基错误,同样reads2设置不能过短,reads可以比对到基因组多个位置,表面上比对率提高,但是mulit-mapped readsUMI计数时也会过滤掉,造成资源浪费

 

 

space ranger识别组织区域时,主要依靠基准点对齐,基准筐四个角的形状是固定的,输入的图片必须保证方向是正确的,即左上角是沙漏型,右上角是实心六边形;右下角是空心六边形,左下角是三角形。如果方向不对,用ps调整一下即可

 

 

捕获区域的左侧或右侧有大量空白,或者含有其它样本捕获区域的一部分,可能会导致基准对准或组织检测结果不符。建议裁剪图像以去除基准边界外的区域。

 

 

space ranger识别组织区域时,主要依靠四个点,如果这四个点被组织区域覆盖掉,那么space ranger可能无法识别出组织区域。左图左下角这个角肉眼无法识别出,这种情况下一般space ranger也识别不出来。但像右边这种情况,四个角虽然被被组织区域覆盖掉,肉眼基本可以识别出,space ranger也可以识别出来。一旦遇到组织区域无法识别时,就可以通过loupe browser进行图片manual alignment

 

 

由于基准点在边缘处稍暗,因此曝光过度的基准点将显示为环而不是实心圆。通常,采集后无法校正曝光差的图像

 

如何进行manual alignment?

 

 

生成的json文件如何传递给count命令?

 

 

 

NO 4

●●《结果解读》●●

 

space ranger count命令输出结果保存在一个outs目录下,文件非常多。为了方便查看结果,提供了一个所有结果汇总的html页面,即web_summary.htmlspatial目录储存着spatial barcode 空间位置信息;filtered_freature_bc_matrix储存着spotXgene定量结果;analysis目录储存着数据降维,聚类及差异分析结果;cloupe.cloupe用于可视化,可以用loupe browser打开,查看基因的表达,辅助鉴定细胞类型,创建和修改子群,差异分析等操作。这里呢重点介绍三个文件:web_summary,htmlspatial目录和filter_feature_bc_matrix目录。

 

 

web_summary.html的结果分成了summaryanalysis两部分,summary主要是一些描述信息,比如识别出来的组织区域spots数,检测到的基因数目,测序质量,reads比对情况等信息。我们分别详细介绍一下。

 

第一部分是spots&基因数目的评估结果,样本2总共检测到2698个被组织覆盖的spots,每个spot平均测序reads115K左右,每个spot检测到的基因中位数是5861

 

第二部分指标反应的是碱基测序质量的信息,一般情况下,基本上不会发生测序质量问题

 

第三部分描述是识别出来的组织区域及spots详细信息,图中红色框就是基准框,捕获区域内蓝色区域即是自动识别出来的组织区域。

 

第四部分是reads比对情况,比对率一般不会低于70%,如果比对率过低,考虑参考基因组物种不对或者样品污染;

 

第五部分是样本信息,ID,试剂型号,slide编号,参考基因组及软件版本号等

 

 

我们继续看analysis部分:聚类结果通过绘制二维的TSNE布图进行结果展示,图中每个点表示一个spot。上面这张图颜色的深浅表示检测到的UMI数量高低,颜色越深检测到UMI越高。下面这张图则是用不同的颜色代表不同的cluster;左边的图组织切片空间位置分布图,同理,上图颜色的深浅表示对应位置检测到的UMI数量高低,下图不同的颜色表示不同的cluster。这样的话,将spatia barcode对应的空间位置与基因表达量,聚类结果相关联起来。

 

对reads进行随机抽样,观察不同测序数据量情况下的测序饱和度分布,并绘制曲线。如果曲线末端区域平滑,说明测序接近饱和,再增加测序量,测序饱和度也不会提高太多

filtered_feature_bc_matrix目录包括barcodes.tsv.gzfeatures.tsv.gzmatrix.mtx.gz三个文件。barcodes里面储存spatial barcode IDfeatures文件储存检测到的基因idsymbolmatrix.mtx.gz是关于基因,Spot表达矩阵。第一行三个数字分别表示这个样本检测到了基因,spotsUMI总数。从第二行开始,第一列表示基因序号,二列表示spot序号,第三列表示检测到UMI数目。举例说一下,33509 1 53表示在features文件里第33509那个基因在第一个spot检测到的UMI数目是53。第一个spot对应的就是features文件第一个spatial barcode ID

 

spatial 目录里面有个文件叫tissue_positions_lists.csv,里面存着每个spatial barcode ID的空间位置信息,总共六列。

 

第一列:spatial barcode ID;第二列:是否覆盖组织区域;第三列:行坐标;第四列:列坐标;第五列:每个spot中心列像素坐标;第六列:每个spot中心行像素坐标;

 

有了这些位置信息,我们就可以将spatial barcodes分析结果与它在组织中的空间位置联系起来。

 

讲到这里,大家对space ranger这款软件基本上有了一个认识。操作非常简单,就一条命令,但是大家需要掌握的知识点还是蛮多的:比如样本的命名,R1-lengthR2-length长度设置,怎么从web_summary.html结果判定测序数据质量的好坏,是否需要补测数据等等。

 

 

NO 5

●●《总结》●●

 

 

这节课我主要从原理,主要命令,重要参数及结果解读等四个方面详细介绍spcae ranger这款软件,通过这节课,大家可以知道spaceranger count 主要的功能是spotXgene定量,将spatial barcode在切片组织中空间位置进行可视化,并基于表达矩阵进行一个粗略的降维和聚类。

 

如果需要进一步分析官方推荐使用 R Seurat

 

 

 

 

 

 



 

上一条:技术分享|LIBRA-seq如何快速、高效的制备单克隆抗体?
下一条:上课笔记|多模式相交分析应用于原发性胰腺肿瘤
返回
网站地图 | 法律声明 | 联系我们

地址:上海市松江区中心路1158号5幢5楼

电话:400-9200-612  传真:+86 21 6090 1207/1208-8154

dafabet手机黄金版技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号

友情链接: