Engage to Life Energy
利用10x Genomics官方分析流程及软件(Space Ranger & Loupe Browser),可将细胞分群信息及其空间定位相结合,深入探索不同空间定位下特定细胞亚群的生物学功能。
dafabet手机黄金版特邀名师讲堂第五课主要介绍了Space Ranger的基本原理、主要命令、重要参数及对分析结果。此外,还将分享在空间转录组分析中经常遇到的问题及经验,比如图片基准点被组织覆盖,spots位点无法识别,如何通过Loupe Browser进行manual alignment人工校正等。
为方便大家学习,小编把PPT内容整理出来啦!
扫描二维码观看课程回放
NO 1
●●《space ranger的主要原理》●●
首先,spaceranger将前面产生的fastq测序数据比对到参考基因组上,进行基因表达的定量,即UMI计数。
接着,依靠图像处理算法确定组织位置,即spots定量。这样就可以得到一个spots和基因的表达矩阵。
最后,基于这个表达矩阵,进行下一步降维,聚类及差异分析。
好,我们先看如何实现基因的定量。
主要分为四步:
第一步基因组比对,采用star将reads比对到参考基因组上,根据比对位置对reads进行分类:分为外显子区,内含子区及基因间隔区。
第二步MAPQ调整:对于有些reads同时比对到外显子区及其它区域,则优先认为比对到外显子;若该reads在外显子区域的MAPQ为255,则更可信
第四步UMI计数:主要有两个校正过程(1)对UMI碱基进行校正:主要校正UMI中的测序错误(2)对基因进行校正:保留多数reads支持的基因注释
Space Ranger 如何识别组织区域?
主要解决两个关键问题:一是基准点对齐,二是确定组织位置;
图中红色点就是基准点,这些基准点组成一个基准框,基准框的角和边都是独特的,左上角是沙漏型,右上角是实心六边形;右下角是空心六边形,左下角是三角形。
首先提取“看起来”像基准点的spots,将这些候选基准点与已知的基准点模式对齐,识别出基准线独特的角和边,坐标转换,将spatial barcode与组织图像联系起来。
接着,计算和比较组织切片放置的多个估计值,这些估计值用于训练分类器,将捕获区域内的每个像素标记为组织还是背景。这样就可以识别出组织区域。
spatial barcode在切片中的空间位置信息是怎么表示的呢?
它们是有坐标信息的。
我将上面那张图片截取了左上角部分进行放大,捕获区域内spots总共有78行,第一行spots的行坐标从数字0开始标记到最后一行77;列是交叉排列的,偶数行,第一个spots列坐标标记为0,依次为2,4,6一直到126;对于奇数行,第一个spot空出半格,从列坐标从1开始标记,依次为3,5,7一直到127,相当于每行64列,因此共计78*64=4992 spots。
也就是说每个捕获区域最多捕获4992个spots。拿两个spots举例说明一下:行坐标是4,偶数行,第一个spot的列坐标0,2,4,这个spot的坐标为4,4这个spot行坐标是5,奇数行,第一个spot的列坐标从1开始,1,3,5,7,坐标信息就是5,7。这个坐标信息就代表spatial barcode在切片中的空间位置。
经过基因组比对,识别组织区域,可以得到spots和基因的一个表达矩阵。基于表达矩阵,进行下一步降维,聚类及差异分析。降维过程中有一个非常重要的参数就是主成分个数。这个参数对后续spots聚类影响非常大的。这里space ranger 默认为10.
NO 2
●●《space ranger的主要命令》●●
space ranger主要有四个命令:
1.mkfastq实现的功能将测序产生的bcl格式数据转换成fastq格式
2.mkgtf/mkref用于构建参考基因组索引文件
3.有了原始fastq测序数据及参考基因组索引文件,可以用count命令对单样本进行spot和基因进行定量,定量结果储存在features,barcodes和matrix三个文件里。
4.mat2csv进行格式转换,将spot和基因进行定量转换为一个行为基因列为barcode的表达矩阵,csv格式。
另外,还有testrun:测试软件是否安装成功;upload:上传日志文件;sitecheck:查看配置,输出系统信息
我们先看一下space ranger下载及安装,spaceranger对内存要求比较高,最好128G。直接去官网下载,解压即可;对于人和小鼠参考基因组可从官网下载
mkfastq命令实现功能是将测序议产生的bcl格式转换为fastq格式,生成三类fastq压缩文件R1,R2,I1;R1read1端测序数据,R2reads2短测序数据,I储存sample index 信息;操作命令非常简单,就一条命令,里面有一个参数非常重要--use-bases-mask=Y28,I8,Y151,行命令的意思就是Reads1截取28bp,reads2截取151bp,sample index序列截取8bp,为什么这么做呢,我们看一下构建好的文库结果,这是reads1测序起始点,测到的是spatial barcode, UMI,poly(T)序列,只有前28bp才是有用信息。这是reads2测序的起始位点,因此只有reads2测到的是转录本序列
spaceranger mkgtf/ref :构建参考基因组索引文件;人和小鼠参考基因组可从官网下载,其它物种从Ensemble,UCSC等数据库下载fasta基因组文件和gtf注释文件
mkgtf实现的功能只过滤GTF文件,只保留感兴趣的基因注释 (gtf第三列特征类型必须有exon);mkref---输入FASTA 和过滤后的GTF文件构建索引;如果基因组文件比较大,mkref这个过程可能需要几个小时时间。
spaceranger count:实现的功能是spots和基因定量,输入是mkfastq得到的fastq文件及组织切片的图像,输出结果是一个outs目录,里面储存spots gene的定量结果及初步的降维聚类结果,后面会详细解读。
这张芯片最上面有个serial number ,这是每个visium波片上印刷的唯一标识符,四个捕获区域,从上倒下一次标记为A1,B1,C1,D1;如果space ranger无法自动识别出组织区域,需要manual alignment导出json文件,人工识别组织区域。这里特别提示以下:space ranger count命令对fastq测序数据命名要求非常严格。
spaceranger mat2csv实现的功能进行格式转换
目前,spaceranger 还未发布多个空转样本合并分析命令;但可以用cellranger aggr合并spotsXgene表达矩阵。特别注意:barcodeID后面数字与cellranger aggr输入aggr.csv文件顺序是一致的
TAAGAGATCACCTTAT-1:细胞ID加后缀-1表示Sample1
GGCACTAGACTACAA-2:细胞ID加后缀-2表示Sample2
NO 3
●●《重要参数》●●
10Xgenomics公司选取了人和小鼠五个数据集,read2的长度分别设置为75,91,120bp,分别统计每个数据集的比对率,绘制折线图。从图中可以看出read2设置91bp时,比对率最高;按同样的方法统计每个spot检测的基因个数中位数。同样在read291bp时,每个spot检测的基因个数中位数最高,这是因为测序过程中,随着试剂的消耗,reads测序末端质量偏低,引入碱基错误,同样reads2设置不能过短,reads可以比对到基因组多个位置,表面上比对率提高,但是mulit-mapped reads在UMI计数时也会过滤掉,造成资源浪费
space ranger识别组织区域时,主要依靠基准点对齐,基准筐四个角的形状是固定的,输入的图片必须保证方向是正确的,即左上角是沙漏型,右上角是实心六边形;右下角是空心六边形,左下角是三角形。如果方向不对,用ps调整一下即可
捕获区域的左侧或右侧有大量空白,或者含有其它样本捕获区域的一部分,可能会导致基准对准或组织检测结果不符。建议裁剪图像以去除基准边界外的区域。
space ranger识别组织区域时,主要依靠四个点,如果这四个点被组织区域覆盖掉,那么space ranger可能无法识别出组织区域。左图左下角这个角肉眼无法识别出,这种情况下一般space ranger也识别不出来。但像右边这种情况,四个角虽然被被组织区域覆盖掉,肉眼基本可以识别出,space ranger也可以识别出来。一旦遇到组织区域无法识别时,就可以通过loupe browser进行图片manual alignment
由于基准点在边缘处稍暗,因此曝光过度的基准点将显示为环而不是实心圆。通常,采集后无法校正曝光差的图像
如何进行manual alignment?
生成的json文件如何传递给count命令?
NO 4
●●《结果解读》●●
space ranger count命令输出结果保存在一个outs目录下,文件非常多。为了方便查看结果,提供了一个所有结果汇总的html页面,即web_summary.html。spatial目录储存着spatial barcode 空间位置信息;filtered_freature_bc_matrix储存着spotXgene定量结果;analysis目录储存着数据降维,聚类及差异分析结果;cloupe.cloupe用于可视化,可以用loupe browser打开,查看基因的表达,辅助鉴定细胞类型,创建和修改子群,差异分析等操作。这里呢重点介绍三个文件:web_summary,html,spatial目录和filter_feature_bc_matrix目录。
web_summary.html的结果分成了summary和analysis两部分,summary主要是一些描述信息,比如识别出来的组织区域spots数,检测到的基因数目,测序质量,reads比对情况等信息。我们分别详细介绍一下。
第一部分是spots&基因数目的评估结果,样本2总共检测到2698个被组织覆盖的spots,每个spot平均测序reads为115K左右,每个spot检测到的基因中位数是5861;
第二部分指标反应的是碱基测序质量的信息,一般情况下,基本上不会发生测序质量问题
第三部分描述是识别出来的组织区域及spots详细信息,图中红色框就是基准框,捕获区域内蓝色区域即是自动识别出来的组织区域。
第四部分是reads比对情况,比对率一般不会低于70%,如果比对率过低,考虑参考基因组物种不对或者样品污染;
第五部分是样本信息,ID,试剂型号,slide编号,参考基因组及软件版本号等
我们继续看analysis部分:聚类结果通过绘制二维的TSNE布图进行结果展示,图中每个点表示一个spot。上面这张图颜色的深浅表示检测到的UMI数量高低,颜色越深检测到UMI越高。下面这张图则是用不同的颜色代表不同的cluster;左边的图组织切片空间位置分布图,同理,上图颜色的深浅表示对应位置检测到的UMI数量高低,下图不同的颜色表示不同的cluster。这样的话,将spatia barcode对应的空间位置与基因表达量,聚类结果相关联起来。
对reads进行随机抽样,观察不同测序数据量情况下的测序饱和度分布,并绘制曲线。如果曲线末端区域平滑,说明测序接近饱和,再增加测序量,测序饱和度也不会提高太多
filtered_feature_bc_matrix目录包括barcodes.tsv.gz,features.tsv.gz,matrix.mtx.gz三个文件。barcodes里面储存spatial barcode ID,features文件储存检测到的基因id和symbol。matrix.mtx.gz是关于基因,Spot表达矩阵。第一行三个数字分别表示这个样本检测到了基因,spots和UMI总数。从第二行开始,第一列表示基因序号,二列表示spot序号,第三列表示检测到UMI数目。举例说一下,33509 1 53表示在features文件里第33509那个基因在第一个spot检测到的UMI数目是53。第一个spot对应的就是features文件第一个spatial barcode ID。
spatial 目录里面有个文件叫tissue_positions_lists.csv,里面存着每个spatial barcode ID的空间位置信息,总共六列。
第一列:spatial barcode ID;第二列:是否覆盖组织区域;第三列:行坐标;第四列:列坐标;第五列:每个spot中心列像素坐标;第六列:每个spot中心行像素坐标;
有了这些位置信息,我们就可以将spatial barcodes分析结果与它在组织中的空间位置联系起来。
讲到这里,大家对space ranger这款软件基本上有了一个认识。操作非常简单,就一条命令,但是大家需要掌握的知识点还是蛮多的:比如样本的命名,R1-length,R2-length长度设置,怎么从web_summary.html结果判定测序数据质量的好坏,是否需要补测数据等等。
NO 5
●●《总结》●●
这节课我主要从原理,主要命令,重要参数及结果解读等四个方面详细介绍spcae ranger这款软件,通过这节课,大家可以知道spaceranger count 主要的功能是spotXgene定量,将spatial barcode在切片组织中空间位置进行可视化,并基于表达矩阵进行一个粗略的降维和聚类。
如果需要进一步分析官方推荐使用 R 包Seurat。
地址:上海市松江区中心路1158号5幢5楼
电话:400-9200-612 传真:+86 21 6090 1207/1208-8154
dafabet手机黄金版技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号
微信:genenergy