dafabet手机黄金版_dafabet黄金手机版

晶诚所至生命所能

Engage to Life Energy

科技服务

单细胞测序服务

单细胞转录组测序

单细胞免疫谱测序

10x Genomics 空间转录组测序

单细胞ATAC-seq

万乘单细胞平台

墨卓单细胞平台

10x Visium HD

基因组水平

全基因组重测序

全外显子组捕获测序

目标序列捕获测序

新物种de novo 测序

宏基因组

Illumina ASA 芯片技术服务

Illumina GSA 芯片技术服务

转录组水平

有参考基因组的全转录组测序

链特异性转录组测序

lncRNA测序

环状RNA测序

small RNA测序

新物种de novo 转录组测序

单细胞基因组/转录组测序

原核微生物转录组测序

表观遗传水平

WGBS甲基化测序

RRBS甲基化测序

Human靶向甲基化测序

ChIP-Seq

RIP-Seq

CLIP-Seq

Illumina 人DNA甲基化芯片服务

基因芯片

Illumina ASA 芯片技术服务

Illumina GSA 芯片技术服务

Illumina MSA 芯片技术服务

Illumina 935K 芯片技术服务

蛋白组学服务

Label-free 定量蛋白质组

Label-free 定量蛋白质组

代谢组学服务
技术平台

10x Genomics平台

高通量测序平台

基因芯片平台

生物信息学平台

10x Genomics平台

高通量测序平台

基因芯片平台

生物信息学平台

分子生物学平台

细胞生物学平台
云平台
dafabet黄金手机版

公司新闻

研究动态

促销专栏

技术讲座
关于我们

企业简介

发展历程

专家顾问

资质荣誉

发表文章

员工风采

加入我们

联系我们
资料下载

单细胞转录组基础分析六：伪时间分析

发布日期：2021-08-27浏览：次

Monocle进行伪时间分析的核心技术是一种机器学习算法——反向图形嵌入 (Reversed Graph Embedding)。它分析的前提需要一张展现细胞转录特征相似性关系的图，Monocle2使用DDTree降维图，Monocle3使用UMAP降维图。Monocle的机器学习算法可以依据上述降维图形，学习描述细胞如何从一种状态过渡到另一种状态的轨迹。Monocle假设轨迹是树状结构，一端是“根”，另一端是“叶”。一个细胞在生物过程的开始，从根开始沿着主干进行，直到它到达第一个分支。然后，该细胞必须选择一条路径，并沿着树移动越来越远，直到它到达一片叶子。一个细胞的假时间值是它返回根所需的距离。降维方面monocle与seurat的过程大同小异，首先进行数据标准化，其次选择部分基因代表细胞转录特征，最后选用适当的算法降维。

对Monocle原理感兴趣的同学可以登录官网查看：

http://cole-trapnell-lab.github.io/monocle-release/

数据导入与处理

轨迹分析的前提是待分析的细胞有紧密的发育关系，PBMC细胞不是很好的的示例数据，我们选择T细胞群体演示一下。Monocle建议导入原始表达矩阵，由它完成数据标准化和其他预处理。

	dir.create("pseudotime")scRNAsub <- readRDS("scRNAsub.rds")  #scRNAsub是上一节保存的T细胞子集seurat对象data <- as(as.matrix(scRNAsub@assays$RNA@counts), 'sparseMatrix')pd <- new('AnnotatedDataFrame', data = scRNAsub@meta.data)fData <- data.frame(gene_short_name = row.names(data), row.names = row.names(data))fd <- new('AnnotatedDataFrame', data = fData)mycds <- newCellDataSet(data,                        phenoData = pd,                        featureData = fd,                        expressionFamily = negbinomial.size())

expressionFamily参数用于指定表达矩阵的数据类型，有几个选项可以选择：

稀疏矩阵用negbinomial.size()，
FPKM值用tobit()，
logFPKM值用gaussianff()

mycds是Monocle为我们的数据生成的对象，相当于我们在seurat使用的scRNA对象。数据导入后需要进行标准化和其他预处理：

	mycds <- estimateSizeFactors(mycds)mycds <- estimateDispersions(mycds, cores=4, relative_expr = TRUE)#mycds <- detectGenes(mycds, min_expr = 2)  #很多教程不用

与seurat把标准化后的表达矩阵保存在对象中不同，monocle只保存一些中间结果在对象中，需要用时再用这些中间结果转化。经过上面三个函数的计算，mycds对象中多了SizeFactors、Dipersions、num_cells_expressed和num_genes_expressed等信息。

选择代表性基因

完成数据导入和预处理后，就可以考虑选择哪些基因代表细胞的发育特征，Monocle官网教程提供了4个选择方法：

选择发育差异表达基因
选择clusters差异表达基因
选择离散程度高的基因
自定义发育marker基因

前三种都是无监督分析方法，细胞发育轨迹生成完全不受人工干预；最后一种是半监督分析方法，可以使用先验知识辅助分析。第一种方法要求实验设计有不同的时间点，对起点和终点的样本做基因表达差异分析，挑选显著差异的基因进行后续分析。对于没有时序设计的实验样本，可以使用第2、3种方法挑选基因。第2种方法要先对细胞降维聚类，然后用clusters之间差异表达的基因开展后续分析。Monocle有一套自己的降维聚类方法，与seurat的方法大同小异，很多教程直接使用seurat的差异分析结果。第3种方法使用离散程度高的基因开展分析，seurat有挑选高变基因的方法，monocle也有自己选择的算法。本案例数据不具备使用第1、4种方法的条件，因此这里只演示2、3种方法的使用。

	##使用clusters差异表达基因diff.genes <- read.csv('subcluster/diff_genes_wilcox.csv')diff.genes <- subset(diff.genes,p_val_adj<0.01)$genemycds <- setOrderingFilter(mycds, diff.genes)p1 <- plot_ordering_genes(mycds)##使用seurat选择的高变基因var.genes <- VariableFeatures(scRNAsub)mycds <- setOrderingFilter(mycds, var.genes)p2 <- plot_ordering_genes(mycds)##使用monocle选择的高变基因disp_table <- dispersionTable(mycds)disp.genes <- subset(disp_table, mean_expression >= 0.1 & dispersion_empirical >= 1 * dispersion_fit)$gene_idmycds <- setOrderingFilter(mycds, disp.genes)p3 <- plot_ordering_genes(mycds)##结果对比p1|p2|p3

选择不同的基因集，拟时分析的结果不同，实践中可以几种方法都试一下。

降维及细胞排序

使用disp.genes开展后续分析

	#降维mycds <- reduceDimension(mycds, max_components = 2, method = 'DDRTree')#排序mycds <- orderCells(mycds)#State轨迹分布图plot1 <- plot_cell_trajectory(mycds, color_by = "State")ggsave("pseudotime/State.pdf", plot = plot1, width = 6, height = 5)ggsave("pseudotime/State.png", plot = plot1, width = 6, height = 5)##Cluster轨迹分布图plot2 <- plot_cell_trajectory(mycds, color_by = "seurat_clusters")ggsave("pseudotime/Cluster.pdf", plot = plot2, width = 6, height = 5)ggsave("pseudotime/Cluster.png", plot = plot2, width = 6, height = 5)##Pseudotime轨迹图plot3 <- plot_cell_trajectory(mycds, color_by = "Pseudotime")ggsave("pseudotime/Pseudotime.pdf", plot = plot3, width = 6, height = 5)ggsave("pseudotime/Pseudotime.png", plot = plot3, width = 6, height = 5)##合并作图plotc <- plot1|plot2|plot3ggsave("pseudotime/Combination.pdf", plot = plotc, width = 10, height = 3.5)ggsave("pseudotime/Combination.png", plot = plotc, width = 10, height = 3.5)##保存结果write.csv(pData(mycds), "pseudotime/pseudotime.csv")

使用diff.genes分析的结果

轨迹图分面显示

	p1 <- plot_cell_trajectory(mycds, color_by = "State") + facet_wrap(~State, nrow = 1)p2 <- plot_cell_trajectory(mycds, color_by = "seurat_clusters") + facet_wrap(~seurat_clusters, nrow = 1)plotc <- p1/p2ggsave("pseudotime/trajectory_facet.png", plot = plotc, width = 6, height = 5)

Monocle基因可视化

	s.genes <- c("ITGB1","CCR7","KLRB1","GNLY")p1 <- plot_genes_jitter(mycds[s.genes,], grouping = "State", color_by = "State")p2 <- plot_genes_violin(mycds[s.genes,], grouping = "State", color_by = "State")p3 <- plot_genes_in_pseudotime(mycds[s.genes,], color_by = "State")plotc <- p1|p2|p3ggsave("pseudotime/genes_visual.png", plot = plotc, width = 8, height = 4.5)

拟时相关基因聚类热图

Monocle中differentialGeneTest()函数可以按条件进行差异分析，将相关参数设为fullModelFormulaStr = "~sm.ns(Pseudotime)"时，可以找到与拟时先关的差异基因。我们可以按一定的条件筛选基因后进行差异分析，全部基因都输入会耗费比较长的时间。建议使用cluster差异基因或高变基因输入函数计算。分析结果主要依据qval区分差异的显著性，筛选之后可以用plot_pseudotime_heatmap函数绘制成热图。

	#cluster差异基因diff.genes <- read.csv('subcluster/diff_genes_wilcox.csv')sig_diff.genes <- subset(diff.genes,p_val_adj<0.0001&abs(avg_logFC)>0.75)$genesig_diff.genes <- unique(as.character(sig_diff.genes))diff_test <- differentialGeneTest(mycds[sig_diff.genes,], cores = 1,                               fullModelFormulaStr = "~sm.ns(Pseudotime)")sig_gene_names <- row.names(subset(diff_test, qval < 0.01))p1 = plot_pseudotime_heatmap(mycds[sig_gene_names,], num_clusters=3,                             show_rownames=T, return_heatmap=T)ggsave("pseudotime/pseudotime_heatmap1.png", plot = p1, width = 5, height = 8)#高变基因disp_table <- dispersionTable(mycds)disp.genes <- subset(disp_table, mean_expression >= 0.5&dispersion_empirical >= 1*dispersion_fit)disp.genes <- as.character(disp.genes$gene_id)diff_test <- differentialGeneTest(mycds[disp.genes,], cores = 4,                               fullModelFormulaStr = "~sm.ns(Pseudotime)")sig_gene_names <- row.names(subset(diff_test, qval < 1e-04))p2 = plot_pseudotime_heatmap(mycds[sig_gene_names,], num_clusters=5,                             show_rownames=T, return_heatmap=T)ggsave("pseudotime/pseudotime_heatmap2.png", plot = p2, width = 5, height = 10)

BEAM分析

单细胞轨迹中通常包括分支，它们的出现是因为细胞的表达模式不同。当细胞做出命运选择时，或者遗传、化学或环境扰动时，就会表现出不同的基因表达模式。BEAM(Branched expression analysis modeling)是一种统计方法，用于寻找以依赖于分支的方式调控的基因。

	disp_table <- dispersionTable(mycds)disp.genes <- subset(disp_table, mean_expression >= 0.5&dispersion_empirical >= 1*dispersion_fit)disp.genes <- as.character(disp.genes$gene_id)mycds_sub <- mycds[disp.genes,]plot_cell_trajectory(mycds_sub, color_by = "State")beam_res <- BEAM(mycds_sub, branch_point = 1, cores = 8)beam_res <- beam_res[order(beam_res$qval),]beam_res <- beam_res[,c("gene_short_name", "pval", "qval")]mycds_sub_beam <- mycds_sub[row.names(subset(beam_res, qval < 1e-4)),]plot_genes_branched_heatmap(mycds_sub_beam,  branch_point = 1, num_clusters = 3, show_rownames = T)

上一条：正在热播|新冠与非新冠肺炎的不同免疫学特征
下一条：中国医师节|致敬了不起的中国医生！

网站地图 | 法律声明 | 联系我们

地址：上海市松江区中心路1158号5幢5楼

电话：400-9200-612 传真：+86 21 6090 1207/1208-8154

友情链接：