De novo assembly of microbial genomes from human gut metagenomes using barcoded short read sequences
利用带标签的短读长序列对人体肠道微生物的基因组进行de novo组装
Moss E, Bishara A, Tkachenko E, et al.
2017年4月
doi: http://dx.doi.org/10.1101/125211
导读:
10x genomics技术自2015年面世之后,被誉为长片段测序技术中的一匹黑马,在基因组denovo组装,重测序组装及单细胞的转录组研究方面具有广泛的应用前景。但针对环境微生物组的长片段测序,除了pacbio之外一直未见报道。此次,研究者们发明了一种新的应用于宏基因组样本的短读长测序标签组装技术,依托于10x genomics 建库平台,利用10x短标签序列,大大提高了宏基因组组装效果,实现了短读长方法无法实现的整体分类上的基因组元件组装。
背景:
Shotgun短读长测序的方法常用于研究复杂微生物群落的基因组构成及群落结构。然而,现有方法不能够捕捉到密切相关的共生菌之间的结构差异,比如由于基因水平转移或插入序列造成的差异。10x最新技术通过利用小片段标签标记来源于同一个大片段DNA分子的技术,通过短读长的序列获得长片段的信息。
本文研究者们发明了一种新的应用于宏基因组样本的短读长测序标签组装技术,利用这些标签提升宏基因组组装的水平。利用该方法,研究者对一个患有恶性血液病的患者肠道微生物群落开展分析。该病患接受了多种抗生素,化疗药物,免疫抑制剂等的治疗,导致肠道微生物群落结构严重破坏及拟杆菌属Bacteroides caccae的主导地位。本研究显著提高了技术的完备性,解释了B. caccae菌株转座子整合位置上的差异性,并且发现了在治疗条件下单个菌株的波动范围较大。
此外,本研究中还进行了RNA测序以探明B. caccae菌株相关转录基因的表达情况,结果发现,在进行denovo组装的B. caccae菌株中,抗生素抗性基因的过表达恰逢给予抗生素治疗及近端转座子出现在预测的细菌启动子区域上时。
本方法有效提高了宏基因组组装的效果,可以实现短读长方法无法实现的整体分类上的的基因组元件的组装。
材料和方法:
1. 招募临床志愿者,记录患者的体征,临床表征,人口信息,药物摄入及暴露时长,饮食等。
2. 取粪便样本进行DNA及RNA提取。DNA选择5kb以上的大片段用于10x genomics平台建库及后续测序。RNA进行常规illumina建库测序。此外,常规短读长DNA建库测序。
3. 测序平台Nextseq500 PE148bp进行10x文库的测序;Hiseq4000 PE100进行常规DNA及RNA文库测序。
主要结果:
1. 读取云序列及Athena组装原理:利用带有barcode标签的短读取序列获得长片段信息的Athena组装,具体说来就是利用10x Genomics Gemcode平台使样本DNA变成带有barcode序列的短reads(Fig.1a)经过片段选择之后,抽提出来的宏基因组DNA在微液滴中通过长片段扩增成为携带barcode序列的短片段文库,每个barcode序列上特有P3和P5接头匹配illumina测序仪。最终,所有短片段混池进行illumina测序。
Atnena组装可利用云读取的reads精准的组装重复序列(Fig.1b):首先,获取的10x reads按照常规的组装方式进行初步组装,获得种子contigs, 再将reads比对回这些种子序列上, 构建无解的scaffold支架映射图;在每个支架边缘,利用Athena组装,将带有barcode序列的reads对应上映射图中的长的contig,组装成长片段信息,再将混池的亚组装contig进行OLC组装获得长片段信息。这种组装可以获得更完整更连续的宏基因组组装结果,同时解决了片段重复的问题。
Fig.1 a 基于10x平台构建微生物组云读取文库流程;b. 宏基因组的Athena算法概述
2. 在复杂的宏基因组构成中高保守元素的组装:为了验证本方法的可靠性,研究采用10种已知细菌混合进行athena方法的组装验证,准确的获得了16s及23s rRNA操纵子亚基。该重复序列在不同的微生物之间存在大量相似的拷贝,并且作为物种的标签序列可用于区分微生物种属用于物种鉴定及群落结构分析。利用常规短读取建库和云建库方式结合常规组装方法和athena组装分别进行分析,以验证anthena组装的效果。结果显示,可以有效地对细菌DNA模拟混合样本中高度保守的rRNA基因亚基多个副本进行有效的组装,相较于传统的短读长组装,可以有效的提高这些序列的组装效果。
3. 一个临床肠道微生物样本的时间序列性组装。利用恶性血液病患者的肠道微生物研究验证Athena算法一样适用于自然生物样本。该病患样本接受过HCT治疗,在治疗过程中进行严格的饮食控制。在此期间发现,患者的肠道微生物经历了快速的简化,一种罕见的具有粘液降解能力的机会致病菌B.caccae成为占据主导地位的菌种(Fig.2)。
研究中还设置了四个时间节点来研究治疗过程中病人肠道菌的动态变化过程,这四个时间节点样本都是基于illumina Truseq和10x文库平台构建的,基于athena算法进行宏基因组组装,获得群落结构的信息。从数据结果看,这种方法较之以往的几种短读长技术从连续性和完整性上都有很大的提升。在优势菌中,Athena算法较之传统技术可以产生更具有连续性和完整性的组装(Fig.3)。通过比较时间连续性样本,对B.caccae进行选择性或潜在性基因组重构进行比较分析,该物种可能成为宿主肠道菌群的主宰物种。
Fig.2 病人治疗期间肠道微生物组构成变化及药物暴露情况
Fig.3 基于云读取和常规短读取技术进行的Bacteroides caccae基因组组装
4. 在临床样本中通过云读取复原几乎一样的菌种。为了定位Athena组装中的duplicated 序列,研究者在组装中设置短k-mer来比对短读取组装,并注意到与blast呈最高典型超比例的部分。文中重点关注了拟杆菌插入序列IS612元件,该序列出现在短读组装中,但在长片段读取中仅一个拷贝出现在极端覆盖度的序列中,这就暴露了短读长拼接的弊端。文中还选择了44个独立的IS云读取拼接的长片段进行long-rang PCR和Sanger测序。通过Sanger测序确认这些片段在基因组上的特定位置,44个序列中,43个得到验证,其中20个IS出现在B.caccae的contigs中(Fig.3)。
此外,在B.caccae的IS区域,短读片段比对Athena组装的结果确定了不同的菌株拥有一样的IS序列,源自一个共同的祖先,基于这些短序列比对,还可以对物种的相对丰度进行评估,经过PCR验证相对丰度信息与组装结果基本一致(Fig.4).
Fig.4 IS及Bacteroides caccae菌株确认
除了小的结构变异之外,研究者们还发现了大量大范围的结构变异。从时间点C到D的过程中,时间点C样本中可以发现有一段约60kb的序列其相对丰度显著性低于侧翼序列(Fig.5)。对这60kb的序列进行注释发现,这一段序列是介导基因组移动元素整合的酪氨酸重组酶。
Fig. 5 检测到一段与IS相邻的约60Kb的序列
5. 插入介导的转录上调研究。为研究Athena组装对宏转录组分析的影响,研究者利用Athena组装的结果为参考基因组进行转录组序列比对。分别在B,C,D三个时间点对同一案例进行转录组测序,分别用短读序列组装和Athena组装为参考基因组并将两者的结果比较分析,发现相比于短读拼接的结果,Athena组装的比对效率均有明显提高。
接下来研究者利用Athena组装结果与转录组测序结果研究了已发现的结构性变化对转录的潜在影响。针对IS612开展此研究,在基因组上定位了三个转录不对称位点,他们都显示下游基因表达量均达到相对于上游表达量的10倍的水平(Fig.6)。IS612上转录不对称程度最高的点与假定启动子位置一致,可上调NorM(多耐药性转运体)(Fig.6a)。而比对到该插入位点的短读序列显示,这种整合在A时间点无法检出,B点约三分之一能检出,但在C和D的中基本都能检出,与目标PCR的结果一致(Fig.6b)。其他的一些位点也得到了相应的验证说明。
Fig.6 B.caccae中插入序列(IS)介导的转录调控与宏转录组研究结果一致。
参考文献:
Moss E, Bishara A, Tkachenko E, et al. De novo assembly of microbial genomes from human gut metagenomes using barcoded short read sequences[J]. bioRxiv, 2017: 125211.
导读:10x genomics技术自2015年面世之后,被誉为长片段测序技术中的一匹黑马,在基因组denovo组装,重测序组装及单细胞的转录组研究方面具有广泛的应用前景。但针对环境微生物组的长片段测序,除了pacbio之外一直未见报道。此次,研究者们发明了一种新的应用于宏基因组样本的短读长测序标签组装技术,依托于10x genomics 建库平台,利用10x短标签序列,大大提高了宏基因组组装效果,实现了短读长方法无法实现的整体分类上的基因组元件组装。
背景:Shotgun短读长测序的方法常用于研究复杂微生物群落的基因组构成及群落结构。然而,现有方法不能够捕捉到密切相关的共生菌之间的结构差异,比如由于基因水平转移或插入序列造成的差异。10x最新技术通过利用小片段标签标记来源于同一个大片段DNA分子的技术,通过短读长的序列获得长片段的信息。本文研究者们发明了一种新的应用于宏基因组样本的短读长测序标签组装技术,利用这些标签提升宏基因组组装的水平。利用该方法,研究者对一个患有恶性血液病的患者肠道微生物群落开展分析。该病患接受了多种抗生素,化疗药物,免疫抑制剂等的治疗,导致肠道微生物群落结构严重破坏及拟杆菌属Bacteroides caccae的主导地位。本研究显著提高了技术的完备性,解释了B. caccae菌株转座子整合位置上的差异性,并且发现了在治疗条件下单个菌株的波动范围较大。此外,本研究中还进行了RNA测序以探明B. caccae菌株相关转录基因的表达情况,结果发现,在进行denovo组装的B. caccae菌株中,抗生素抗性基因的过表达恰逢给予抗生素治疗及近端转座子出现在预测的细菌启动子区域上时。本方法有效提高了宏基因组组装的效果,可以实现短读长方法无法实现的整体分类上的的基因组元件的组装。
材料和方法:
1. 招募临床志愿者,记录患者的体征,临床表征,人口信息,药物摄入及暴露时长,饮食等。
2. 取粪便样本进行DNA及RNA提取。DNA选择5kb以上的大片段用于10x genomics平台建库及后续测序。RNA进行常规illumina建库测序。此外,常规短读长DNA建库测序。
3. 测序平台Nextseq500 PE148bp进行10x文库的测序;Hiseq4000 PE100进行常规DNA及RNA文库测序。
主要结果:
1. 读取云序列及Athena组装原理:利用带有barcode标签的短读取序列获得长片段信息的Athena组装,具体说来就是利用10x Genomics Gemcode平台使样本DNA变成带有barcode序列的短reads(Fig.1a)经过片段选择之后,抽提出来的宏基因组DNA在微液滴中通过长片段扩增成为携带barcode序列的短片段文库,每个barcode序列上特有P3和P5接头匹配illumina测序仪。最终,所有短片段混池进行illumina测序。
Atnena组装可利用云读取的reads精准的组装重复序列(Fig.1b):首先,获取的10x reads按照常规的组装方式进行初步组装,获得种子contigs, 再将reads比对回这些种子序列上, 构建无解的scaffold支架映射图;在每个支架边缘,利用Athena组装,将带有barcode序列的reads对应上映射图中的长的contig,组装成长片段信息,再将混池的亚组装contig进行OLC组装获得长片段信息。这种组装可以获得更完整更连续的宏基因组组装结果,同时解决了片段重复的问题。
(Fig.1 a 基于10x平台构建微生物组云读取文库流程;b. 宏基因组的Athena算法概述)
2. 在复杂的宏基因组构成中高保守元素的组装:为了验证本方法的可靠性,研究采用10种已知细菌混合进行athena方法的组装验证,准确的获得了16s及23s rRNA操纵子亚基。该重复序列在不同的微生物之间存在大量相似的拷贝,并且作为物种的标签序列可用于区分微生物种属用于物种鉴定及群落结构分析。利用常规短读取建库和云建库方式结合常规组装方法和athena组装分别进行分析,以验证anthena组装的效果。结果显示,可以有效地对细菌DNA模拟混合样本中高度保守的rRNA基因亚基多个副本进行有效的组装,相较于传统的短读长组装,可以有效的提高这些序列的组装效果。
3. 一个临床肠道微生物样本的时间序列性组装。利用恶性血液病患者的肠道微生物研究验证Athena算法一样适用于自然生物样本。该病患样本接受过HCT治疗,在治疗过程中进行严格的饮食控制。在此期间发现,患者的肠道微生物经历了快速的简化,一种罕见的具有粘液降解能力的机会致病菌B.caccae成为占据主导地位的菌种(Fig.2)。研究中还设置了四个时间节点来研究治疗过程中病人肠道菌的动态变化过程,这四个时间节点样本都是基于illumina Truseq和10x文库平台构建的,基于athena算法进行宏基因组组装,获得群落结构的信息。从数据结果看,这种方法较之以往的几种短读长技术从连续性和完整性上都有很大的提升。在优势菌中,Athena算法较之传统技术可以产生更具有连续性和完整性的组装(Fig.3)。通过比较时间连续性样本,对B.caccae进行选择性或潜在性基因组重构进行比较分析,该物种可能成为宿主肠道菌群的主宰物种。
(Fig.2 病人治疗期间肠道微生物组构成变化及药物暴露情况)
(Fig.3 基于云读取和常规短读取技术进行的Bacteroides caccae基因组组装 )
4. 在临床样本中通过云读取复原几乎一样的菌种。为了定位Athena组装中的duplicated 序列,研究者在组装中设置短k-mer来比对短读取组装,并注意到与blast呈最高典型超比例的部分。文中重点关注了拟杆菌插入序列IS612元件,该序列出现在短读组装中,但在长片段读取中仅一个拷贝出现在极端覆盖度的序列中,这就暴露了短读长拼接的弊端。文中还选择了44个独立的IS云读取拼接的长片段进行long-rang PCR和Sanger测序。通过Sanger测序确认这些片段在基因组上的特定位置,44个序列中,43个得到验证,其中20个IS出现在B.caccae的contigs中(Fig.3)。此外,在B.caccae的IS区域,短读片段比对Athena组装的结果确定了不同的菌株拥有一样的IS序列,源自一个共同的祖先,基于这些短序列比对,还可以对物种的相对丰度进行评估,经过PCR验证相对丰度信息与组装结果基本一致(Fig.4).
(Fig.4 IS及Bacteroides caccae菌株确认)
除了小的结构变异之外,研究者们还发现了大量大范围的结构变异。从时间点C到D的过程中,时间点C样本中可以发现有一段约60kb的序列其相对丰度显著性低于侧翼序列(Fig.5)。对这60kb的序列进行注释发现,这一段序列是介导基因组移动元素整合的酪氨酸重组酶。
5. 插入介导的转录上调研究。为研究Athena组装对宏转录组分析的影响,研究者利用Athena组装的结果为参考基因组进行转录组序列比对。分别在B,C,D三个时间点对同一案例进行转录组测序,分别用短读序列组装和Athena组装为参考基因组并将两者的结果比较分析,发现相比于短读拼接的结果,Athena组装的比对效率均有明显提高。
接下来研究者利用Athena组装结果与转录组测序结果研究了已发现的结构性变化对转录的潜在影响。针对IS612开展此研究,在基因组上定位了三个转录不对称位点,他们都显示下游基因表达量均达到相对于上游表达量的10倍的水平(Fig.6)。IS612上转录不对称程度最高的点与假定启动子位置一致,可上调NorM(多耐药性转运体)(Fig.6a)。而比对到该插入位点的短读序列显示,这种整合在A时间点无法检出,B点约三分之一能检出,但在C和D的中基本都能检出,与目标PCR的结果一致(Fig.6b)。其他的一些位点也得到了相应的验证说明。
Fig.6 B.caccae中插入序列(IS)介导的转录调控与宏转录组研究结果一致。
Moss E, Bishara A, Tkachenko E, et al. De novo assembly of microbial genomes from human gut metagenomes using barcoded short read sequences[J]. bioRxiv, 2017: 125211.