dafabet手机黄金版_dafabet黄金手机版

晶诚所至 生命所能

Engage to Life Energy

 
科技服务 10X Chromiun全息基因解码系统
最新服务-10X Chromiun全息基因解码系统

Nature: 最连续的人类基因组组装

此文献于2016年10月5日在Nature上发表,主要是关于韩国人基因组De novo的研究。此研究运用了10x Genomics、三代测序、单分子实时测序和细菌人工染色体(BCA)测序。这是迄今为止发表的最为连续的人类基因组,为遗传学家提供了特异性人群参考基因组的重要数据。


De novo assembly and phasing of a Korean human genome

韩国人基因组De novo组装和定相

 

摘要

 

基因组装配和定相的进展为调查人类基因组的二倍体结构和揭示人群中全范围的结构变异提供了可能。这篇文章运用单分子实时测序(SMRT)、三代测序、基于微流体技术的linked-read和细菌人工染色体(BCA)测序等技术,研究韩国个体AK1(ref.1)的de novo组装和单体型定相。这项研究展示了目前最为连续的二倍体人类基因组组装结果,进一步研究了未报道过的亚洲人群特异的结构变异,以及可用于精准医学临床诊断的相关等位基因的高质量单倍体型。

 

测序思路

 

文章结果

 

1.  使用AK1组装来缩小人类基因组参考GRCh38中剩余的缺口

运用单分子测序与下一代图谱技术,产生高度连续的装配,contig N50大小为17.9Mb,scaffold N50大小为44.8Mb,并且8个染色体臂被分解为单个scaffold(Fig. 1a)。de novo组装连同局部组装和跨越长读取,覆盖了参考基因组中的190个常染色质上的105个缺口并且延伸72个缺口,有65个缺口几乎全部覆盖,补充了1.03Mb之前难以处理的序列(Fig. 1b)。Fig. 1c和d是一个说明AK1装配解决了两个缺口以及有来自BAC和基因组图谱的支持证据的例子。

2.  AK1中SV分布和亚洲特异性突变

作者鉴定到18,210个结构变异(Structural Variation, SVs),包含7,358个Deletion,10,077个Insertion,71个Inversion和704个复杂变异(Complex Variants),所有这些变异均在AK1组装结果和人类参考基因组GRCh37之间进行了直接比较,达到了单碱基的分辨率。在18,210个结构变异中,总共有11,927个变异是以前未曾报道的,其中包括的3,465个Deletion占总Deletion的47%,7,710个Insertion占总的Insertion的76%(Fig. 2a)。在这些新的SVs中,86%高度集中于移动元件和串联重复序列。相对应转录本的PacBio长读长序列显示,有155个亚型是从54个全新的插入位点处表达的,这意味着这些人类基因组中功能元件的存在,在以前是不可能通过短读长技术检测到的。

插入的研究表明,AK1序列不仅包含repeats和duplications,而且还包括在参考基因组中未发现的独特序列。为了检测独特序列是否有种族特异性,作者将来自高覆盖度的千人基因组计划样品和另外的高覆盖度亚洲样品的原始读数与作者的AK1装配进行比对,并比较四个祖先组的正常测序深度。在853个insertions中,包括在所有祖先组中发现的1.7Mb插入,800个insertions也称为关于GRCh38的变体分析,并且因此是添加到人参考基因组的候选变异。此外,400个insertions显示群体高度多态性频率变异性,其中76个,包括45个基因插入,是亚洲特异性。在基因插入中,作者发现POU2F3内的一个592bp插入,据报道在群体中具有明显可变的单倍型频率,由两个140bp重复序列之间的452bp的独特序列组成(Fig. 2b)。

作者还鉴定了在亚洲人群中具有更高频率的许多大范围insertions,例如在HRASLS2中的4,539bp的插入。 接下来,作者通过使用从千人基因组计划亚洲样本中推断的连锁不均衡块,调查与亚洲特异性变异相关的单倍型结构。在ANO2内发现的一个插入,在相同连锁不平衡块内具有与相邻纯合的AK1 SNPs相似的等位基因频率,这表明插入与SNPs共享单一的祖先单倍型(Fig. 2c)。

作者的发现表明亚洲人与其他群体相比具有重要基因组差异,并强调对欧洲血统之外的个人需要进一步的基因组研究,从而全方位的描述人类的功能性重要突变。

3.  单倍型定相组装

为了更好地反映二倍体基因组结构,作者构建了代表每个同源染色体对的两个单倍型的单独的从头组件(haplotigs)。 使用PacBio的long reads、Illumina的short reads、10X Genomics的linked reads(30x)和来自代表单个单倍型的BAC的reads(47x)进行定相,实现phased blocks的N50大小为11.6Mb。作者评估了相位块相对于BAC末端序列的准确性,发现long-range switch误差率低于0.3%。然后将SMRT的reads分成含有足够的标志性SNV的两个阶段。将两个分区的reads从头重组到haplotigs中(Table 1)。

将haplotig与人参考基因组比较,鉴定包括SNP,短indel和SV的单倍型特异等位基因。 除了从装配中检测到的SV,从haplotigs鉴定了13,436个杂合单倍型特异性的SV。 作者测试了相同相块中的这些SV相对于BAC contig的准确性,发现69个中的67个可以被完全匹配。在两个haplotigs之间杂合的SNV,indels和SV的组合长度为69.8Mb。此外,作者能够广泛地测量来自每个单倍型基因组的表达水平(Fig.3a)。

作者详细研究了人类白细胞抗原(HLA)基因的单倍型,并使用靶向SMRT测序证实了单倍型。为了避免与等位基因变异的多态性模式相关的常见问题,作者独立地组装主要组织相容性复合体(MHC)I类和II类区域。尽管有大量的SV,MHC II类区域仍然成功地定相,说明了作者的de novo定相方法的可行性(Fig. 3b)。作者的方法还可以检测到临床诊断相关的CYP2D6重复,并可进行定相(Fig. 3c)。这个结果表明,基于de novo装配的定相在解决有挑战性的高变区域具有优势,并且可以进一步用于药物基因组学。

这些结果表明通过整合SMRT测序,基因组图谱,linked reads和BACs,进行de novo基因组装配和定相,可用于生成高质量连续scaffolds,全范围SV的检测,并了解精确医学的临床相关基因的单倍型结构。

网站地图 | 法律声明 | 联系我们

地址:上海市漕河泾开发区漕宝路401号3号楼4B 电话:021-60901207/60901208
dafabet手机黄金版技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号

友情链接: