Engage to Life Energy
文章的题目,是《Genome-wide functional screen of 3‘UTR variants uncovers causal variants for human disease and evolution》
这篇文章,发表在Cell杂志2021年9月刊上
文章的题目翻译成中文,意思是《3'UTR 变异的全基因组功能筛选揭示了人类疾病和进化的因果变异》
文章的通讯作者,名字叫James R. Xue,是美国 Broad 研究所的研究人员。
实验内容的第一部分,MPRAu 可重现地表征数千个 3’UTR 元素的功能
MPRAu,是massive parallel reporter assay for 3’UTR的首字母缩写,翻译成中文,意思是“对3’UTR的大规模平行报告检测”。
接下来,会多次提到这个MPRAu方法,我会把它称为M方法,同样,提到MPRAu值,我们把它简称为“M值”,以方便讲解
实验的第一步,是选取大量的目标的3’UTR区域的100BP长的片段,在芯片上进行大规模平行合成,在合成中既要合成参考型的基因序列,又要合成变异型的基因序列。
并且,在每个序列头上,还要加上一个特定的Barcode序列,有了这个barcode序列,在后面的实验中,可以通过跟踪barcode序列,来方便地回朔到原来的3’UTR序列。
在这其中,为了减少 barcode序列造成的影响,作者对一对等位基因,用好几个随机的barcode,以减小barcode序列造成的影响。
第二步,把合成好的3’UTR序列,连同barcode序列,组装进质粒。
这个质粒上已经事先连上了GFP蛋白的基因,也就是会发出荧光的报告基因。
第三步,把质粒转染进培养的细胞中去,在本项研究中,是转染了6种细胞系。
第四步,从培养的细胞中分离出mRNA,并且进行扩增。
接下来,对mRNA,和DNA进行高通量测序,然后,分析每种质粒,计算它的mRNA的产量,和它的质粒的数量的比值。
然后,比较参考虑序列的比值,和变异序列的比值,看这个差值的大小。
作者把这个差值,称作allelic skew,翻成中文,是“等位基因倾斜”的意思。
作者一共是挑了12,173个3’UTR的变异,来做这项分析。被挑选出来的变异,是在GWAS分析中,被发现与疾病的发病有关联的3’UTR的SNP或者indel
作者纳入M方法检测的基因位点,一共是12173个。
这其中的组成,大体分成三组,
1、被推断与疾病相关的位点,有2153个
2、在人类中处于正向选择之下的,SNP和插入缺失重叠区域,有9325个,也就是更有利于人类生存的SNP和indel重叠区域
3、罕见的3′UTR,已知这些变异具有潜在的有害后果,46个
这是RNA计数与质粒DNA计数的关系,纵轴是RNA的计数,横轴是DNA的计数。
我们可以看到有较多的点落在了主线的下方,也就是说,这些RNA的表达,是有所减少的。
这是6种细胞,做重复实验,对各组重复实验进行两两比较,得到的热图。
横轴和纵轴上,分别标了6种色块,每一个色块,就是一种细胞。
我们可以看到,从左上到右下的这条斜的轴,是深红色的,
也就是说,同一种细胞的重复实验组,它们的内部的一致性很高,也就是重现性很好。
平均的皮尔森相关性系数达到0.99
这张图,
显示的是有显著差异的“调节转录丰度的变异”,它的英文原文是transcript abundance-modulating variants,缩写是tamVars
它显示的是变异的序列,和参考的序列,所导致的目标基因的mRNA表达量的差异。
图中横轴是参考序列,所产生的基因表达量;纵轴是变异的序列,所产生的基因表达量。
图中,每一个点,就是一对等位基因序列,它们的两种基因序列所产生的表达量,在2维座标中的交叉点。
图中,黑色的点是差异不显著的点,红色的点是差异显著的点。
作者发现了在所有6种细胞中都有的2368个tamVars,
作者接着做了temVars在大多数的细胞种类中的一致性,
结果发现,81.2%的temVars在6种细胞中共有,相比之下,1.6%的temVars只在一种细胞中存在。
右边的F图,展示了temVars在几种细胞中共有的分布情况。
接下来,作者做了发光的偏差,与 M 方法偏差的比较。
因为前面说过,转染的质粒中,在3’UTR的上游是一个GFP蛋白的基因。因此,可以在这里测发光,可以简接地判断上游的蛋白含量的偏差,与3’UTR偏差的关联性。
从图中,我们可以看到,大体上,这些点都是顺着斜向的这条线排列的,皮尔森相关系数是0.81,而且,P值是0.00046
把上述的证据整合起来,可以提示,M 方法提示的RNA丰度,对于说明表型的水平,是有意义的。
实验内容的第二部分,M 方法灵敏地检测 3’UTR 调节器和功能序列变体
作者分析了所有的寡核苷酸的序列,发现GC含量与表达减少效应正相关。
我们看右边的图,图中横坐标是GC的百分含量,纵轴是表达倍数变化,图中,我们可以看到这条斜向右下方的线,是这许多个点的趋势线,我们可以从这个线的趋势看出来,GC含量越高,表达的量越少。
再看左边的这张图,这张图,是最小自由能和表达变化关系的图,我们可以看到,横轴是最小自由能,纵轴是表达变化的倍数。
斜线方向是斜向右上方,这说明最小自由能越大,表达变化的倍数也越大。
而自由能,也就是体现了核酸链的二级结构,也就是说核酸链的二级结构越紧,则表达变化的倍数越小
在更加精细化的分析中,可以看到一些在经验中已知的蛋白结合的基序,和一些被预测过的miRNA的基序的作用。
在这里,可以看到AU富集的因素,会让表达有减少效应。
经典的Pumilio基序,会让表达有减少效应;
miRNA基序,会让表达有减少效应;
相反,CU富集的因素,会让表达有增加效应;
而扰乱这些预测元素的变异消除了功能效应。
作者还发现,在有高的活性背景、且突变有高的偏向性的区域,蛋白结合力强。
这张图,是一张四分位图,横轴,是突变引起的倍数变化的大小;
纵轴,是最大的红细胞蛋白结合力得分。
我们可以看到,左边引起倍数变化小的,它的RNA结合蛋白的结合力也越弱;
右边引起倍数变化大的,它的RNA结合蛋白的结合力也更强。
这是每一种细胞中,表达最高的10种miRNA与这个细胞中的MPRAu的相关性,做的交叉比对。
可以明显地看到,大体上,从左上到右下的对角线上的格子的颜色偏红,也就是说,一个细胞中的M值会与这个细胞中的miRNA有对应关系。
这是在6种细胞中比较RNA结合蛋白的基序和M值活性的关系。
图中,
四分位图的三位种颜色,分别对应于3’UTR中是否有强的RNA结合蛋白的结合位点的基序。红色是没有被注释的基序的基因,绿色是有弱的被注释的基序的基因,蓝色是有强的被注释的基序的基因。
图中,横轴上从左到右排列着6种细胞,
纵轴上排列的是M值的改变倍数的log值。
大家可以明显地看到,6种细胞中,都是红的四分位图最矮,蓝色的最高,绿色的居中,也就是说,与RNA结合蛋白的目标基序有更多重合的基因,它所产生的mRNA数量就更大程度受到扰动实验的影响。改动目标基序,会让mRNA数量增加
实验内容的第3部分,计算建模揭示了 3’UTR 调控的特征
在确定了 M 方法转录水平背后的关键 3‘UTR 特征后,作者训练了作者的测试序列的预测模型,并比较了几种分类模型的灵敏度和特异性,以预测具有减弱活性的 3’UTR 元件。
作者最好的模型在所有细胞类型中都表现良好,
左图,召回率的平均精度为 0.23-0.48
右图,受试者工作特征曲线下面积为 0.67-0.79
作者得到的最好的模型,也就是左上角这个用xgboost方法得到的模型,好于其它几个测试的模型,也就是好于b\c\d这几个图中的模型
作者还把相同的特征用于预测增强表达,结果发现可以比拟的表现。
接着,作者进一步做了加入miRNA和RBP的因素进行分析,结果发现加入这两个因素,并不能让预测结果变得更准。
这提示,前面的简单的特征对预测已经足够好。
有几个特征对于预测很重要。
包括homopolyer,也就是同聚物的长度,,序列的多样性和U碱基相关的序列,例如:U/UC,UA/UU的双碱基的数量
作者发现,最低自由能,也就是mfe,和减少的预期单调地负相关。
令人惊讶的是,作者 发现尿嘧啶含量的比例对衰减具有非线性影响,低尿嘧啶含量和高尿嘧啶含量均显示衰减效应。具体而言,较长的尿嘧啶均聚物表现出最大的衰减活性
实验内容的第四部分,MPRAu 等位基因效应反映在基因表达和人类表型变化中
在证明了 M 方法检测 3‘UTR 元件活性的能力后,作者调查了自己的 tamVar 等位基因效应是否受到改变英国生物银行捕获的转录输出和/或表型特征的因果等位基因的支持。
作者将 GM12878 中的 tamVars 与 Geuvadis RNA 测序 (RNA-seq) 数据集中杂合个体的细胞类型匹配等位基因特异性表达 (ASE) 数据进行了比较,并使用这种比较来估计阳性预测值( PPV) 用于测定中的 tamVar。
作者观察到 tamVars 和内源性观察到的 ASE 之间有中等强的一致性,66.1% 方向一致性,也就是一致的有42个,不一致的有21个,而二项式 p = 0.011),对应于 32% 的 PPV。
随着用更严格的 ASE 调用(两侧 t 检验 p < 0.001)(STAR 方法),方向性的一致性增加到 77.5%(二项式 p = 6.8 * 10^-4;PPV 为 55%)。
当与 Geuvadis 表达数量性状基因座 (eQTL) 数据重叠时,作者获得了较弱的一致性(方向性一致性为 60.5%,二项式 p = 0.22,PPV 为 20.9%)(图 S5A),这可能是由于不同的调控因素(即 RBP/ miRNA 浓度)在个体间聚集时会减弱真正的等位基因效应
接下来,作者扩展了他的分析,将 tamVars 与来自 GTEx Consortium,2020 年的组织 eQTL 进行比较,作者从遗传精细定位中获得了推定的因果等位基因。
聚合跨细胞类型和组织的等位基因效应,作者观察到具有高推断因果关系概率的变体在聚合 MPRAu 和 GTEx 中值效应大小之间的方向性上显示出显着一致
接下来,作者在英国生物银行中寻找与 94 个性状相关的遗传精细定位的因果变异中 M方法 tamVar 的富集。作者观察到随着因果关系 (PIP) 阈值的增加,M值功能更加丰富。这表明除了引起体内基因表达变化外,我们研究中鉴定的 tamVars 还具有表型后果,并且 M 方法是剖析关联研究的有力方法。
作为确认由 MPRAu 鉴定的 tamVar 与体内表达变化相关的正交方法,作者还分析了一组与大转录效应相关的罕见变异。
当作者将 MPRAu 等位基因偏斜与罕见的变异功能指标(RIVER 评分)进行比较时,作者观察到显着的正相关。这一发现表明 MPRAu 可以识别共同的功能以及罕见的 3’UTR 变体,现代关联研究对这些变体的检测能力较低
实验内容的第五部分,MPRAu SNV 和删除平铺剖析功能序列基序
在rs16975240这个位点,
如果是参考基因序列,那么平均的减少程度很强,它的减少倍数的log2的值是-2.29
而如果是变异基因序列,那么减少程度就几乎很少了,它的减少倍数的log2的值是-0.24.
在参考序列的这个SNP位置的缺失5个碱基,或者在它的上游的10个bp范围内缺失5个碱基,减少程度会缓解3.55倍到4.46倍。
而在变异序列的这个SNP位置的相同位置的缺失,缓解程度很小,只有1.13倍到1.16倍。
这是对这个位点进一步做的逐个碱基的分析。
左边是对参考序列做分析,右边是对变异的序列做的分析。
左边的图中,显示出了每个碱基位置,哪一种碱基是最高富集得分。
可以清楚地看到,从-8到+1,都出现了高度富集的碱基。
再看右边的对变异的序列做分析的图,
右边的图中,只在-7的位置,A碱基是有富集的;
在0的位置,U碱基是有富集的。
这是对rs3751756 这个位点的分析。
这个位点有很大的等位基因偏向。
从两个茎环的结构图中,我们可以看到,在这个位置,如果是U碱基,就会形成一个突起;
如果是G碱基,就会形成稳定的双链,而双链结构能促进与RNA结合蛋白的结合。
而且,在茎环结构上每一个碱基的突变,都会有很大的扰动作用。
第三个例子是rs34448361,这个位点,我们可以看它的序列,
它的参考序列是一连串的AUUUA,AUUUA的序列重复了4次的。
而变异的序列是加入了第5个AUUUA序列。而且加入的这第5个AUUUA序列会在很大程度上强化缩减效应。
SNV tiling再现了这个发现,凡打破AUUUA序列的变异,都会破坏缩减效应。
这个SNP位点,在LEPR基因上,而LEPR这个基因与控制体重、吃饭的饱饿感有关,还与现代人、古代人适应冷的环境有关。
实验内容的第六部分,MPRAu 识别与人类进化和疾病相关的因果 3’UTR 变异
在已经用M方法确认了前面所说的这些SNP的确会影响到mRNA的含量,那么接下来就是要把这个方法应用到疾病中去,看如何来确认3’UTR的SNP如何影响发病。
在2153个GWAS相关的3’UTR中,作者发现了677个位点是在至少一种细胞中有显著性差异的。
作者在文章中举了一些例子。这个例子是rs705866这个SNP位点。
Rs705866这个位点,落在PILRB这个基因上,这个基因与老年黄斑退化相关。
这个SNP位点离rs7803454很近。而Rs7803454在GWAS中,是一个标签SNP位点。
用M方法,测到这个SNP位点造成的等位基因偏向达到0.3
为了证实这个SNP位点的作用,作者用CRISPR方法在神经细胞SK-N-SH细胞中做基因改变,
把原来的细胞中的参考序列的T碱基,改到变异后的C碱基。
基因改造之后,得到三种细胞,
下面蓝色的,是被按照目标改造的细胞。
中间绿色的,是没有被基因改造拗胞。
上面橙色的,是没有被精确地改造,而变成了有更大的变化细胞。
这三组细胞都被分析,再做比较
这是基因改造后的M检测效果,
可以看到,蓝色的,按照目的改造的细胞,它的变化是0.21
而被非精确地、更大改造的细胞,它的变化达到了0.56.
这是落在TRIM14基因的编号为rs1059273的SNP位点。
这个SNP在中国的汉人中有富集。而这个TRIM14基因与免疫、抗微生物感染有很大的关系。
这是对这个位点做CRISPR改造后,做M检测的结果,
可以看到,按目标进行了基因改造的细胞,偏差值是0.58;有基因改造,
但不是精确地按目标改造的,偏差值是0.69
接着,作者用miRNA抑制剂进行处理,发现按目标改造的细胞,消除了等位基因偏差;而阴性对照,没有观察到这种情况。
这对于证明hsa-miR-142-3p的作用机制,提供了额外的证据。
地址:上海市松江区中心路1158号5幢5楼
电话:400-9200-612 传真:+86 21 6090 1207/1208-8154
dafabet手机黄金版技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号
微信:genenergy