Science发表人类疾病-蛋白质-基因组图谱,基于“基因-蛋白-表型三联体”解析疾病致病基因的内在机制
导读
蛋白质是人体的基本功能单位,也是从基因组到表型信息传递的关键媒介。蛋白质可导致多种疾病的发生发展,因此也是目前药物最常见的作用靶标。已有研究结果表明,通过对蛋白质数量性状基因座(pQTLs)的临床关联进行研究,有助于更好地理解疾病发生机制。目前,我们仍然缺乏一个模型来评估位于蛋白质编码基因之外遗传变异的蛋白质特异性、pQTLs与血浆中特定蛋白质的临床相关性。此外,尚没有研究系统地绘制基因-蛋白-疾病的网络结构,以揭示疾病和蛋白表型之间的联系。
近日,由剑桥大学临床医学院的科学家领导的国际研究团队在顶级期刊Science发表了题为“Mapping the proteo-genomic convergence of human diseases”的研究成果。研究团队通过对基因组中共同起源蛋白质的分析,鉴定了10674个关联蛋白质变体,发现了其与数百种不同人类疾病之间的联系,并开发了一个模型,以系统地确定蛋白质和通路特异性pQTLs。同时,通过共定位筛选,研究团队绘制了涵盖1859个基因-蛋白-表型三联体的人类疾病蛋白质基因组图谱,提供了对跨疾病病因的新见解。
主要研究内容
基因蛋白质靶点的关联
研究人员对10,708名志愿者的数据进行了全基因组-蛋白质组关联分析,共鉴定2584个基因组区域,发现其至少与3892个显著关联蛋白靶点中的一个相关。其中,1097个区域包括迄今为止尚未报道的与血浆蛋白相关的变异体。
数据显示,在3892个关联蛋白质中,有26.8%存在顺式pQTLs和反式pQTLs。进一步分析发现,在这些基因座上存在另外的2346个次级pQTLs,表明顺式pQTLs和反式pQTLs中存在广泛的等位基因异质性。
图1. 遗传变异位点与蛋白靶点的相关性,来源:Science
通路特定pQTLs的富集
随后,研究人员将数据驱动的蛋白质网络与生物学通路相结合,以区分通路特异性pQTLs以及对多个不相关靶点产生影响的pQTLs。结果显示,5442个基因变体中40.8%为蛋白质特异性,5.9%为通路特有。通过数据驱动网络分析方法,研究人员将648个可能遗漏的变体分类为蛋白质群体特异性。例如,rs738408(PNPLA3),一种非酒精性脂肪肝变体,它与来自同一蛋白质群体的70个适体中的22个相关。因此,与目前临床上用于鉴别脂肪肝或肝损伤的组织非特异性蛋白质相比,锚定在PNPLA3反式pQTL上的假定肝损伤特异性效应使这些蛋白质靶点成为潜在的生物标记候选物。
图2. pQTLs的分类,来源:Science
顺式pQTLs能够在GWAS位点识别候选致病基因
研究人员利用顺式pQTLs的固有生物学特异性,系统地识别了GWAS研究结果中的重要潜在致病基因。对于其中四分之一的位点,研究鉴定出了不同于前期发现的基因。对于另外79个顺式区域,研究人员预测的致病基因与已报道的保持一致。上述研究表明,利用顺式pQTL能够确定生物学上潜在的致病基因。
图3. 利用顺式pQTLs对GWAS分析结果进行关联分析,来源:Science
整合多个组学阐明胆结石的发病机制
研究团队在已知的胆石症位点SULT2A1发现了一个信号rs212100。该信号在胆盐硫转移酶(SULT2A1)和胆石症风险以及胆囊切除术之间共存。进一步多重共定位分析结果表明,该信号也与肝脏中SULT2A1的mRNA表达、多种硫酸化类固醇中共存,包括雄激素和孕烯醇酮代谢物的硫酸盐结合物,以及胆汁酸。
rs212100参与的所有生理过程,尤其是硫酸化类固醇和初级胆汁酸代谢物的一致积极作用方向表明,更高的SULT2A1活性是其作用方式。与次级胆汁酸、甘胆酸盐血浆浓度降低同时出现的反向关联结果表明了石胆酸的形成减少,而石胆酸是溶解脂肪(包括胆固醇)的基本物质。因此,通过对各种生物学实体的纵向整合分析表明,促进胆固醇结晶和胆结石形成的过饱和胆汁是一种因果机制。
图4. 整合多个组学阐明胆结石的发病机制,来源:Science
结 语
综上所述,该研究通过对基因-蛋白-疾病进行系统整合,创建了蛋白质基因组图谱。该图谱识别了许多潜在的致病基因,并强调了不同人类条件下的基因驱动联系。这项系统全面的研究也有助于解释为什么多种看似无关的症状会同时发生在特定患者身上。同时也指出,相同的潜在蛋白质或机制可能会引起多种疾病。
传统的疾病分类依赖于共同症状的集合。除孟德尔疾病外,很少有基于共同症状的病因学。研究团队通过将与疾病相关的基因组变异与编码蛋白质的功能联系起来,提供了有力的基因参与的证据,并确定了蛋白质介导疾病遗传风险的新机制。例如FBLN3,网络分析指出其在共同的遗传病因学中锚定疾病的趋同,为确定针对潜在遗传因素的治疗策略提供了机制上的理解和基础。
文章第一作者Maik Pietzner博士说道:“使用基因组作为基础是这项研究成功的关键。众所周知,在血液中检测到的大多数蛋白质来源于其他组织的细胞,这也解释了为什么我们整合了不同层次的信息。例如,我们通过肝脏特异性机制发现了,胆盐磺基转移酶活性的升高与胆结石风险的增加有关。我们用这种方法将大约900种蛋白质与它们的起源组织连接起来。”
文章共同第一作者Eleanor Wheeler博士表示:“对于大多数与疾病风险相关的基因组区域或位点,潜在的致病基因和机制尚不清楚。这项工作证明了蛋白质在解析疾病致病基因方面的独特价值和优势,并帮助理解遗传变异导致疾病的内在机制。我们也希望,这些与科学界共享的大量信息将有助于将蛋白质更直接地与基因和疾病联系起来,从而加速识别药物靶点,实现精准治疗。”
· END ·