Nature|基于人类表观基因组图谱EpiMap,广泛揭示人类疾病位点调控回路

在分子水平注释人类疾病仍然是一个挑战,因为93%与疾病相关的突变位点位于基因组的非编码区域,而这些区域如何调控基因的转录和翻译仍然未知。为此,来自麻省理工学院的研究人员基于多个大型合作基因组图谱项目(包括ENCODE、Roadmap Epigenomics、Genomics of Gene Regulation)的数据,提出了一个新的人类表观基因组图谱,命名为EpiMap(Epigenome Integration across Multiple Annotation Projects)。这项最新研究结果以 “Regulatory genomic circuitry of human disease loci by integrative epigenomics”为题于近日发表在Nature上。
文章发表于Nature

利用EpiMap,研究人员:

1. 基于多个表观遗传修饰信号注释了染色质状态(chromatin states),同时结合DNA可及性注释增强子;

2. 将增强子分为不同的模块(enhancer modules),并根据转录因子motif和GO富集结果推断每个模块的上游调控转录因子和下游远程调控基因;

3. 整合增强子位置,增强子和基因的远程交互作用和GWAS SNP结果,预测SNP的靶基因和组织特异性;

4. 将GWAS性状划分为“单因子”和“多因子”性状,揭示了它们与疾病的关系;

5. 区分了“单效”和“多效”位点,并发现得分最高的位点通常有多个驱动突变,通过不同的方式发挥“多效”功能:多个增强子和一个共同的靶基因、调控单个组织中的多个基因或多个组织中发挥功能。

研究内容与结果 

研究人员使用统一的数据处理流程分析了来自859个样本的3,030个数据集,并另外使用算法推算出了14,952个数据集,极大地扩展了数据集的覆盖范围。

接着研究人员使用表观基因组数据注释了18中不同的染色质状态(chromatin states),并结合其中的活跃增强子状态与DNase-seq数据注释了210万个活跃的增强子区域。这些区域累积覆盖13%的基因组区域,单个生物样本平均覆盖率达到了0.8%,这相对于ENCODE 2020版本增加了两倍以上。

图1. EpiMap资源概述,来源:Nature

研究人员在833个生物样本中定义了基于H3K27ac的局部活性水平,并基于此将增强子分为300个增强子模块(enhancer modules),包括290个组织特异性模块和10个广泛活跃的模块。

结合表观基因组-转录组的相关性以及增强子与邻近基因的距离,研究人员预测了330万个组织特异性的增强子-基因交互(enhancer-gene links),这在预测的交互数量上和生物学相关性上都超越了以前的方法。

研究人员预测了其中273个模块的上游调控转录因子,涉及1,175个motifs,分为160个原型(archetypes),包括152个组织特异性原型和8个通用原型。组织特异性的转录因子motif包括:血液和免疫样本中的GATA和SPI1;大脑和周围神经系统中的NEUROD2和RFX4;消化组织中的KLF4;胎盘、肌卫星和上皮细胞中的TEAD3。通用的motif包括肝,肾和胰腺中的HNF1A(与NR5A2共同作用);免疫,骨骼和癌症样本中的AP-1(也称为JUN)或JDP2;TEAD3在不同的组织中与不同的转录因子协作:MYF6(肌球蛋白),TFAP2A(胎盘)和AP-1(基质)。

Motif富集将组织分类为不同的亚组,比如心脏被划分为胚胎心脏(NFIX和E2F1)、主动脉和动脉(SRF和PAX5)以及心腔(MEF2D和ESRRG);大脑被细分为胚胎(NFIX和NEUROD2),成人大脑(RFX2和SOX10)和星形胶质细胞(NFE2L2和JDP2);造血细胞被细分为为自然杀伤细胞(ETV2)、B细胞(NFKB2和SPIB)和多能祖细胞(GATA1和NFE2L2)。

图2. 增强子模块回路,来源:Nature

接下来,研究人员使用210万个增强子注释及其组织特异性来解释与复杂性状相关的GWAS位点。研究人员汇总了了一份来自803项GWAS研究的GWAS位点数据集,捕获了70,000 多个GWAS位点。研究人员发现了17,658个显著的性状-组织富集,覆盖了245个性状中的27,000多个候选GWAS SNP。

研究人员结合表观基因组学的注释和增强子-基因的远程交互作用,对疾病相关的位点产生了新的认识。例如乳腺癌GWAS富集在上皮细胞和癌细胞样本中,其中SNP rs17356907位于靠近USP44基因的增强子内部,但与另一个基因NTN4交互,而NTN4与肿瘤发生和血管生成有关。精神分裂症GWAS在中额叶皮质样本中富集,其中SNP rs2007044位于一组靠近DCP1B启动子的增强子内部,所有这些增强子都与CACNA1C交互,已知CACNA1C编码与神经精神疾病有关的钙通道蛋白,提示多种变异可能共同导致其失调。研究人员已经提供了一个交互式网站(http://compbio.mit.edu/epimap),用于探索与500多个性状相关的超过30,000个额外的GWAS位点。

图3. 基于增强子活性距离的833个生物样本的层次聚类,来源:Nature 

然后,研究人员研究了性状-组织、性状-性状和组织-组织表观基因组GWAS共富集模式,以了解它们之间复杂的相互作用。

首先,研究人员使用在每个性状中富集的组织数量来将性状划分为两类:56个“单因子”性状(22%)在一个组织中具有最多富集(例如,心脏的QT间期、脑的受教育程度和免疫细胞的甲状腺功能减退),而192个“多因子”性状(79%)平均富集在五个组织类别中(例如,免疫细胞和大脑中的阿尔茨海默病;脂肪、肌肉、肾脏和消化组织中的腰臀比),其中26个“多因子”性状(11%)平均富集在14个组织类别中(包括冠状动脉疾病(CAD)在19个组织组中,包括肝脏、心脏、脂肪、肌肉和内分泌样本)。

根据组织的共富集特性来区分每个GWAS性状的“主要”组织(例如免疫细胞,肝脏,心脏,大脑和脂肪组织)与“伙伴”组织(例如,消化、肺、肌肉和上皮组织),“主要”组织和“伙伴”组织相比始终表现出更高的富集,这表明它们具有驱动作用而不是辅助作用。特定的主要-伙伴组织共同发生的频率比预期的要高,并且揭示了它们可能在性状上共同发挥作用,包括:肝脏与脂肪组织(胆固醇特征)、消化组织(胆结石)和血细胞(血清蛋白水平);以及脂肪组织与内皮细胞(腰臀比)、心脏组织(心房颤动)和肌肉组织(血压)。

图4. 性状-性状网络,来源:Nature 

最后,研究人员将“多因子”性状的SNPs划分为组织特异性的组分。例如,339个与CAD相关的SNPs划分为:195个富含动脉、心脏和血管形态发生的心脏增强子SNPs;171个脂质稳态的内分泌增强子SNPs;169个胆固醇和脂质代谢和转运的肝脏增强子SNPs;轴突导向和局灶粘附中122个脂肪增强子SNPs,与脂肪组织神经支配过程一致;112个胚胎干细胞衍生的肌肉增强子SNPs,富含中隔形态发生、腔和主动脉发育。

这些分区也显示出独特的协同关系。例如:心脏,肌肉和内皮细胞增强子中的CAD SNPs均与与高血压和心房颤动相关;肝脏和内分泌增强子中的CAD SNPs与收缩压相关;脂肪增强CAD SNP与腰臀比相关;以及肝脏,脂肪和内分泌CAD SNPs与HDL胆固醇相关。

从单个多因子性状位点来看,既有在单个组织中富集的,也有在多个组织中富集的。一些CAD SNP位点仅与心脏增强子重叠(例如EDNRA、TCF21和ADAMTS7),一些仅与肝脏增强子重叠例如PCSK9),一些不位于任何增强子中,许多位于广泛活跃的增强子中(例如,LDLR、APOE、SH2B3和COL4A1),这表明即使在单个SNP位点水平上也存在多种调控机制。

即使看似单一的SNP也会在其他组织里:rs17114046在肝脏中有很强的信号,同时它位于多个增强子中,并调控基因PLPP3,肝脏特异性PLPP3缺失会增加动脉粥样硬化;然而这个SNP也同时连接到另一个肝脏产生的补体因子C8A,并通过心脏特异性和肌肉特异性的交互连接到PRKAA2。这说明单个SNP也可能具有多种功能,这一特性存在与许多高度富集的SNP中。

图5. 多因子性状的划分,来源:Nature 
(0)

相关推荐