易基因 | 文献速递:RRBS方法绘制1538例乳腺癌甲基化图谱并预测癌症发生/预后
大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。
错过RRBS技术在人和小鼠疾病表观遗传特征研究的可点:Mol Biol Evol | 利用RRBS技术多维度分析人和小鼠的疾病表观遗传特征
今天一起来看看发表于Nat Commun期刊的利用RRBS测序分析技术绘制了1538例乳腺癌组织样本和244个相邻正常组织样本的DNA甲基化图谱,并揭示了乳腺癌的形成和进展与复制相关的DNA甲基化时钟过程(replication-linked clock)、表观基因组不稳定性(epigenomic instability)和启动子/远端元件的顺式调控(cis-regulation)有关。
标题:DNA methylation landscapes of 1538 breast cancers reveal a replication-linked clock,epigenomic instability and cis-regulation
期刊:nature communications(Nat Commun,英国nature集团旗下的子刊,专门发表生物学、物理学和化学等各领域的高质量研究论文。)
2021影响因子: IF 14.919/Q1
发表时间:2021.09.13
方法:RRBS
关于RRBS
简化甲基化测序(Reduced Representation Bisulfite Sequencing,RRBS)是利用限制性内切酶对基因组进行酶切,富集启动子及CpG岛等重要的表观调控区域并进行重亚硫酸盐测序。该技术显著提高了高CpG区域的测序深度,在CpG岛、启动子区域和增强子元件区域可以获得高精度的分辨率,是一种准确、高效、经济的DNA甲基化研究方法,在大规模临床样本的研究中具有广泛的应用前景。为了适应科研技术的需要,我们进一步开发了可在更大区域内捕获CpG位点的双酶切RRBS(dRRBS),可研究更广泛区域的甲基化,包括CGI shore等区域。
为助力低样本量多维度分析,我们开发了富集覆盖CpG岛、启动子、增强子、CTCF结合位点的甲基化靶向测序方法:extended-representation bisulfite sequencing(XRBS),实现了高灵敏度和样本复用,使其具有高度可扩展性,并适用于有限的样本和单个细胞。
研究摘要
DNA甲基化在癌症中是异常的,但这种表观遗传学变化的动力学作用、调控作用和临床意义仍然知之甚少。
METABRIC队列中包含了2000多个乳腺癌样本,这些样本此前已在临床、遗传和转录方面进行了广泛表征。本文作者使用RRBS测序分析技术对其DNA甲基化状态进行研究。来自METABRIC队列的1538例乳腺癌组织和244个相邻正常乳腺组织的简化甲基化测序(RRBS)谱,在丰富的基因组、转录组和临床数据背景下对DNA甲基化进行深度分析。来自免疫和间质标记物的肿瘤DNA甲基化状态被反褶积(deconvoluted),从而导致在非CpG位点发现与全基因组甲基化丢失的肿瘤复制相关时钟(replication-linked clock)。出乎意料的是,在大部分CpG区域甲基化遵循两个独立于复制的获得(MG)或丢失(ML)过程,称之为表观基因组不稳定性,表观基因组不稳定性与肿瘤分级/分期、TP53突变和较差预后相关。另外,研究人员在数百个启动子和数千个远端元件中发现了顺式特异性甲基化(cis-specific methylation)和表达相关,包括一些已知的肿瘤抑制因子和致癌基因,证明了数百个启动子和数千个远端元件中的甲基化水平和特异性顺式作用下的基因表达相关,突出了全基因组甲基化水平变化在肿瘤转录改变中的重要作用,包括典型的BRCA1高甲基化效应。
项目设计
(1)样本选取:
从METABRIC数据库中选取1538个原发性乳腺癌组织样本和244个相邻组织的正常样本,共1782个样本进行了DNA甲基化测序分析(RRBS),并建立导致乳腺癌DNA甲基化过程的多因素统一模型。
(2)RRBS测序流程
实验结果
(1)乳腺癌与复制相关的DNA甲基化时钟过程相关
(1.1)METABRIC队列的甲基化分析
从METABRIC队列中选取1538个原发性乳腺癌组织样本和244个相邻组织的正常样本,利用可获得的临床、基因组和转录组数据来分析甲基化过程(图1a),研究人员利用RRBS测序方法对这1782个样本以30.4B reads来覆盖广泛的基因组分布,有助于分析全基因组甲基化变化趋势及调控元件和启动子的甲基化变化。RRBS测序方法使93%的样本被超过1 M CpG位点的10个以上reads覆盖(图1b),9%的reads被映射到真正的启动子区域(图1c),75%的启动子区域平均覆盖超过20个reads(平均覆盖246个),有助于下游的定量分析(图1d)。
(1.2)乳腺癌甲基化的分层建模
以METABRIC数据库为模型,研究人员开发了一种半监督算法(Methylayer),用于肿瘤甲基化动力学的分层建模(图1e)。Methylayer的基本原理依赖于基因表达、遗传学和临床信息的整合,计算混杂因素(肿瘤微环境[TME]效应),以此推断可随机影响全基因组甲基化变化趋势,Methylayer可以强有力地筛选表观遗传顺式调控的候选基因,并得出预后指标。将Methylayer分别应用于METABRIC队列的ER+和ER-肿瘤样本,并比较两类肿瘤样本的动力学。
数据结果发现,基因表达的整合使Methyllayer将TME效应识别为主要数据混杂因素,从而促进从肿瘤活检中获得的甲基化图谱多样化(图1f)。该算法在基因表达和启动子甲基化状态的相互关联中检测到一个强大的免疫标记,即TME标记与肿瘤分级相关(图1g),并通过独立的反褶积表达谱和病理指标进行验证。在对TME标记进行推断之后,研究人员应用了一种新的K-nn归一化算法(K-nn normalization algorithm Methods,图1h),该算法在推断下游肿瘤甲基化区域时,验证了Methyllayer显著降低了TME偏差。
(1.3)复制相关的甲基化时钟过程与肿瘤中甲基化丢失相关
与对照组相比,基于TME标准甲基化的Methyllayer聚类在肿瘤样本中鉴定出一组高度相关的CpG区域 (图1i),这一甲基化区域与肿瘤分级不相关(图1j),将其标记为时钟层(clock layer),尽管与启动子相关的远端定位相关,但时钟层CpG显示出较低的CpG含量(图1k),因此在推定的调控元件(基于组蛋白修饰)中代表性不足。
基因组通过定义早期和晚期复制域的调控过程在S期复制。有趣的是,在S晚期复制域中,时钟层的肿瘤甲基化减少更为强烈(图1l,m)。这与此前研究一致,表明衰老和癌症中DNA甲基化的丢失可能与复制过程中相关的甲基化异常积累(“epi-mutations”,表突变)相关。筛选跨METABRIC的基因表达特征并未发现与甲基化时钟层相关的常规转录程序。总之,这些数据共同表明癌症中甲基化丢失时钟的动力学与基因组复制过程密切相关。
Fig.1: Dissecting tumor, immune, and CAF methylation in the METABRIC cohort
(2)乳腺癌的表观基因组不稳定性
Methyllayer分析鉴定出了两个具有显著不同特征的全基因组甲基化区域(图2a)。一区为表观基因组不稳定性甲基化获得(MG)区,主要涉及在正常组织样本中未甲基化,但在肿瘤组织样本中呈现高甲基化水平的CpG区域(图2b)。值得注意的是,45%中高CpG含量增强子和2995个启动子显示出与MG区(图2c)的强相关性。另一区域占CpG位点的一小部分,是表观遗传不稳定性甲基化丢失(ML)区,涉及在正常组织样本中部分甲基化,但在肿瘤中显示低甲基化的区域。
量化METABRIC上的甲基化MG区和甲基化ML区,结果显示ER+呈现肿瘤分级依赖性分布(图2d、e,其中高分表示与正常组织的差异较大)。此外,MG区甲基化与大量基因的反式表达正相关(图2f),包括有丝分裂纺锤体的形成和调控、DNA损伤修复、DNA复制、几种胚胎发育同源盒转录因子(如早期间充质因子Msx1)、钙信号传导通路和甾醇代谢基因相关的基因(图2g)。
以上分析表明,除复制相关的甲基化时钟过程外,大量基因座(loci)还受到甲基化获得 (MG) 和丢失 (ML) 过程的影响,并且该过程与肿瘤进展、基因组亚型和肿瘤基因表达状态相关。
Fig. 2: Epigenomic instability in breast cancers.
(3)在数百个启动子和数千个远端元件中发现了顺式特异性甲基化和表达相关
研究人员通过比较启动子甲基化与自身表达之间的相关性以及与其他9360个基因表达谱之间的相关性,并与随机对照组进行比较,结果在ER+中鉴定出423个启动子、ER−中鉴定出185个启动子通过顺式甲基化来调控表达(图3a,b)。在顺式作用下的甲基化和表达相关性研究中,观察到肿瘤抑制和诱导基因与高甲基化相关(图3c,d)。为了确定这些特定的顺式调控基因哪些是共同调控基因组的一部分(图3e),研究人员计算了基因表达谱的相关性,鉴定出这些特定基因不是常规表达基因组的一部分。值得注意的是,这些启动子的epi-polymorphism分析验证了甲基化多样性显著降低,特别是当甲基化水平较低时(图3f,P <0.001,表示这些位点的epi多态性较低),提示在肿瘤发生过程中这些位点的表观遗传特征一致。
随后,研究人员为每个甲基化位点鉴定与其密切相关的基因表达谱,并选择了位于直接染色体区域位点的最佳相关伙伴基因(i.e., its TSS)(图3g,h)。epi-polymorphism分析在ER+中鉴定出2680个远端顺式调控元件,在ER−中鉴定出1332个远端顺式调控元件,且结果与启动子一致。Motif分析及与ChIP-seq图谱的对比表明启动子和远端元件位点的甲基化水平变化是由顺式作用调控的,而不是由反式作用中的常规机制调控的。
总之,以上研究表明,尽管全基因组甲基化丢失时钟和表观基因组不稳定性涉及了基因组中几乎所有的CpG,但启动子和远端元件的部分甲基化与顺式作用调控下的数百个基因相关,并且可能特异性的调控这些基因。例如,BRCA1启动子甲基化与乳腺癌ER-中的BRCA1基因表达呈特异性强相关性,而KRT7启动子甲基化与ER+ 肿瘤中的KRT7基因表达相关(图3e),表明一些顺式作用调控的基因如BRCA1参与肿瘤发生。
Fig. 3: Expression–methylation correlation in cis.
(4)乳腺癌的甲基化状态与基因组畸变相关,并可预测生存率
研究人员使用降维算法工具(UMAP)对样本的2D整体甲基化状态进行映射,突出显示所有乳腺癌组织样本和正常组织样本的表观遗传特征组合(图 4a),筛选了5种与表观遗传不相关的METABRIC基因组数据。将肿瘤分为五个级别,并在每个级别检测了 171 SNV基因(图4b)的外显率,结果揭示了与TP53、PIK3CA、CDH1、GATA3和CBFB SNV等基因的显著强相关性(图 4b),且在肿瘤内异质性突变程度较低。类似的分析验证了ER+肿瘤中较高的表观遗传不稳定性与较高的染色体不稳定性(CIN)相关(图4c)。
为评估表观遗传特征的临床影响,研究人员分析了按表观遗传评分分层来预测患者生存率(图 4d),结果表明高MG表观遗传不稳定性预示着生存率低。ER+和 ER-肿瘤的五年生存率分别从 91% (64%) 降至 83% (55%)。而ML表观遗传不稳定性也与ER+肿瘤中较差的生存率相关。相比之下,与复制相关的丢失时钟则显示与患者生存率不相关。
最后,研究人员进行了Cox比例风险分析(Cox proportional hazard analysis),即使在考虑临床、遗传因素和转录评分的背景下,也证明了基于表观遗传不稳定性评分的15年预后价值(图4e)。总之,以上数据结果验证了表观遗传特征,特别是表观遗传不稳定性和肿瘤的基因组特征及较差的预后相关。
Fig. 4: Epigenomic instability correlates with genomic features and with poor survival.
易基因小结
在本研究中,研究人员对来自METABRIC数据库的1538个原发性乳腺癌组织样本和244个相邻组织的正常样本进行RRBS测序和深度分析,得出以下结论:
· 癌症中甲基化丢失时钟的动力学与基因组复制过程密切相关
· 癌症中表观遗传特征不稳定性与肿瘤进展、基因组亚型和肿瘤基因表达状态相关
· 癌症种启动子和远端元件位点的甲基化水平变化由顺式作用调控
· 癌症的甲基化状态与基因组畸变相关,并可预测生存率
以上研究结果揭示DNA甲基化状态对肿瘤的发生、发展和预后有非常重要的作用,为临床科研和诊疗工作带来新的方向。
作为本研究的亮点技术——RRBS,易基因配合强大的生信分析实力,提供的不仅是海量的测序数据,而且可以根据您的研究目的,有针对性地挖掘提炼出个性化分析结果及见刊图片。
文献来源:DOI: 10.1038/s41467-021-25661-w
原文解读: