值得借鉴!癌症的基因组三维结构变化
Cancer Is Associated with Alterations in the Three-Dimensional Organization of the Genome
癌症与基因组三维结构的变化有关
一、研究背景
人类基因组在三维结构上呈现为拓扑关联结构域(TAD),具有高度保守性。TAD 通过限制其调控元素之间的相互作用来促进基因表达调节,而 TAD 的破坏与癌症有关。
大规模的结构变异(SV),如拷贝数变异(CNV),可通过剂量效应驱动肿瘤的发生,因此许多频繁突变的基因可作为有效的生物标记用于癌症诊断,预后和临床管理。CNV可破坏TADs,阻止其相互作用,从而导致基因失调。
目前,临床基因组学分析主要集中在基因组的蛋白质编码区域,而对非编码变体的解释及其临床应用的研究相对匮乏。于是作者想要探讨基因组的三维组织的变化与癌症的关系,此外,作者还想探究TAD中CNV的存在与否与预测和解释患者预后的关系。
二、研究流程
三、结果解读
1、共有1467个拓扑关联域(TAD)构成人类基因组的Consensus TAD 图谱
不同组织间的TAD域含量不同,于是作者总结了24个由Hi-C数据构造出TAD图谱,计算出TAD图谱中TAD含量的中位数为1676 ,组织中TAD大小的中位数为1.12Mb。作者以热图的形式比较不同组织样品之间的TAD的重叠分数,发现不同人体组织的TAD图表现出高度相似性(图1A)。
接下来,作者想要构造代表人类基因组三维组织普遍特征的Consensus TAD图谱(图1B)。于是,作者计算出不同组织中核苷酸在 TAD 中组成的比例、包含一个或多个 TAD 边界的概率,经加权取平均值、筛选后共获得1467个Consensus TAD。
TADs之间的基因组区域根据大小分为拓扑边界区域 (TBRs) 或无组织染色质区域。TBRs的形成和稳定性与CCCTC结合因子(CTCF)的结合位点和管家(HK)基因转录启动位点(TSS)相关。于是,作者探究了CTCF/HK基因覆盖率与TADs/TBRs的关系,发现,与TAD相比,CTCF的结合位点与HK基因的转录起始位点在TBR处富集(图1C,D),这支持了作者对Consensus TAD的定义。
图1:TAD图谱
2、对于癌症相关CNV,6%的Consensus TAD富集或减少
基因组改变,如拷贝数变化(CNV)在癌症中很常见。为了研究Consensus TAD内频发突变的模式,作者从TCGA中获取经筛选后得到25种癌症类型的CNV数据。接下来,作者随机在每种癌症类型中选择100个患者样本,计算患者CNVs的中位数,发现不同癌症类型中CNVs数量不同(图2A)。
数据集中几乎所有(99.6%)的 CNVs(可能部分)与共识 TAD 重叠(图2B),并且TAD的大小仅与重叠的CNV的数量之间存在弱相关( $\rho$= 0.32),这表明与异常CNV数量重叠的TAD可能参与了一般的癌症机制。
为了确定具有异常CNV的TAD,作者对于每个共识 TAD,从人类基因组中重复随机选择一个相同大小的区域,计算在该特定 TAD 中显示 CNV 的患者数量,并与随机对应方的患者进行比较。作者发现:对于癌症相关CNV,6%的Consensus TAD富集或减少(图2C);显著富集的TAD主要与第一型干扰素反应和自然杀伤细胞活化有关,而减少的TAD与转录调节有关。
图2:共识TAD中不同组织CNVs的变化
3、富含CNV的TAD是癌症中有价值的预后生物标志物
为了评估CNV富集在癌症预后的作用,作者针对19种癌症类型进行LASSO Cox回归模型的训练,每种癌症类型中至少存在100名患者,并且至少10%的患者死亡。作者建立了两种模型预测癌症患者的预后,一种是基于泛癌基因(灰色)的模型,另一种为基于TAD(红色)的模型,根据C-指数对比知:
红色的箱线图明显优于灰色的箱线图,即基于TAD的模型优于基于泛癌基因的模型(图3A)。
然后,作者运用TAD模型将癌症患者分为高风险组与低风险组,选取了BRCA、OV、SARC和UCES做K-M分析,并使用对数秩检验进行比较,显示P值均<0.05(图3B-E)。
根据一定的算法,作者获得了35个与预后相关的TAD。作者用热图显示了从LASSO Cox回归模型得出的每种预后TAD和癌症类型的危险比(HZ);红色表示HZ> 1(较低的生存率),蓝色表示HZ <1(较高的生存率)。还将预后的TAD进一步分为三类:(1)不包含任何泛癌基因(橙色)的TAD。(2)仅包含非预后性泛癌基因(灰色)的TAD;(3)包含预后泛癌基因的TAD(黑色)(图3F)。发现:
不同癌症类型之间具备结构变异的TAD不同,并且大多数预后相关的TAD不包含任何泛癌基因。
图3:某些TAD中CNV的存在/不存在预示着癌症患者的整体生存
接下来,作者想要说明泛癌基因与TAD预测能力的关系。SARC只在基于TAD的模型中才表现出可靠的性能,并且对SARC进行预后预测的5个TAD中都不包含任何泛癌基因。于是作者根据预后相关的TAD chr9:40000-2799999和chr12:125039000-128113999中是否存在CNV,将患者分为两组,分别做出K-M曲线(图4A、B),发现两组患者的生存率均低于该TAD中无CNV的患者。
因此,作者认为泛癌基因的存在不一定能解释TAD的预测能力。
然后,作者想要探讨TAD中CNV是否影响基因序列与LGG患者存活率的关系。于是作者根据预后TAD chr7:54760000-58079999和chr9:21240000-24400999中是否存在CNV(图4C、E),以及分别包含的预后泛癌基因EGFR和CDKN2A中是否存在CNV(图4D、F),将LGG患者分为两组,分别做出K-M曲线,发现发现四组患者的生存率均低于该TAD中无CNV的患者。
因此,作者认为预后TAD中的CNV无论是否影响基因序列,均与LGG患者的低存活率相关。
图4:SARC和LGG患者的Kaplan–Meier生存分析
4、34%的预后TAD倾向于经历癌症的大结构变化
为了进一步了解TAD模型与预后特征的关系,作者又构建了癌症Consensus TAD图。在Consensus TAD图中,癌症TAD图与正常TAD图相比,高度相似部分为44%,而显著差异部分高达34%,这可能与癌症中调控的相互作用改变有关。于是作者为TADs和1Mb长的上游和下游基因组区域的10 kb长的条带计算CNV密度。发现,本构和异构的TAD对CNV没有显示出任何差异性的富集,然而,CNV沿TAD的分布在TAD边界呈现出明显的差异(图5A)。
作者猜测是CNV破坏了TAD边界,从而导致基因表达程序的重新连接。作者观察到,在癌症基因组中受扰动的TAD存融合与分裂现象,并且,融合在癌症基因组中的TAD则在边界处富集CNV,而分裂的TAD在远离边界的地方富集CNV。因此,作者认为CNV不仅会导致边界的破坏,还能促进新边界的形成。
在35个预后相关TAD中,有43%是组成型的,34%为受干扰的,这表明TAD中至少三分之一的预测能力可能与基因组三维组织的变化直接相关,并且在不同的癌症类型中,预后TAD的本构与异构的比率相似。对于许多受干扰的预后TAD通过癌症基因组中的多次分裂和融合事件发生了转化,并与CNV的局部变化有关。因此在包含LGG的受扰动的预后TAD区域中:
图5B:chr9:21240000-24400999 和 chr9:24431000-24564999中存在相对较高数量的CNVs,并且在CDKN2A位置出现峰值。
图5C:chr1:8000000-10440999,CNV的数量朝3'端减少。
图5D:chr3:196040000-198159999,CNV数量普遍增加。
在包含SARC的受扰动的预后TAD区域中:
图5E:chr17:70680000-73360999中,TAD分裂为两个小TADs。
图5F:chr12:125039000-128113999与相邻的TAD融合。
总之,除了CDKN2A(在考虑的数据集中明显是异常值)外,CNV局部数量的变化与位于这些区域(CAMTA1和MTOR,MUC4和TFRC)的全癌基因没有关系。
图5.TAD影响CNV
四、小结
作者首先总结24组Hi-C数据构造出TAD图谱,筛选后得到Consensus TAD图谱,并通过CTCF/HK基因覆盖率证实了Consensus TAD图谱的定义;接着,作者从TCGA中筛选获取CNV数据,探讨CNVs在Consensus TAD中的分布关系,研究Consensus TAD内频发突变模式;然后,作者通过LASSO Cox分别建立基于泛癌基因与基于TAD的模型,对比两模型的预测效果,并评估在TAD模型中CNV存在与否对癌症预后的作用;最后,作者对比了癌症TAD图与正常TAD图,探究两者之间CNV分布、基因组三维组织的变化的差异,论证了癌症与基因组三维结构的变化有关。
编辑:陈楚烽
校审:刘嘉颖