最新研究揭示癌症胚系基因组模式与癌症风险及临床预后的关联
在人类基因组测序草图完成后,众多研究人员将目光投向基因信息挖掘以深入了解遗传因素在癌症发展中的重要性。以基因为中心的癌症研究表明,似乎只有5%~10%的癌症病例是可遗传的,即癌症相关胚系(germline)遗传变异。由于癌症驱动的胚系遗传变异在基因组中分布较少,并且局限于少量的基因,很多相关研究都是关于已知的癌症驱动基因,包括肿瘤抑制基因、DNA修复、致癌信号通路以及细胞周期密切等。
目前,已有的研究对胚系遗传变异和癌症易感性之间的联系进行了系统分析,支持了癌症相关信息与胚系基因组有关的观点。但每种变异仅在一小部分群体中具有较小的外显率,表明单个胚系变异不能作为胚系基因组的唯一信息标志。因此,尽管单个基因或变异已被证明具有信息性,但到目前为止,只有少数胚系基因与癌症风险之间的关联得到了确定。
近日,由深圳大学、卡尔加里大学、北京大学等机构组成的联合研究团队,在Science Advances上发表了题为“Germline genomic patterns are associated with cancer risk, oncogenic pathways, and clinical outcomes”的文章,分析了胚系基因组模式是否可以作为恶性肿瘤遗传易感性的潜在检测方法。通过对代表22种常见癌症类型的癌症患者和非癌个体的胚系基因组进行系统分析,研究确定了7种癌症胚系基因组模式(cancer-associated germline genomic patterns,CGGP),揭示了可能与癌症风险、肿瘤发生和临床结果相关的基因序列,为研究胚系基因组对癌症发展的影响、潜在分子机制和临床结果提供了一种新的分析方法。
文章发表于Science Advances期刊
研究内容与结果
1.癌症相关胚系基因组模式
研究团队从癌症基因组图谱(TCGA)中,在代表22种癌症类型的9712名癌症患者的全外显子组测序数据中获得了430,772,708个胚系突变,和46,998,783个与其配对的肿瘤基因组的体细胞突变,并通过分析潜在的突变概况生成了胚系突变目录。研究涉及来自22个主要部位的癌症,例如肝、肺、胃、乳腺、卵巢、宫颈、脑、骨髓、结肠、肾、甲状等。同时,研究团队还合并了来自三个队列16670名非癌症个体的全外显子组数据,构建了非癌症数据集作为研究背景。通过非负矩阵分解(NMF)能够从高维数据中提取可解释的特征,研究团队将其应用于癌症患者和非癌症人群的胚系突变目录,最终确定了7种癌症胚系基因组模式 (CGGPs)。
图1. CGGPs从癌症患者的胚系基因组中破译。来源:Science Advances
2.胚系基因组模式与癌症风险相关
遗传易感性与外源性癌症风险因素共同驱动肿瘤的发生。目前,《癌症体细胞突变目录》(COSMIC)已经确定了30种肿瘤体细胞突变特征,其中特征4和29与吸烟习惯有关。基于突变特征4和29,已有研究发现至少有17种癌症类型与吸烟有关。
为了确定CGGP是否与癌症患者吸烟有关,研究人员将癌症患者分为吸烟组和不吸烟组,对其胚系基因组中每一个CGGP进行比较分析。结果显示,在吸烟组中,CGGP_E在包括肺癌在内的13种常见癌症类型中显著富集(图2A)。就整个患者群体而言,胚系基因组中较高权重的CGGP_E与肿瘤基因组中吸烟相关的体细胞突变特征(特征 4)存在显著正相关(图2B)。
研究人员进一步分析了TCGA临床信息定义的癌症吸烟者和非吸烟者之间的关联,发现吸烟者中CGGP_E的含量显著高于非吸烟者。同时,CGGP_E在胚系基因组中的相对贡献(即权重)与其配对的体细胞突变特征(特征 4) 呈正相关,在TCGA临床信息定义的非吸烟者中则无正相关关联(图2C)。因此,对于胚系基因组中CGGP_E含量较高的个体,或可通过积极避免接触烟草、烟雾来降低其罹患癌症的风险。
图2. CGGP_E与烟草诱变剂敏感性的关系。来源:Science Advances
3.CGGP与不同肿瘤亚型、致癌途径和预后有关
研究人员基于CGGP贡献谱对每种癌症类型的患者进行了无监督分层聚类分析,进而根据胚系基因组划分特定癌症类型亚组。研究发现,在至少13种常见癌症类型中,CGGP定义的肿瘤亚组与肿瘤组织学亚型和患者的预后显著相关,例如脑癌患者可被分成三个胚系亚组,其中亚组1富集了GBM样本,亚组3富集了侵袭性较低的星形细胞瘤样本。亚组2也富含GBM样本,但与亚组1不同,亚组2更倾向于CGGP_A而不是CGGP_E。同时,研究团队在三个亚组之间也观察到显著的患者生存差异,表明CGGP与治疗和临床结果密切相关。
为了解CGGP定义的胚系亚组是否可能对肿瘤组织的致癌途径产生影响,研究人员选择了在亚组间差异表达的基因,并进行功能富集分析,以检测受影响的致癌途径。结果显示,至少在三种癌症类型中,CGGP定义亚组之间的正常组织的基因表达程序在细胞周期或其他可能导致癌症进展和转移的一般生物学过程中受到显著调节和富集。