你也可以学得会的8分+多组学预后预测模型套路
Independent validation of early-stage NSCLC prognostic scores incorporating epigenetic and transcriptional biomarkers with gene-gene interactions and main effects结合表观遗传和转录生物标志物的基因-基因相互作用和主要作用的早期非小细胞肺癌预后评分的独立验证
一、 研究背景
DNA甲基化是一种可遗传,可逆的表观遗传修饰,可影响DNA的空间构象并调节基因表达,它和基因的表达差异均可作为非小细胞肺癌(NSCLC)的生物标志物。除了生物标志物的主要作用main effect外,肿瘤进展还受到基因-基因(G×G)相互作用的影响。而多组学数据的大规模综合分析可以确定具有主要作用和基因-基因相互作用的基因,在此基础上可以构建更准确的NSCLC预后模型。
二、 分析流程
三、 结果解读
1.DNA甲基化数据和基因表达数据的获取与质量控制
作者对五个国际研究中心(哈佛,西班牙,挪威,瑞典和TCGA)的DNA甲基化数据和四个GEO数据集和TCGA的基因表达数据进行研究,样本均为早期(I或II期)肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)样本。处理甲基化数据时,剔除了detection p-value大于0.05、变异系数小于5%、SNP相关、性染色体上、发生交叉反应的探针。由于使用的Illumina beadarrays是由两套探针使用不同的杂交方法测定的,所以作者进一步处理了甲基化信号,用R包minfi进行归一化,lumi包进行I型和II型探针校正,sva包的ComBat函数处理批次效应。完成一系列数据预处理后,分析中包括了1,230名患者(N发现队列=613,N验证队列=617),其中有12,806个CpG探针。
处理转录数据时,同样进行了质量控制,ComBat处理批次效应,并对表达值进行log2转化和标准化,鉴定出满足要求的719个基因探针。接下来作者利用12,806个CpG探针和719个泛癌相关基因的表达数据作为训练队列,具有两种组学数据的TCGA作为验证队列。
补充图1.研究设计和统计分析流程图
2.表观遗传和转录分析鉴定NSCLC预后生物标志
对于Main effect的分析,作者使用R包SIS进行了SIS和LASSO Cox回归来筛选与生存相关的生物标志物。SIS(Sure Independence Screening)选择了与生存的边际关联最强的标志物,而LASSO进一步筛选了变量。由于预测生物标志物之间可能存在相关性,第一次进行SIS-LASSO筛选时,可能会遗漏重要的标志物,所以进行了迭代SIS(ISIS)-LASSO,反复将SIS-LASSO算法应用于其余未选择的标志物,直到无法纳入新的生物标记为止。考虑到LUAD和LUSC之间的生物学异质性,作者使用了组织学分层的多元Cox比例风险模型,在模型中也调整了其他协变量,如年龄,性别,研究中心,临床阶段和吸烟状况。经ISIS-LASSO筛选得到了与预后相关的23个CpG probe(补充表4)和13个gene probe(补充表7)。
补充表4.ISIS LASSO筛选出的23个CpG探针的组织分层Cox比例风险模型的结果
补充表7.ISIS LASSO筛选出的13个基因探针的组织分层Cox比例风险模型的结果
对于G×G相互作用的分析,也构建了协变量调整的组织学分层多元Cox比例风险模型,鉴定了具有G×G相互作用的生物标志物。表观遗传和转录生物标志物的G×G相互作用分析的显著性水平已通过Bonferroni方法分别校正为6.10×10–10 = 0.05 /(12,806×12,805 / 2)和1.94×10–7 = 0.05 /(719×718 / 2)。经ISIS-LASSO筛选分别在表观遗传分析和转录分析中得到了与预后相关的2495对和40对G×G相互作用。
接着作者在TCGA验证队列中用一致性检验验证了筛选得到的生物标志物,还进行了比例风险假定的测试(即假定Hazard Ratio不随时间变化)。然后作者进一步进行敏感性分析(Sensitivity analysis)来评估关键生物标志物的预测结果是否稳健。对于Main effect,筛选得到了1个CpG probe(cg19286631 TRIM27)与预后显著相关(HR发现队列= 1.03,P = 1.43×10–2;HR验证队列 = 1.03,P = 1.13×10–3)(补充表4中已标灰);1个gene probe(NDRG1)与预后显著相关(HR发现队列 = 1.41,P = 2.16×10–2;HR验证队列 = 1.12 ,P = 4.33×10–2)(补充表7中已标灰)。对于G×G相互作用,筛选得到了149对(补充表9)和2对 G×G相互作用(补充表12)。
补充表9.表观遗传分析中149个显著GxG交互项的组织分层Cox比例风险模型的结果(部分结果)
补充表12.表观遗传分析中2个显著GxG交互项的组织分层Cox比例风险模型的结果
筛选到关键的生物标志物后,作者使用了向前逐步回归法,基于Pentry<.05,Pelimination>.05 来建立多生物标志物Cox比例风险模型,然后在TCGA样本中对其进行了验证。根据DNA甲基化和基因表达的各个值的加权线性组合,计算表观遗传分数和转录分数。对于表观遗传分析,在多生物标志物模型中筛选得到了1个具有Main effect的CpG探针和25对具有G×G相互作用的CpG探针(补充表9中已标灰),再加上作者之前研究的10个CpG探针一起构建了表观遗传分数。对于转录分析,在多生物标志物模型中筛选得到了1个具有Main effect的基因探针和1对具有G×G相互作用(RHOA*TLX1)的基因探针,并构建了转录分数。再由这两个分数得到综合得分,最后将预后评分定义为临床信息和综合评分的线性组合。
补充表15.评分与早期NSCLC生存率之间的关系
3.建立与评估多生物标志物Cox比例风险模型
为了评估这些评分的区分能力,作者分别根据表观遗传评分,转录评分,综合评分和预后评分的三分位数,将样本分为低,中和高得分组,绘制了经协变量调整的Kaplan-Meier生存曲线。与表观遗传的低分组相比,中得分和高得分组分别具有4.39(P = 1.22×10–6)和21.24倍(P = 5.67×10–21)的HR(图2.A)。转录得分,综合得分,预后评分高的患者生存率均显著降低(图2.B-D)。
作者进一步通过根据五分位数对患者进行分类,说明了预后得分的区分能力。高分组的患者3年和5年生存率较低,中位生存时间较短(图2.E-F)。在由协变量分层的分析中,进一步证实了预后评分的表现。(图3)
图2. 通过各种基于生物标志物的得分对患者的估计生存曲线
图3. 预后评分分层分析结果
然后作者在独立的TCGA队列中使用ROC曲线来预测模型的准确性,ROC曲线下面积(AUC)通过R包SurvivalROC计算得出。仅具有临床信息的模型的预测能力非常有限(AUC 3年 = 0.65,AUC 5年 = 0.66)。但是通过添加具有Main effect或G×G相互作用的生物标志物,增加了35.38%的3年生存率(P = 5.10×10 –17)和34.85%的5年生存率(P = 2.52×10 –18),并且对NSCLC生存期具有较高的预测能力(AUC 3年 = 0.88;AUC 5年 = 0.89)。(图4)此外,G×G相互作用对3年生存率的预测准确性贡献了额外的65.2%,对5年生存率增加了91.3%。最后作者使用R包rms生成了nomogram图(补充图5),校准图还显示了观察到的和预测的存活时间之间的良好一致性(补充图6)。
图4. 使用临床信息(C),DNA甲基化的主要和相互作用效应(M)和基因表达(E)的各种预测模型的ROC曲线
补充图5. 构建的Nomogram与临床和评分的生物标记的总体生存
补充图6. Nomogram模型校准曲线
在敏感性分析中,作者使用两个不同的阈值重新进行了逐步回归(P = .10和.15),发现大多数选定的生物标志物与原始回归模型中相同。然后,作者重新计算了表观遗传评分,转录评分,综合评分和预后评分,重新验证了它们与NSCLC生存率的关系,并获得了相似的结果。
此外,作者发现在LUAD患者和LUSC患者之间,这四个评分的影响没有显著差异(P 表观遗传评分 = .6572;P转录评分 = .1823;P 综合评分 = .5532;P 预后评分 =.9653)。预后模型在LUAD(AUC 3年 = 0.91,AUC 5年 = 0.89,C -index = 0.82)和LUSC(AUC 3年 = 0.85,AUC 5年 = 0.87,C -index= 0.82)中保持了相似的预测能力,表明所选生物标记物及其相互作用在预测LUAD患者和LUSC患者结局方面具有通用性。
4.蛋白质水平上鉴定基因的潜在功能
前面已经在表观遗传分析中筛选出25对G×G相互作用和1个main effect的生物标志物,在转录分析中筛选出1对G×G相互作用和1个main effect的生物标志物,因为有个别基因重复,所以一共涉及到52个基因。在临床蛋白质组学肿瘤分析协会(CPTAC)数据库中定位的47个基因中大多数(77%)基因在肿瘤和正常组织之间具有显著差异表达(limma包进行差异分析)。另外,具有main effect的1个基因和具有G×G相互作用的4对基因对LUAD存活有显著影响(补充表20)。
补充表20. CPTAC蛋白数据库中47个基因的main effect和基因间GxG互作的生存分析
5.表观遗传分析中基因网络分析与富集分析
在表观遗传分析中发现的49个基因中,作者通过GeneMANIA(Cytoscape插件)进行基因网络分析,5个基因(FOXP1,AFF3,BCL6,MAPK1,和STAT3)被确定为hub gene(图5.A),且据报道大多数hub gene与NSCLC相关。使用Metascape进行了GO和KEGG途径富集分析发现这49个基因富含癌症相关的途径(图5.B),值得注意的是,已鉴定的基因也富集在KEGG非小细胞肺癌途径(hsa05223)中,这表明作者鉴定的预后生物标记物的可靠性。
图5.25对相互作用的CpG探针和1个main effect的CpG探针绘制了49个基因的基因网络和基因富集分析
小结
本篇文章不局限于单一组学数据测试预后生物标志物上,结合了表观和转录数据,并考虑到基因与基因相互作用和基因的主要作用,经过ISIS-LASSO,多元COX回归,TCGA数据库的验证(一致性检验和敏感性分析)等多重筛选建立了基因组学的预后评分,提高了预后价值。这篇文章的筛选非常严谨,在基因基因交互作用的差异比较时,作者也注意到了多重比较的问题,使用了Bonferroni方法对P值进行校正。验证的过程中,作者不仅使用不同的基因数据库,还使用蛋白数据库进行验证,这种严谨的思想值得读者学习。当然这篇论文也存在一定的局限性,筛选出来的基因太多了(52个),给临床应用带来一定的困难。