筛选出来多基因要怎样分析才能发3+分?
大家好,今天和大家分享的是2020年1月发表在“Frontiers in Genetics” (IF=3.258)上的一篇文章“An Integrated Model Based on a Six-Gene Signature Predicts Overall Survival in Patients With Hepatocellular Carcinoma”,作者借助GEO、ICGC等公共数据库,通过生物信息学的方法筛选出6个可用于预测肝细胞癌(HCC)患者OS的基因,并构建列线图对不同数据集的样本进行预测,验证筛选基因的预后价值。
An Integrated Model Based on a Six-Gene Signature Predicts Overall Survival in Patients With Hepatocellular Carcinoma
一种基于六个基因标志物的整合模型可预测肝细胞癌患者的总体生存率
一、研究背景
肝细胞癌(HCC)是世界范围内最常见的恶性肿瘤,死亡率位居所有癌症中的第二名,肿瘤转移和术后复发导致了HCC患者的不良预后。如今,HCC患者的临床治疗效果已得到改善。然而,由于分子机制的复杂性,HCC患者的复发率和死亡率仍处于较高水平,因此迫切需要筛选生物标志物以显示其治疗效果,从而改善预后情况。 HCC患者的常规预后评估工具是临床病理分期。但是,HCC始终伴随着临床异质性,而临床异质性通常会影响常规预后评估的效果。为了为高危人群提供更多的临床治疗策略,迫切需要开发一种新的预后预测模型,作为对临床病理分期预测结果的补充。
二、分析流程
三、结果解读
1、肝癌中具有预后价值的差异表达基因的鉴定
作者首先对HCC组织(n = 115)和正常组织(n = 52)之间的mRNA表达谱进行比较分析,确定了8306个显著差异表达的mRNA,通过火山图进行可视化(图1A)
根据调整后的P值对所有的差异表达基因(DEGs)进行升序排序,然后选择前5,000个基因并进行加权基因共表达网络分析(WGCNA),WGCNA构建了基因共表达模块,通过聚类树状图将这些基因分配给不同的模块(图1B) 。表1列出了WGCNA中每个模块的基因数量。
每个共表达的基因模块与肝癌临床特征之间的相关系数如图1C所示。
图1A-C:依次为火山图、聚类树状图、相关系数
表1:每个module的基因数量
图1D显示了9个HCC相关模块(module)的模块成员与基因的显著性分析。结果表明红色模块不仅具有与OS的最大相关系数(0.25),而且也是与基因显著性(gene significance)最相关的模块。
图1D:9个肝细胞癌相关模块中的模块成员
因此,红色模块被认为是与HCC预后最相关的模块。接下来,作者对红色模块的基因进行GO和KEGG分析:GO分析显示其最重要的生物学过程(BP),分子功能(MF)和细胞成分(CC)分别是I-κB激酶/NF-κB信号传导,线粒体基质和辅因子结合;KEGG分析显示与肝癌样本相关的关键信号通路为碳代谢,流体剪切应力和动脉粥样硬化,氨基酸的生物合成,精氨酸的生物合成以及丙氨酸-天门冬氨酸-谷氨酰胺代谢。
2、基于六个基因标志物的风险评分模型的构建和生存分析
作者进行了差异基因表达分析(图2),并选择了61个关键基因用于进一步分析
图2:红点代表关键基因
图3展示了从TCGA的HCC数据集中的61个预后相关基因中提取稳定基因的整个过程。为了建立HCC的临床生存预后模型,作者使用TCGA作为训练数据集,并应用LASSO Cox回归分析从61个与生存相关的候选基因中识别出稳定的基因。表2显示了用于构建多元COX模型的参数,6个筛选得到的基因(SQSTM1,AHSA1,VNN2,SMG5,SRXN1和GLS)与高风险(HR> 1)有关。
图3:提取稳定基因的过程
表2:筛选得到的6个基因
作者以得到的6个基因为基础,进行预后情况的预测。作者计算了训练数据集中HCC患者的风险评分,365名HCC患者被分为低风险组和高风险组。通过比较这两组中6个基因的表达情况以及生存情况,作者发现高评分组中6个基因高表达且具有不良预后(图4左)
为了进一步验证预测效果,作者从ICGC数据库中选取243个HCC样本,计算风险评分并分组,比较6个基因的表达情况以及生存情况,得到了同样的结果:高评分组中6个基因高表达且具有不良预后(图4右)
图4:风险评分分布、生存情况和热图
3、6个基因的KM曲线和ROC曲线
应用Kaplan-Meier生存曲线对两组的OS进行比较,ROC曲线下面积(AUC)来评估基于6个基因的模型预测预后的能力,AUC越高意味着模型性能越好。作者发现TCGA数据集中的高风险和低风险组之间的OS有显着差异(P <0.0001)(图5A)。对应0.5、1、2、3 ,和5年生存率的AUC分别为0.759、0.761、0.708、0.681和0.692,这表明预测模型具有较高的敏感性和特异性(图5C)。相同方法的验证应用于ICGC数据集中(见图5B和图5D)
图5:KM曲线和ROC曲线分析
4、预后风险评分是独立于其他临床病理特征的预后因素
作者应用单变量和多变量Cox回归分析评估六种基因的独立预测价值。在TCGA数据集中,单因素Cox回归表明风险评分,病理分期和T分期具有预后价值,而年龄,性别和组织学等级与生存率无关(图6A)。多因素Cox回归分析表明,只有风险评分是与OS相关的独立预后因素。(图6C)同样的分析也应用于ICGC数据集中。
单因素Cox分析表明,风险评分和病理分期与OS相关(P <0.05;图6B)。多元Cox回归分析显示,风险评分,既往恶性程度和病理分期与OS相关。(图6D)
图6E和6F以热图的形式展示了6种基因在高风险组和低风险组中的表达水平
这些结果都证实,基于六个基因的风险评分可以用作肝癌患者预后的独立预测指标。
图6:单变量、多变量分析结果以及热图展示
5、基于多种分类方法的OS亚组分析
作者探索了六种基因在不同TNM阶段、不同组织学等级、病毒性肝炎感染、不同BMI和年龄中的表达情况。事实证明,基于六种基因的风险评分是用于预测不同亚组的OS的潜在标志,具体预测情况如图7所示。
图7:不同亚组的OS预测情况
6、列线图的构建与验证
为了提出可预测HCC患者生存率的临床适用方法,作者开发了列线图来预测TCGA队列中1年,3年和5年OS的可能性。列线图的预测因素包括四个独立的预后因素(年龄,性别,病理分期和六种基因的特征)。随后,作者构建了将临床病理特征与六种基因相结合的列线图,以预测HCC患者的OS(图8A)通过校准曲线分析,作者发现由列线图预测的1年,3年和5年OS与实际的OS很接近,这证实了列线图的可靠性(图8B)
作者还通过ROC曲线评估整合列线图的预测精度,发现整合列线图的所有AUC均高于0.77,这表明与单一预后模型相比,综合因素构建的列线图是预测HCC患者短期和长期生存率的最佳方法。此外,作者还发现,整合模型对3年和5年的预测能力低于1年,这表明列线图的短期预测能力可能强于长期预测能力。
图8:预后列线图的构建和效果验证
小结
这篇文章中,作者通过单因素、多因素、LASSO Cox分析筛选出6种(SQSTM1, AHSA1, VNN2, SMG5, SRXN1, GLS)可作为预测HCC患者预后情况的基因,通过在不同的数据集中验证,证明基于六种基因的预后模型是预测HCC患者OS的可靠工具,而包含六种基因特征的列线图可以帮助在临床实践中开发个性化的HCC治疗方法。有待进一步研究的是如何在HCC的特定阶段合理应用各种基因标志物。