生信文章思路不够清晰?学学这篇文章
Prediction of hepatocellular carcinoma prognosis based on expression of an immune-related gene set
基于免疫相关基因表达的肝细胞癌预后预测
一、研究背景
HCC是世界上最常见恶性肿瘤之一,发展迅速,治疗困难。大多数HCC患者诊断为晚期疾病,并伴有门静脉肿瘤血栓等疾病,导致预后极差。因此,晚期HCC需要4新的预测方法来提高总生存率;越来越多的证据表明,免疫相关基因的表达可能与肿瘤预后有关,基于这些基因的预后标记可能有助于确定HCC患者的有效治疗方法。所以作者希望通过建立基于免疫相关基因的新模型来有效预测HCC患者的预后、评估疾病状态和确定治疗方案。
二、分析流程
三、结果解读
1、IPSHCC模型的构建
作者取来自5个独立数据集的共903例HCC患者样本纳入IPSHCC分析中,其中308例样本作为训练集,其余样本本别属于4个验证集(补表1)
补表1.数据集来源列表
取训练集中与HCC患者预后生存率有关的272个基因,进行ssGSEA分析,确定HCC患者中每种免疫类型的富集分数(流程如图1)
图1.建立和验证IPSHCC模型的流程图
对多种免疫类型进行的多因素cox回归分析,得到每种免疫类型在模型中对应的相关系数,也就完成了IPSHCC模型的初步构建(表1)
表1.多因素cox得模型中免疫类型对应系数
2、IPSHCC模型的验证
首先,作者按照训练集中患者的免疫类型平均系数值(-0.0087)作为cut-off,把训练集和四个验证集分为高、低免疫风险组,对IPSHCC模型与患者预后生存率进行荟萃分析,结果显示高免疫风险组的生存率比低免疫风险组要低2.6416倍。(表2)
表2.高低免疫风险组IPSHCC预测结果比较
接着,为了进一步印证IPSHCC模型的预后价值,作者对训练集和4个验证集分别进行了高、低免疫风险组的KM生存分析,结果一致显示:“IPSHCC低免疫风险组”的中位OS高于“IPSHCC高免疫风险组”
同时,作者还对IPSHCC模型的预测结果绘制了ROC曲线,5个数据集的AUC值反映了该模型具有较强的预测水平(其中训练集和验证集1、2、4、5的1年、3年、5年AUC值均>0.65) (图2)
图2.KM生存分析及ROC曲线图
图3.B中作者给出了IPSHCC在总数据集中的分布,其中上面部分显示的是IPSHCC分布与患者生存状况的对应关系;而下半部分给出的是15中免疫类型的富集分数对应患者生存状况的热图(图3.B)
图3.总数据集IPSHCC对应生存状态的分布
3、IPSHCC模型的临床亚组和敏感性分析
首先,对IPSHCC与年龄、性别、分期、有无侵袭做多因素cox分析,发现IPSHCC模型在所有临床亚组中均具有显著的预后相关性,结果提示了此模型的预后机制可能独立于其他临床特征(补图1)
补图1.IPSHCC与其他临床预后因素的多因素cox
此外,作者鉴定了196个与免疫相关的基因样本,列出了它们中包含的免疫过程,如表3所示。
作者使用ssGSEA富集分析,基于IPSHCC模型中的免疫类型对应系数,计算出占比最高的3种免疫类型(antimicrobials、cytokines、cytokine_receptors)的免疫评分,采用KM生存分析比较了高、低免疫评分组的中位OS值,发现高评分组预后更为良好。(图4.A)
表3.免疫类型各自占比列表
在以上基础上,作者进一步补充验证IPSHCC模型的预测稳定性,从合并数据集中随机采500样本10000次,绘制全部采样结果的p值和C指数(用于评价模型预测能力,取值0.5-1时有意义)的直方图,发现p值全部小于0.05,C指数中位数为0.6819,表明该模型具有较强的预测水平(图4.B、C)
图4.利用C-index验证模型的预测水平
4、信号通路富集分析
作者对196个免疫相关基因进行富集分析:KEGG分析显示出69个相关通路(包括PI3K/AKT通路等),GO分析确定了205个生物学过程、57个分子功能、30个细胞组成相关的通路。
5、IPSHCC模型与其他预后影响因素的预测能力比较
作者使用单因素cox分析比较了5种其他疾病预后影响因素的预测水平,将包括IPSHCC模型在内的10个预后预测因子的P值和C指数进行排序(表4),表4结果显示:IPSHCC的p值最低,C指数最高,表明其具有较强的预测价值
同时作者绘制了10个预测因子P值和C指数进行可视化,更清晰地反映了以上结论(图5)
表4.单因素cox比较IPSHCC模型与其他预后因素的预测水平
图5.表4中p值和C指数的可视化
6、IPSHCC模型的改良——与临床特征相整合
年龄、性别、分期和侵袭程度是重要且独立的HCC预后影响因素,所以作者试图将训练集多因素cox得到的系数与IPSHCC模型相整合,具体公式为:integrated model = 0.776924010 × IPSHCC + 0.004843653 × age + 0.625080315 × stage + 0.061769897 × gender -0.319739104 × invasion
接着,作者将整合后的模型与原模型的预测能力进行比较(分别在训练集和HCCDB18验证集中进行),给出了二者的RMS(限制性平均生存时间)曲线图,发现在训练集和验证集中得到的结果均显示整合后的模型的C指数高于原模型,说明作者的改良方式显著提高了模型的预测水平(图6)
图6.RMS曲线图评估整合后模型的预测水平
小结