RNA预后模型:基于通路好还是基因好?
Comparison of pathway and gene-level models for cancer prognosis prediction
预测癌症预后的通路和基因水平模型的比较
一、 研究背景
癌症预后预测对临床有很大的意义。通过将基因水平的数据整合到通路水平中,可以改善模型的预测性能,同时进一步解释该研究方向。尽管过去有许多研究已使用通路水平的预测因子进行癌症生存分析,但尚未有研究者全面地比较过通路水平和基因水平的预后模型。
二、 分析流程
三、 数据处理
1. 数据来源
作者利用来自TCGA的33个队列以及MSigDB中的Hallmark pathway collection中共有的基因表达数据进行实验。在表1中列出了这些队列的完整列表以及对应的样本量,死亡率和预测性能结果。
Table1:33个TCGA队列的预测性能结果
2. 预后模型
作者在图1中展示了通路水平模型的流程图。可见作者对TCGA和MSigDB的数据整合,通过无监督的单样本基因集方法GSVA将基因水平的表达数据矩阵转换为通路水平的变量。然后用嵌套交叉验证来训练和评估通过LASSO惩罚的COX回归,得到通路水平的模型。
图1:通路水平的工作流程图
对于基因水平的工作流程图,在图2中有所展示。与通路水平的相类似,在此不再赘述。
图2:基因水平的工作流程图
3. 模拟实验
通过TCGA的基因表达数据和与特定基因表达量相关的模拟生存时间数据,作者进行了两次模拟实验。这里的特定基因包含来自一个MSigDB通路的基因以及随机筛选的等大的基因集。该实验是基于“关键通路基因的表达失调导致癌症的发生发展,同时影响预后“的假说进行的。
作者使用四个MSigDB Hallmark通路进行模拟实验:Hallmark estrogen response late (n =200, correlation=0.17 in LGG cohort), Hallmark E2F targets (n =193, correlation=0.34 in LGG cohort), Hallmark TGF beta signaling (n =54, correlation=0.22 in LGG cohort) 以及Hallmark MYC targets V2 (n =58, correlation=0.27 in LGG cohort) ,分别代表大小不同的通路模型以及高低不等的相关性关系。
在第二个模拟实验中,作者对行进行重新排布,打乱了原有的基因间相关性,但仍保留差异性。从而探究复杂的基因间相关性结构对模型表现的影响。
四、 结果解读
1. 模拟实验的结果
图4a展示了第一次模拟实验的结果,作者使用TCGA LGG队列的生存时间以及上述提及的四个MSigDB Hallmark通路进行分析。可见通路水平和基因水平模型的预测性能对于四个通路和所有测试的模拟模型都是相似的。未添加噪音时,两个模型的CI都可以高达0.9。随着噪音水平的增高,预测性能逐渐下降,直到CI值降低到0.5,与随机实验一致为止。
比较不同大小的通路结果表明(4a上下对比),基因水平和通路水平模型的性能对通路的大小不敏感。相反,基因间的相关性水平显著影响模型的预测性能(4a左右对比),高相关性的通路中,基因水平与通路水平均表现出更好的性能,对噪音的敏感性更低。
图4b展示了表示LGG队列基因表达数据上,计算4个途径的基因间的相关结构的热图。
图4:TCGA LGG队列的第一次模拟实验结果
图5a展示了第二个模拟实验的结果,本次实验通过重新排布行破坏基因表达的相关性,但仍保留基因表达的差异。使用TCGA LGG队列及上述的4个通路。在打破基因表达数据间的相关性后,基因水平模型的CI值降低到了0.5。相比之下,通路水平的模型仍然保持较好的预测性能,在不添加噪音的情况下的平均CI值高达0.9,但预测更容易受到噪音的干扰。
图5b展示了随机排列基因表达值后四个对应的Hallmark通路缺乏基因间相关性的热图。
图5:TCGA LGG队列的第二次模拟实验结果(破坏基因间的相关性)
在补充文件1和2中,作者利用TCGA剩下的32个数据集和MSigDB Hallmark collection中的50个通路重复了上述的实验,得到了与图4和图5相类似的结论。
除此之外,作者发现,在第一个模拟实验中,基因水平和通路水平的预测性能相当(无论是null group,non-null group还是random gene group)。
对于null group,由于基因表达数据和生存结果缺乏关联,因此预期基因水平和通路水平模型的CI值都近似0.5。
对于non-null group,生存时间与特定通路中基因的平均表达水平有关联,因此作者猜测通路水平的模型比基因水平模型具有更好的预测性能。但是二者的预测性能相似,这可能由于MSigDB通路中的基因与TCGA基因表达数据高度相关。如图4b所示,通路中所有基因的最低平均相关性仍然达到0.2。
在random gene group中,由于随机选择的基因与生存相关,因此作者猜测基因水平的模型比通路水平性能更好。但是这两者相似。作者认为可以通过通路的基因之间相关性来解释。
第二次模拟实验中,基因间相关性的缺失,基因水平模型无法正常运行。这验证了上述作者的猜想。
图6a展示了第一个模拟实验中通路分数之间的相关性。可见即使低于通路中基因的相关性,随机基因的相关性仍然较高。这样可以使通路模型更容易选择与之关联的通路。同样的,在第二次模拟实验中打破基因间相关性后,通路水平的模型无法正常运行。
图6:单样本通路分数的相关性。
当基因间相关性较低时,相较于基因水平模型,通路水平模型有更优秀的预测性能,更高的计算速度,且更加稳定和简约。为了评估模型的简约性,作者绘制了non-null group中预测变量的平均数目(图7)。总的来说,通路模型包含更少的预测变量。将7a和4a,7b和5a一起比较,发现模型的预测性能与模型中的预测变量数目有关,对于基因水平模型尤甚。
图7:non-null group中预测变量的平均数量
作者使用Fleiss Kappa分析评估了模型的稳定性。如图8所示,对于第一个和第二个模拟实验,通路水平模型比基因水平模型更稳定。
通过计算第一个不添加噪音的模拟实验的总执行时间,评估基因水平和通路水平的相对计算成本,惊人的发现通路水平的估计时间仅需要基因水平的2.3%。
图8:non-null模型的Fleiss Kappa统计量在50条通路的密度分布图
2. TCGA数据的结果
作者还使用了TCGA的真实生存数据比较了通路和基因水平模型的预测性能。图9展示了使用每个TCGA队列中基因和通路水平模型的预测性能。与模拟研究类似,通过CI对预测性能进行量化,此处的CI是通过5折交叉验证的50个重复样本的平均值。
在图9中,通路和基因水平模型对TCGA数据有相似水平的预测性能。每个队列的平均CI值在0.5-0.8之间。这些癌症类型的预测能力差异可能由多种因素引起的。
图9:33个TCGA队列的基因和通路水平模型的预测性能
有趣的例子是,对于LGG,GBM和GBMLGG队列而言,GBMLGG队列效果很好,基因水平的CI值高达0.85,通路水平CI值为0.83。对于LGG队列,基因水平CI值下降至0.82,通路水平CI下降至0.77,而对于GBM队列,通路和基因水平均下降至0.5左右。作者认为,不同亚型患者的生存时长影响了CI值。如图10所示,GBM患者预后最差,生存时间差异小;而LGG患者预后好,生存时长差异也较大。
图10:LGG,GBM,GBMLGG队列的生存时间分布
小结
在本研究中,作者使用基因水平和通路水平的惩罚COX回归模型,根据肿瘤的基因表达数据预测癌症的预后。作者使用来自TCGA的肿瘤基因表达数据以及实际或者模拟的生存时间评估比较了基因水平和通路水平的模型,发现与基因水平模型相比,通路水平的解释性更强,稳定性和计算效率也更高。