华西师兄带你详解机器学习结合生信数据库挖掘发表的Ebiomedicine(IF=6+)文献
作者介绍 :本文作者大可,四川大学华西医院肿瘤中心科研搬砖工,研究兴趣包括机器学习在高维组学问题中的应用,预测模型的开发与验证。已发表多篇生信和机器学习相关sci文章。
编辑校稿:白介素2
各位朋友大家好,今天给大家分享一篇2020年1月最新出炉的一篇机器学习和生信相结合的高分文章 - “Tumour immune cell infiltration and survival after platinum-based chemotherapy in high-grade serous ovarian cancer subtypes: A gene expression-based computational study” 。这篇文章发表在Lancet的子刊Ebiomedicine上,影响因子6.68分。
这篇文章探究了经过铂类药物治疗后的不同分子亚型的高分化浆液型卵巢癌的肿瘤微环境浸润情况和生存情况,所有的数据和分析都基于TCGA和GEO数据库。总的来说,纯生信无实验验证的高分论文凤鳞毛角,那这篇论文是如何做到呢,让我们一起来看一看吧!
实验目的
肿瘤的免疫浸润情况目前已经越来越多的被证实与肿瘤患者的预后有关,同时,卵巢癌的分子分型也在既往文献中被报道和患者的预后或病理特征有关。这篇文章的主要目的是探索在不同分子分型的铂类药物治疗后的高分化浆液型卵巢癌中免疫组分浸润情况和患者生存的关系。
实验流程
首先,整个研究的流程图如下:
我们可以看到,总的来说,文章的思路很简单,清楚明了,作者纳入了13个GEO数据集,共2540个经过铂类药物治疗后的卵巢癌患者,用CIBERSORT计算患者的免疫微环境浸润情况,在筛除一些不符合要求的患者后,对数据集的的免疫细胞浸润情况进行单因素生存分析,分别分析了免疫浸润与总生存期和无病生存期的关系,随后纳入单因素分析P值有显著意义的微环境浸润免疫细胞进入多因素生存分析。
使用机器学习连接TCGA和GEO数据
首先,作者用SVM支持向量机,将488例具有完整卵巢癌分子分型的TCGA数据作为训练集,将422例前人已经预测完毕的带分子分型的患者基因表达数据作为验证集,建立机器学习预测模型。发现机器学习所建的模型可以较好的区分出卵巢癌的不同分子分型。因此,作者得以用自己的机器学习模型对所有GEO数据集中的卵巢癌患者的分子亚型情况进行分类。
利用CIBERSORT鉴定免疫组分
在确定好所有纳入患者的卵巢癌分子分型后,作者利用CIBERSORT计算出每个数据集中患者的免疫细胞浸润情况,并且在不同数据集中进行相互比较。
生存分析
之后就是大家所熟悉的生存分析环节了,作者将所有数据集中免疫浸润情况汇总,并进行单因素和多因素生存分析,分析不同免疫组分的表达情况与患者的总生存期和无病生存期之间的关系。除此之外,作者还把每一个免疫组分以四分位数作为截断值,比较免疫组分自身的浸润情况能否使患者的总生存和无进展生存期分层。
同时,作者又做了分子分型的亚组分析,探究不同分子亚型的卵巢癌患者的免疫浸润情况是否有差距。方法学原理和上述相同。
分层聚类分析
到前面为止,作者的任务似乎已经完成,但为了使故事更加完整,作者根据患者的免疫组分表达差异,又进行了分层聚类分析(hierarchical clustering),详细分析了所有患者免疫组分的表达差异并进行聚类。
作者对不同聚类进行了生存分析,发现不同免疫浸润模式的患者在总生存期和无进展生存期上有显著的差异。
免疫检查点和卵巢癌分子分型的关系
最后,作者检查了常见的免疫检查点 PD1/L1,CTL4的表达和卵巢癌患者不同分子分型之间的关系,作者发现,不同免疫检查点的表达差异与免疫型和增殖型的卵巢癌患者的预后相关,提示不同卵巢癌的分子亚型有可能与卵巢癌患者对免疫治疗的不同反应性相关。
总结
这篇文章所用的技术不难,除了机器学习以外,都是常规的统计学方法和生信技术。笔者认为本文之所以能发上Ebiomedicine的原因有二:一是患者样本量大,作者搜集了TCGA和GEO数据库中所有相关样本,共有2000多例进行分析,使文章的可信度和工作量大幅上升。二是使用了机器学习的方法,根据基因表达程对卵巢癌患者的分子分型分类。这一点是文章的基础。没有机器学习,文章的大样本量根本无从说起。因此,我们可以看出,在生信分析已经相对泛滥的今天,机器学习或许是纯生信文章发表的新出路。