灌水还是寻宝?这是个问题,从一篇22分的数据挖掘文献谈起
作者简介
本文作者大可,四川大学华西医院肿瘤中心科研搬砖工,研究兴趣包括机器学习在高维组学问题中的应用,预测模型的开发与验证。已发表多篇生信和机器学习相关sci文章。
责编 | 白介素2
JAMA Oncology
众所周知,2020年的今天,纯数据库发文章已经越来越困难,不少杂志已经明确拒绝利用单一的纯数据库资源(如TCGA等)进行研究的稿件。在之前的推文里,大可已经给大家说过,机器学习结合生物信息学,也许是未来生物信息学发表的新出路。今天,大可给大家带来一篇19年年末发表在JAMA Oncology(IF =22.4) 的利用数据库资料的机器学习文章
“Development of Genome-Derived Tumor Type Prediction to Inform Clinical Cancer Care”。
在临床上,鉴别肿瘤类型及其起源是对肿瘤进行分类以及临床护理的基础。在肿瘤的精准医疗时代,治疗方式极大限度取决于原发肿瘤的分子特性。因此,肿瘤起源鉴别是判断肿瘤生物学特性和治疗敏感性的基础。
那怎么利用肿瘤的组学信息有效的鉴别肿瘤起源呢?临床上目前还没有定论。这篇文章通过纳入MSK-IMPACT这一患者队列的传统基因信息,试图从组学的角度入手,通过机器学习的方法,解决这一问题。
这篇文章纳入了MSK-IMPACT临床队列,包含22种肿瘤,训练集共计7791名患者,独立验证集包括11644名患者**(从这里可以看出,想靠机器学习发顶刊,大数据量才是王道,泛癌分析也比较受欢迎)**。利用随机森林的机器学习方法,以患者的基因组数据数据加上性别作为输入分类特征进行分析。
组学数据包括
“
mutations and indels (hotspots and gene level), focal amplifications and deletions, broad copy number gains and losses, structural rearrangements, mutation signatures, mutation rate.
由下图A可以看出,通过使用训练集中的7791名患者进行训练后的随机森林分类器,可以在临床上对类型或来源不明的肿瘤进行预测。预测的结果表明,该分类器对多种肿瘤的来源或类型的灵敏度和特异度均较高,
该分类器在胶质瘤,结直肠癌,肾细胞瘤,黑色素瘤等肿瘤上具有较好的辨别能力(图B&C)。
总的来说,作者所构建的随机森林模型能准确预测73.8%的训练集患者和74.1%的验证集患者。约50%的患者的预测准确率超过95%。对于不明原发灶的患者,该模型的准确性可以达到67.4,总的来说还是比较令人满意。
正如作者指出的,整篇文章的创新点在于使用人工智能(机器学习),利用患者的基因组(而不是传统的病理或影像)预测肿瘤类型。
这提示患者的基因信息在鉴别肿瘤类型方面可以对传统的病理和影像鉴别进行良好的补充。这篇文章
文章亮点
庞大的数据量,
富有临床意义的结论
揭示机器学习用于临床辅助诊断或治疗的可能性
是笔者认为的三大亮点。
作者点评
文章的解读到上面已经结束了, 大可想说一下自己的想法,这篇文章使用的数据都是公开数据.这也提醒我们,尽管现在使用公开数据库发表的文章已经相对泛滥,但是仍有大量的宝藏深埋其中,对于数据挖掘,有的人挖到了沙子,有的人挖到了金子。
如何挖到金子?临床意义是方向,挖掘方法是工具。我们所有的分析,最好都要着眼于切切实实的临床意义上。
我想,这也是我们数据挖掘的意义,我们的目的是挖掘金子,而不是在旁边堆沙子。