你的数据挖掘文章真的有人在看
居然有粉丝咨询我黑色素瘤和小耳畸形这两个疾病的关系,其实我蛮吃惊的,因为我一直分享的都是纯粹的数据处理技术,基本上不会涉及到疾病的认知层面,因为我确实没有医学背景,甚至也不会去谈论那些生信数据挖掘文章套路,因为感觉很low!
我就跟粉丝聊了一下,我这里先整理和细化一下这个咨询:
粉丝她自己的父亲60岁患黑色素瘤,自己的女儿生下来就是小耳。 现在自己的弟弟结婚,弟媳担心胚系突变的癌基因导致了癌症(黑色素瘤)和发育出问题(小耳畸形)
而他们之所以担心,是因为看到了一篇论文,里面提到了黑色素瘤和小耳畸形的联系。我看了看他们提到的论文,真的是很普通的一个数据挖掘文章:
全文就是去MGI数据库搜索跟疾病相关的基因,拿到了68个基因,列表如下:
所有的的分析都是针对于这68个基因,包括使用STRING数据库构建PPI网络,使用GO/KEGG数据库进行生物学注释。全文就是这些分析图表的罗列,其中一个KEGG数据库注释里面:
就是这个黑色素瘤的KEGG通路,让外行人看起来觉得是黑色素瘤和小耳畸形有联系,所以担惊受怕!
这些分析,我在:什么时候P值大于0.05也无所谓呢 讲解过,看起来这样的注释结果统计学非常显著,但其实是因为作者前面进行数据库搜索的时候,拿到的基因就是具有这个倾向性!
人类有2万个左右的编码蛋白的基因,但实际上被几百万生物学家研究过的就七八千个基因,能被疾病关联到的基因就更少了,你搜索拿到的基因本来就是有意义的居多啊!
数据挖掘文章价值几何
至少这个文章对疾病相关的68个基因使用STRING数据库构建PPI网络,使用GO/KEGG数据库进行生物学注释,然后罗列的各种图表在我看来是没有太多意义的,纯粹是为了分析而分析!
即使大量的分析结果的基因集是来源于差异分析,处理组合对照组,疾病组合对照组,只需要有分组,就可以使用芯片或者测序技术手段来看全局表达量,走差异分析流程,如果是蛋白质组或者代谢组也是类似的分析策略。基本上读一下表达芯片的公共数据库挖掘系列推文 就明白了;
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够
但是这样的文章,在外行眼中看起来又的确是“高大上”,但本质上就是一些数据分析游戏,比如我在生信技能树多次分享过生存分析的细节;
基因表达量高低分组的cox和连续变量cox回归计算的HR值差异太大? 学徒作业-两个基因突变联合看生存效应 TCGA数据库里面你的基因生存分析不显著那就TMA吧 对“不同数据来源的生存分析比较”的补充说明 批量cox生存分析结果也可以火山图可视化 既然可以看感兴趣基因的生存情况,当然就可以批量做完全部基因的生存分析 多测试几个数据集生存效应应该是可以找到统计学显著的! 我不相信kmplot这个网页工具的结果(生存分析免费做) 为什么不用TCGA数据库来看感兴趣基因的生存情况 200块的代码我的学徒免费送给你,GSVA和生存分析 集思广益-生存分析可以随心所欲根据表达量分组吗 生存分析时间点问题 寻找生存分析的最佳基因表达分组阈值 apply家族函数和for循环还是有区别的(批量生存分析出图bug) TCGA数据库生存分析的网页工具哪家强 KM生存曲线经logRNA检验后也可以计算HR值
其中看到多了,就不会在心里神话这些分析结果。
科普到底应该是走向何方
我本来是想驳斥这个文章得到的黑色素瘤和小耳畸形的联系,但是却无从下笔,亲爱的生信技能树粉丝们,你们大家有什么建议吗?
目前的情况是,外行人看到这样的中文科研论文就感觉是高大上,必须相信,假如读者具备英文阅读能力,看到了成千上万的肿瘤数据挖掘3~5分文章会不会奉为经典,误入歧途?他们外行人不可能知道99.99%的数据挖掘文章都是凑数啊,还以为是高深莫测的科学研究啊!