你的数据挖掘文章真的有人在看 / 四六文摘

居然有粉丝咨询我黑色素瘤和小耳畸形这两个疾病的关系，其实我蛮吃惊的，因为我一直分享的都是纯粹的数据处理技术，基本上不会涉及到疾病的认知层面，因为我确实没有医学背景，甚至也不会去谈论那些生信数据挖掘文章套路，因为感觉很low！

我就跟粉丝聊了一下，我这里先整理和细化一下这个咨询：

而他们之所以担心，是因为看到了一篇论文，里面提到了黑色素瘤和小耳畸形的联系。我看了看他们提到的论文，真的是很普通的一个数据挖掘文章：

全文就是去MGI数据库搜索跟疾病相关的基因，拿到了68个基因，列表如下：

所有的的分析都是针对于这68个基因，包括使用STRING数据库构建PPI网络，使用GO/KEGG数据库进行生物学注释。全文就是这些分析图表的罗列，其中一个KEGG数据库注释里面：

就是这个黑色素瘤的KEGG通路，让外行人看起来觉得是黑色素瘤和小耳畸形有联系，所以担惊受怕！

这些分析，我在：什么时候P值大于0.05也无所谓呢讲解过，看起来这样的注释结果统计学非常显著，但其实是因为作者前面进行数据库搜索的时候，拿到的基因就是具有这个倾向性！

人类有2万个左右的编码蛋白的基因，但实际上被几百万生物学家研究过的就七八千个基因，能被疾病关联到的基因就更少了，你搜索拿到的基因本来就是有意义的居多啊！

至少这个文章对疾病相关的68个基因使用STRING数据库构建PPI网络，使用GO/KEGG数据库进行生物学注释，然后罗列的各种图表在我看来是没有太多意义的，纯粹是为了分析而分析！

即使大量的分析结果的基因集是来源于差异分析，处理组合对照组，疾病组合对照组，只需要有分组，就可以使用芯片或者测序技术手段来看全局表达量，走差异分析流程，如果是蛋白质组或者代谢组也是类似的分析策略。基本上读一下表达芯片的公共数据库挖掘系列推文就明白了；

但是这样的文章，在外行眼中看起来又的确是“高大上”，但本质上就是一些数据分析游戏，比如我在生信技能树多次分享过生存分析的细节；

其中看到多了，就不会在心里神话这些分析结果。

我本来是想驳斥这个文章得到的黑色素瘤和小耳畸形的联系，但是却无从下笔，亲爱的生信技能树粉丝们，你们大家有什么建议吗？

目前的情况是，外行人看到这样的中文科研论文就感觉是高大上，必须相信，假如读者具备英文阅读能力，看到了成千上万的肿瘤数据挖掘3~5分文章会不会奉为经典，误入歧途？他们外行人不可能知道99.99%的数据挖掘文章都是凑数啊，还以为是高深莫测的科学研究啊！

你的数据挖掘文章真的有人在看