说一点跟超几何分布检验无关的事情

Y叔昨天我们公众号推文后5分钟推出这个吐槽文,打了我个措手不及~

我们的争论就两点:

首先,丢弃未注释的基因对p值的影响大吗?

其次,这个p值有决定性作用吗?

在我们团队整理生信编程实战练习题的时候遇到了一个问题,就是超几何分布检验是否需要把我们的背景基因和差异基因进行过滤,就是丢弃那些没有被数据库收录的基因!

我不是很确定,只好求助业界前辈Y叔,Y叔语重心长的给我讲解了其中曲折,还给出了他博客里面关于这一点的详细解释:http://guangchuangyu.github.io/2014/08/why-clusterprofiler-fails/

看完全文其实我已经明白了Y叔说丢弃掉那些没有被注释到的基因的理由了!

而我以前一直以程序猿的思维来理解这个问题,就是每个通路单独进行超几何分布检验,然后循环一下即可。那么对具体的某一个通路来说,我们的基因要么属于这个通路,要么不属于这个通路。 不应该把所有通路的基因取一个并集,叫做通路注释基因集。不过这个只是我个人看法,我已经没办法肯定什么是对,什么是错了。

回到我们的争论上面:

丢弃与否的P值差异到底大不大的问题!

随机模拟的背景基因和差异基因如下:

上面的代码可以在R里面直接运行,得到测试数据,然后你们可以拿到各种做富集分析的网页或者工具里面看看结果。

用很简单的R代码,就可以看到背景基因和差异基因是如何被kegg数据库过滤掉的!

很明显,kegg数据库的过滤,对背景基因和差异基因的效果是一样一样的!!!

本来是300个差异基因,背景是hgu95av2芯片涉及到的8596个基因!

如果用2011.03.15版本的kegg的基因进行过滤,那么差异基因就只有130个了,背景基因也相应的减少到3802个!!!

如果用2017.03.03版本的kegg的基因进行过滤,那么差异基因就只有150个了,背景基因也相应的减少到4392个!!!

我们有理由相信,随着时间的前进,总有一天,差异基因和背景基因,都不会被过滤了,因为他们被注释完全了!!!

现在过滤,只是因为kegg这个数据库收录的基因很有限而已,到目前为止也就7234个基因!!!

这就是Y叔在公众号怼我那一点!!!!

不是就当n也翻倍~~~而是,对我这个随机模拟情况来说,本来就是恰好对背景基因和差异基因过滤的程度是一样一样的!

我之所以给他那个结论,就是因为我发现,的确是差别不大!!!

那么现在回答第二个争论点,p值有决定作用吗?

我的答案是没有!

举个例子,100基因富集,其中15个基因都在某个家族,p值不显著,另外四个基因另一个通路p值显著,但是我还是会考虑那15个基因的,因为它们数量足够部分代表这个基因集。

再举个例子,大家喜欢用0.05来一刀切,难道0.049和0.051差别就大了??这个搞法就不对, 数据需要详细理解,nature上各种文章讨论p值不科学的例子我就不提了,很多人对数据分析人员的要求就是给他一个分界点,他们不管合不合理啊。

(0)

相关推荐

  • 【科研】转录组测序数据分析

    引言 前面两期主要为各位简单介绍了转录组测序以及转录组测序的方法,相信各位对转录组测序有了一定的了解.那么测序后进行数据分析,具体包含哪些分析内容呢?本文就详细为各位介绍一下. 分析内容 mRNA是具 ...

  • 关于功能富集分析的基础知识

    富集分析基因富集分析(gene set enrichment analysis)是在一组基因或蛋白中找到一类过表达的基因或蛋白.研究方法可分为三种:Over-Repressentation Analy ...

  • GO分析和KEGG分析都是啥?

    前几天和大家介绍了一下GEO数据库以及使用GEO2R进行差异表达分析GEO2R差异表达分析软件.几乎现在的套路性文章在做完差异表达分析后,都会去做GO和KEGG富集分析.那么GO和KEGG都是什么?富 ...

  • 不用编程,三分钟KEGG/GO富集分析火热出炉!

    据不完全统计,今年来基迪奥OmicShare云工具平台的KEGG和GO富集分析工具使用次数已经突破30,000+啦!KEGG和GO富集分析作为平台使用频率最高的工具之一,一直陪伴大家.听许多对生信还不 ...

  • 有趣地将差异表达基因有用地展示在KEGG通路上

    身为一个公众号,如果不更新,那么太对不起关注的朋友们啦.然而,作为一个正经的果农,我确实没太多可以分享的.按照惯例,先宣传一下地球上最好的生物信息理论和技术交流QQ群(bioinformatics*C ...

  • 转录组 代谢组专题 | 转录组 代谢组关联分析内容及分析思路

    随着测序技术及质谱技术的发展,获得高通量的测序数据和质谱数据的方法越来越方便.系统生物学通过整合生物系统中诸多相互联系和作用的组分来研究复杂生物过程的机制.系统生物学研究为生命科学的研究提供了新思路. ...

  • 植物激素通路分析和绘图-看这一篇就够了

    在文章中,植物激素通路分析常以下面两种形式的图片来展示分析结果.其一,依赖于 KEGG pathway 的通路图,在此基础上将通路中的基因用不同颜色来展示其在转录组数据中的上下调情况. 另外一种类型, ...

  • 已婚男人所谓的爱,不过是因为这一点,与颜值无关

    很多人,在初次见到玫瑰时,就会被它的娇艳和芬芳所吸引,以为这会是自己今生挚爱,直到很多年之后,看见洁白淡雅的百合,才发现这个世界上还有另外一种你不曾见过的美. 不论是玫瑰还是百合,其实对于大家来说都是 ...

  • 不需要参与那些与他们无关的事情

    ​我们已经说过很多次,你们会发现有人在所谓骇人听闻的情况下能够 保持相当的冷静,因为他们对自己的观察很满足.他们不需要参与那些与 他们无关的事情. 他们在自己的存在中很开心,因为他们跟随他们的观察.他 ...

  • 生信编程直播第七题:写超几何分布检验!

    下载数据 切换到工作目录:cd d/生信技能树-视频直播/第七讲 kegg2gene(第六讲kegg数据解析结果) 暂时不用新的kegg注释数据为了能够统一答案 差异基因list和背景基因list 关 ...

  • 你的上司都让你做哪些与工作无关的事情?那是我上班最爽的半年

    你的上司都让你做哪些与工作无关的事情?老板初中文凭,让我帮他小学儿子辅导作业,每天下午啥也不用做,看着他儿子写作业就行,那是我上班最爽的半年. 以前的老板是多年的朋友,工作私下都帮他张罗,干活比较信任 ...

  • 什么事情是你注重养生以后才知道的?第一点...

    什么事情是你注重养生以后才知道的? 第一点不要熬夜,如果熬夜请尽量早点睡,不要觉得自己年轻牛逼,身体可以随便造.如果你能规律睡眠,植物神经紊乱会离你很远. 一个人睡眠不会出问题,因为不熬夜. 如果熬夜 ...

  • 感情有时候只是一个人的事情。和任何人无关!

    真情的眼泪,分手一世的画笔,藏着人生的凄凉,一份执着,一份相信,一份爱情的别离,多少苦衷,藏着一个人的错,藏着一个人的全世界. 孤独的思念,一直非常努力,注定要分手,何必去挽留,一个转身,一个黄昏,思 ...

  • 无论是夫妻还是情人,检验真爱的唯一标准,就看这一点

    文/墨然 在这个世界上,说爱你的人很多,但是真正为你付出考虑的人很少. 大多数人都是习惯在嘴上说爱,遇到事情更多的是考虑自己,权衡利弊. 不得不说,现在的人很现实,说爱你的时候说得天花乱坠,但一遇到问 ...

  • 复星医药大涨,我守了三年却赔钱了 最近心情无比郁闷,用吐血来形容一点都不为过。这件事情就是我三年来对...

    最近心情无比郁闷,用吐血来形容一点都不为过.这件事情就是我三年来对复星医药的三次无知操作. 第一次是买入.2018年,认为医药行业有前途 ,网上看了一些别人的推荐,认为复星医药大有前途,买入了7000 ...

  • 怎么拥有一颗好心脏,活得久一点?这3件事情平时不能少做

    有一类就诊的病人让医生很头疼,他们坚持称自己心脏疼痛.胸闷气短,但常规检查却查不出什么问题...... 其实,没有器质性病变,这并不是说你的心脏没问题.长期感觉压力.焦虑,确实会让你的心脏真的生病. ...