不在一个维度讨论-对不起Y叔
Y叔选择在11点之前发帖,那么就是要我回咯~~~
我真心不想讨论未被KEGG数据库收录的基因是否应该在做超几何分布检验的时候被丢弃掉,因为在Y叔给我他的博客的时候,http://guangchuangyu.github.io/2014/08/why-clusterprofiler-fails/
看完全文其实我已经明白了Y叔说丢弃掉那些没有被注释到的基因的理由了!
我没办法判断Y叔正确有否,我只知道他说的有他的道理!
一个基因除了可以是属于一个通路,不属于一个通路,还有可能是未知的,应该抛弃,因为考虑它只会引入误差,这没毛病!
但我也有我的看法,把KEGG数据库所有通路的基因取一个并集,叫做通路注释基因集,用它来过滤背景基因和差异基因也并不可取。就像Y叔说的,未知的基因可能属于也可能不属于我们想检验的通路,因为KEGG对一个套路的注释并没有达到完整状态!
那如果这样说,其它通路的基因难道就不能属于这个通路吗?
不在这个通路的其它通路的基因就一定不属于这个通路吗?
如果我们如此的不相信KEGG数据库,干脆不要检验好了!
当然,这仍然不是我要争论的重点。
回答我想说的,我随机模拟的背景基因和差异基因被KEGG数据库过滤的程度是一样的,所以P值改变不大,我觉得没毛病。
Y叔的反驳点是我的随机模拟是不科学的,这样的反驳我当然不能说他是错的,可是跑题了。
就好像,我说将来我在金马伦高原买了别墅,如果一个背包客路过我的高尔夫球场,我一定会像当初请我吃饭的大叔一样,请他!
你却反驳我没有别墅,没有高尔夫球场,这~~~
我无言以,我的假设合理与否不重要,我为什么随机模拟的背景基因和差异基因,因为我只是给学员讲解超几何分布建议这个算法、
那么最后一点,也不用说了,既然我随机模拟用代码证实了P值改变不大,我当然不在意这件事咯,而不是我不想求出精确的P值。
这不一样。