当纯生信遇到计较的统计学家,是一种什么样的体验?
现在纯生信数据挖掘基本离不开构建模型,而构建模型往往会涉及样本量的问题,有人会问到底至少需要多少样本?有很多统计学教材就是建议满足以下条件:终点结局事件数目不少于纳入模型因素个数的10到15倍。
以构建多因素Cox回归模型为例,例如你的模型纳入了8个基因,你数据的status为1(1:死亡,0:存活)的数目就不能少于8*10=80。你想想看,就status为1不少于80,那么总的样本量肯定远远不止这个数。现在的纯生信基本都是以TCGA和GEO为主,有些TCGA数据总的样本才100多,达到这个要求根本不可能,特别是GEO数据,大部分数据总样本就是100以内的,更不要说终点结局事件数目了。
如果都是按照上面的标准执行的话,有很多很多纯生信根本就没有办法发表。但是在实际的纯生信审稿中,遇到这样计较的审稿人的机会还是比较渺茫的。构建模型一般是样本越多越好,但是往往我们的物力和人力都是有限的,只能在有限的资源和条件下开展。
就好比测序一样,你目前只能收集到20个临床样本,也只有大概20个样本测序的经费预算,但是审稿人觉得20太少了,你应该测200个样本,你觉得能实现码?这样的实际情况还有很多,纯生信需要补实验、补自己测序数据就更加准确,补充大样本的验证更可信,只是经费等资源的问题而已。对于有一千几百万经费的大佬把全套分析做完都是很轻松的问题,但是对于一个没有任何经费的临床医生,可能连纯生信的版面费都给不起,这就是资源的差距。
赞 (0)