没有临床试验P值=0.06,还能发表吗?老板:那投个JAMA试试吧。不料,JAMA杂志还真给发表了。影响因子高大40分的医学四大顶级期刊《美国医学会杂志》,发表了一篇P=0.06的临床试验。你能接受吗?如果你是研究者,你的数据经统计学分析发现,P值大于0.05,会不会心灰意冷呢?特别是P=0.06时,简直一口老血要喷出来。阴性结果!但是就差那么一点。气不气人!但JAMA还是发表了。P值不能说明一切. 这是一项眼科手术的临床试验,由美国哈佛大学Jennifer K. Sun联合夏洛特眼耳鼻喉协会Andrew N. Antoszyk团队主持,他们比较了玻璃体内注射阿柏西普与全视网膜光凝玻璃体切除术治疗增殖性糖尿病视网膜病变玻璃体出血的疗效。为了比较玻璃体内注射阿柏西普与全视网膜光凝玻璃体切除术治疗增殖性糖尿病视网膜病变玻璃体出血的疗效,2016年11月至2017年12月,研究组在美国和加拿大的39个DRCR视网膜网络机构进行了一项随机临床试验,招募了205名因增生性糖尿病性视网膜病引起玻璃体出血而导致视力丧失的成年人。2020年1月完成最终随访。将参与者随机分组,其中100名接受玻璃体内注射阿柏西普治疗,105名接受玻璃体切除术并进行视网膜光凝术。被分配给阿柏西普的参与者最初接受了4个月的注射。主要结局指标是治疗24周的平均视力字母评分(范围为0-100;评分越高表示视力越好),该研究能够检测出8个字母的差异。205名参与者的平均年龄为57岁,男性占56%,平均视力字母得分为34.5分,95%完成了24周的随访,90%完成了为期2年的随访。主要结局指标中,阿柏西普组患者24周时的平均视力字母得分为59.3分,而玻璃体切除术组中为63.0分,差值为−5.0[95%CI,−10.2 to0.3],P = 0.06,差异没有统计学意义。 以下是主要结果的的表格:在23项次要结局中,有15项没有显著差异。其中,在第4周时,阿柏西普组的平均视力字母得分为52.6分,显著低于玻璃体切除术组(62.3分);2年后两组平均视力字母得分分别为73.7分和71.0分,差异没有统计学意义。因此,研究结果表明,对于因增生性糖尿病视网膜病变而导致眼玻璃体出血的患者,采用玻璃体腔内注射阿柏西普或玻璃体切除术联合全视网膜光凝治疗,24周时的平均视力字母评分在统计学上并无差异。 阴性结果?怎么办?怎么解释? 于是,作者最后说:However, the study may have been underpowered, considering the range of the 95%CI, to detect a clinically important benefit in favor of initial vitrectomy with panretinal photocoagulation.他的意思是,JAMA杂志呀,这真能不能怪我,你看效果是在的,就是可能运气不好造成的,你看两组差距还是很明显的,是不是?JAMA杂志哈佛大学的研究者,自己人,运气太差而已,照样发表(中国人当然没门了)。运气:想问问读者,这锅我背不背?郑老师:该背!作者希望你给他好运气,谁让你把坏运气给他呢?言归正传,论P=0.06如何形成? P>0.05,原因有两点:样本量不够、运气太差。前者是作者的锅,后者是运气的锅。
没有统计学差异,往往是两者共同造成。一般来说,样本量足够大,往往总会体现出差异来。不同治疗措施总是有差别的嘛。但是样本量不能无限大,谁也吃不消。因此,我们研究基于检验效能计算样本量,最终一般检验效能是0.8上,最好是0.9以上。检验效能可以通俗理解为得到一个<0.05的P值的概率。检验效能越高,越容易得到一个<0.05结果。不过,越高的检验效能,要求样本量越大。 这里的检验效能定0.8 还是0.9,就是研究者的锅。你说干嘛定0.8的检验效能?作者说,我能力有限,资金有限,团队小。。。。这不是你的锅吗? 另外,可能很多时候研究者高估了疗效(也就是组间的差异,本例差异是8个字母的差异)而导致样本量不足。这也是研究者的锅。当然,运气也要背锅。因为检验效能不可能到达100%,因为那需要超大样本量,这不现实。因此,总有可能,哪怕小概率,得不到一个<0.05的结果。一般情况下,如果研究者没有高估研究效应而检验效能又在90%以上,那么都是运气的锅。无论如何,还有10%的可能性,因为运气不好,抽到了一个不太好的样本, 造成了阴性结果。那么本例呢?80% power! 80%检验效能,因此最后的阴性结果,研究者是有责任的。当然,由于80%检验效能是临床研究所认可的一个值,JAMA能够发表也没有错。但郑老师认为,这样的结果还是差了那么点意思。如果P>0.05,我们怎么办?世界上任何一个杂志都更喜欢阳性、即P<0.05的结果。虽然,P>0.05仍然可以发表,但总是杂志要稍微低一档次,本来JAMA能发表的,只能发表在它的子刊。但总得发表吧,或者毕业时,答辩时,总得跟专家们解释吧?首先,如果你没有计算过样本量,那我们话题还是到此结束吧。。。如果,是检验效能设定了80%而出现阴性结果的原因,那么这事可以光明正大的讨论,也可以光明正大的讨论研究的不足--虽然研究者是有责任,也可以理解(不是谁都有充足的资金实现令人满意的样本量)如果,因为你高估了组间的疗效而造成阴性结果。这事无论主观还是客观,请你放心,没有几个专家能够看出来你的高估行为。你可以说你运气不好,检验效能不高,但是你的不严谨,终有一天会酿成苦果。郑老师的建议P值不能说明一切。一个严谨设计的医学研究,无论结果好坏,审稿人都能接受这一结果。但是当你为了完全不考虑样本量,或者为了控制样本量采取了一些措施(而非规范设计而计算样本量),那就不是规范行为!我的建议,首先,咱们必须计算样本量;第二,不要高估临床研究组间的差异性第三,检验效能可以设定80%,但请做好心理准备。第四,别想着控制样本量,要么你换主要结局指标,选择合适的结局指标,也许样本量就在你的预算里面了。第五,一切按照科研设计的思路进行实验和统计分析。然后,无论P值如何,哪怕P值>0.05,也许有一天,你和你的老板非常有信心地说,我们投个JAMA看看吧。-本文结束---广而告之--公众号主持者:郑老师,浙江中医药大学医学统计学教研室主任。这里不妨广而告之,如果您有一个临床项目,正处于设计或分析阶段,不妨联系郑老师统计团队,我们可以帮助您更好地推动临床项目的数据分析。微信号ZZ566665(务必请注明“统计服务”)。--学习资源免费送--本公众号作为医学数据分析公众号,提供一些更多原创、免费医学统计学学习资源下载,欢迎点击下载。1.免费下载!统计初学者的福音!《妙趣横生统计学》视频,生动有趣的统计学!2.医学研究样本量如何计算?原创高清教程视频来了,完全免费下载!3.绝对值得收藏!原创高清SPSS 操作视频免费下载如果您觉得文章不错,点击“分享”吧,非常感谢。