Day 8: 小统计大文章(上)
隶属第二章:实验性研究定量数据的统计分析策略
系列文章已经连续介绍了t、F检验、秩和检验等常见的假设检验方法。很多人学了统计学,却不知道怎么利用它进行数据分析。本科也学、硕士也学、博士还学,工作了还要看看网课,但是仍然无法利用统计学方法来进行统计分析。到底怎么回事啊?既然如此,学习t检验、F检验和秩和检验有什么用?实际上在学不好统计的问题上,真的不怪你,而是所有高校的老师都没有教好! 我认为,统计学应该是在一定科研设计下的案例教学。在这样情况下,才能化腐朽为神奇,让小统计,写出大文章。特别是实验性研究,在很多时候,我们应用简单的统计学方法,就能写出严谨的文章。一项临床试验,研究对象是高血压患者,随机被分为两组,分别用药物联合运动锻炼(试验组)和药物(对照组)进行血压控制,对每人治疗前、后收缩压(mmHg)进行测量,剔除失访人群后,得到40名数据见prandom.sav,请问锻炼有无降压作用?
案情分析
自本讲开始,系列文章经常探讨综合案例的统计方法。对于综合案例,首先要从研究设计的角度去剖析它,一般可以从PICOS框架去看待。本案例已经是一个基本但是最经典的临床试验研究案例,具备了所有的PICOS要素。
统计分析策略
郑老师的SPSS系列课程,强调一点:课程不仅仅是统计方法课、也不仅仅是SPSS课,而是统计分析策略课。什么是统计分析策略?它指的是针对一个复杂的医学研究问题,一整套统计方法、软件技术、统计报告的解决方案。换而之,我想指导诸位的是,如何利用各种统计方法的组合,解决一个医学重大的问题:怎么样才能得到可靠的结论:比如如何证明干预效果的有效性,如何证明一个疾病结局的影响因素是什么?比如本例,它是随机化研究。两组完全随机设计的数据比较,用t检验可以探讨治疗效果吗?差不多可以了。但是如果你考虑更严谨一些,应该纳入更多的数据、更多的分析。更多的数据,意味着需要考虑东西越多,可能涉及的统计策略也更为复杂。除去统计学方法之外,本例主要需要考虑两个问题:第一, 治疗前血压摆在那里是不是多余?如何利用治疗前血压为我们服务?第二, 结局指标到底治疗后还是治疗前后的差值?首先,第一个问题。随机设计研究,通常关注实验后的结局(本题也就是治疗后血压值),本案还有治疗前的血压值(该数据有什么帮助?)。一般临床试验在可能的情况下会采集一系列的干预前(随机前)一系列指标,它们被统称为基线数据、基线值(baseline data)。医学研究分为实验性和观察性研究,实验性研究一般是随机化研究,正常的情况下,一般来说,分组是均衡的。这个均衡性就是体现在基线指标上。所以基线数据第一大功能是,可以直接验证分组是否不均衡。其次,观察性研究甚至是实验性研究也会遇到分组不均衡的情况,此时基线数据也非常有用,它可以来帮助控制不均衡带来的不利影响。关于这一点,我今后再来探讨。第三,有了基线数据,统计分析就可以在更深更广的角度来分析。基线数据可以帮助充实一份分析报告的内容。总不能干巴巴就以一个t检验了事吧?第二,一项研究的结局指标到底是什么?这个问题看起来很简单,疗效是什么?不就是治疗高血压的效果嘛。但是,你细细想想,具体去写一个报告时,采用哪个指标来反映结局呢?此外,与该问题关系密切的一个问题是,什么样的结局指标才是主要结局指标呢? 很多临床研究,特别是临床试验,会同时存在多个结局,此时,往往区分主要结局指标和次要结局指标,统计分析报告中,主要结局指标才是重点聚焦的指标。1) 以治疗后收缩压作为结局指标,如果治疗后两组有统计学差异,那么说明效果存在。2) 以治疗后前后的差值作为结局指标。这种形式也很常见,特别是基线数据分组不均衡的情况下,差值是一个非常重要的结局4) 将治疗前后的差值进行分级处理,得到有效、无效二分类结局或者痊愈、显效、有效、无效等级的结局上述第四点由于是分类结局,在这里不再讨论。前面三点,都是值得探讨的。假如我们选择某一类型结局,那么应该怎么去统计分析,怎么下结论呢?如果以差值作为结局指标呢?又应该怎么分析呢?因此,必须要合理选择一项临床研究的结局指标,并采用相应的统计分析策略去验证它。现在,本文以第一类结局指标作为主要结局,结合治疗前、治疗后的数据来科学分析药物+运动锻炼的效果。想象一下,如果联合干预组相对对照组是有效的,理想上数据的结果,应该如何?
关键就是治疗后两组有差异,此外治疗前后也会有差异,是不是?为验证这一假说,相应的统计策略就应运而生。具体而言,要科学验证疗效,不妨从以下几个层面去分析。第一,基线可比问题 既然是实验性研究随机化分组,一般分组均衡的。当然,分组是否均衡最好进行分组均衡性的统计学比较。本例提供了治疗前的血压。所以,最好是治疗前两组血压总体上没有统计学差异(P>0.05)。第二,实验后横向差异性问题。这里横向指的是同一个时间点不同组的比较。既然研究已经把治疗后的血压值作为评价疗效的指标,那么治疗后联合干预组和单纯药物组的血压应该存在着统计学差异(P<0.05)。第三,实验前后差异性问题。既然有治疗前的血压值,不妨可以做点分析。如果联合干预组是有效果的,那么治疗前后会出现什么情况?我想一般情况下,对照组不一定有差异(P>0.05),但是试验组治疗前后应该存在着统计学差异(P<0.05)。最后,还可以探讨差值差异性问题。试验组前后差值和对照组前后差值有没有统计学差异。 这一比较不仅可以提供一部分信息,还可以在第二步没有差异的情况下,也许可以提供对效果有利的信息。根据上述的统计分析思路,每一步应该用什么统计学方法呢?第一,基线可比问题 基线可比,比较的是治疗前两组血压总体上没有统计学差异。两组独立数据的比较,显然是t检验或者两样本秩和。第二,实验后横向差异性问题。那么治疗后干预组和对照组组的血压应该存在着统计学差异,同样也是t检验或者两样本秩和。第三,实验前后差异性问题。治疗前后血压值有没有统计学差异?这个配对设计,应该用配对t检验或者配对秩和。第四步,差值差异性问题。试验组前后差值和对照组前后差值有没有统计学差异。必须领会,这里有两组差值,而两组差值不是配对设计,是独立设计的,那么,也应该用t检验或者两样本秩和!因此,总结来说,由于增加了基线数据,一个简单的两组均数比较,在统计分析策略上就非常相对更为复杂,但是,采用的统计学方法,仍然是常规的方法。上述的数据结构和统计分析模式称之为医学实验性研究第一种经典的模式,也是学习统计学务必要掌握的一种分析模式。根据案情剖析,需要考虑多方面的统计分析场景,各个方面都可以借助SPSS来解决。具体来说,要进行以下内容的操作:1计算差值,2正态性检验,3治疗前进行差异性分析,4治疗后进行差异性分析,5治疗前后进行分析,6两组差值进行分析。
计算差值
这一部内容比较简单,我们在配对检验已经介绍过,具体可以通过SPSS:“数据-计算变量”来实现:d=治疗后-治疗前。最终数据库会增加新的一列,变量名为d。
正态性检验
两组数据比较、配对设计数据的比较均需要正态性的要求,因此需要要考虑治疗前、治疗后的正态性,也要考虑差值的正态性,所以我们要开展三者的正态性检验。结果显示,治疗前、治疗后、治疗前后差值各组数据符合正态分布的前提(P>0.05)。
治疗前、治疗后进行差异性比较
由于正态性符合,两组治疗前和治疗后的比较,同时采用两样本t检验进行。结果发现,无论治疗前还是治疗后,试验组和对照组相比,均无统计学差异(P>0.05))。
治疗前t检验(干预后比较)
治疗前后进行配对资料的统计分析
然后要进行第三步的工作,试验前后有无差异。由于正态性符合,可配对t检验,分别比较干预组试验前后的差异,和对照组试验前后的差异。为了实现上述目的,在配对t检验钱,要操作SPSS软件一个非常重要的技能:“拆分文件”。通过执行“拆分文件”,把实验分组这一变量放入拆分文件按钮的分组方式,选择“比较组”或者“按组织输出”,就在分析逻辑上进行了数据库的拆分(虽然实际上仍然是一个数据库)。假如不拆分文件,直接做配对t检验,SPSS软件会把所有数据放在一起进行,而不分干预组还是对照组。(2)选择“比较组”或者“按组织输出”(两个结果一样,形式不同),分组依据纳入“实验分组(group)”。(3)拆分文件之后,进行配对t检验。详细的方法可见配对t检验这一讲配对t检验得到以下结果:可以看组有两行结果(分组=1和分组=2)。试验组(分组=1)P<0.001,对照组(分组=2)P<0.001,试验组和对照组实验前后差异均有统计学意义。
两组血压改变量进行比较分析
结果显示,试验组和对照组差值的t检验P=0.005,差值差异具有统计学意义。
SPSS分析总结
第三步,实验前后差异性?试验组有差别,对照组无差别,达成!从上述3步来看,最后的结论是干预措施有效的证据不够充分。 不过,我们还有第四步差值差异性分析。差值P=0.048,差值差异具有统计学意义。从这一点来说,疗效又是存在着的。现在问题来了。第二步没有效果,第四步有效果,那到底这个药物是有效还是无效?这个就涉及到医学科研设计的严谨性的问题了。一般对于我们初学者而言,或者国内的论文而言,你既然得到了一个有阳性的结果,也可以发论文了。这是没有问题的。不过,如果严谨而言,实际上这种模棱两可的事情下结论需要谨慎。要评价一个临床试验是否取得是否有效,就得看你的当初设计的时候,主要结局指标是什么,-如果在研究设计时候,指定的主要结局指标是治疗后血压,那么是阴性结果-如果是当时指定的结局指标是差值,那是阳性的结果。那么有人会问,我能不能选择阳性的作为主要结局指标(其实我们发表论文,特别是国内论文这种投机取巧式的下结论比比皆是)?答案是可以,但不推荐!实际上,临床试验在其设计方案时,必须指定相应的结局指标,在统计分析之前,必须明确,最好别修改!希望诸位能理解一些关注这个主要结局指标的选择和结论判断的问题。医学研究是一个严肃、严谨的问题。·干预前收缩压总体均数无统计学差异(t=1.42,P=0.162);·干预前收缩压总体均数无统计学差异(t=0.42,P=0.679)·试验组、对照组干预前后血压存在着统计学差异(P<0.001)·试验组、对照组干预前后差值差异具有统计学意义(差值4.70,95%CI1.48-7.91,P=0.005)
1. 本例是以医学实验性研究最基础,但最经典的研究范式,其统计策略也是属于最科学的策略一个具有基线数据、具有结局的数据,不会增加复杂统计分析技术,但增加了统计策略的复杂性。上述的数据结构和统计分析模式称之为医学实验性研究第一种经典的模式,也是学习医学统计学务必要掌握的一种分析模式。在分析策略上,建议分析实验前(基线)、分析试验后、分析实验前后、分析前后差值(或者前后变化率)。这边是经典案例的统计分析策略。看起来眼花缭乱,但是这是科学证明干预措施有效性的基本方法,也增加了研究的深度和广度。统计策略意味着首先,我们得建立起一种正确的统计思维方式。一项研究,首先需要认真考虑它的科研设计类型,然后考虑采用哪种统计分析方法的组合来探讨研究目标。由于不同的角度,将有不同的统计分析方法,因此分析时,需要权衡比较不同的方法,从而获得相应的答案。比如本例,该数据的结局存在着多种形式,以试验后血压作为结局、以实验前后血压差值作为结局,以实验前后血压改变比例作为结局,甚至根据实验前后改变比例计算治疗措施有效率来比较效果。对于基线数据的处理,手段也很多,即有采用本例的基本的统计分析方法,其实还可以有更多的方式,比如采用协方差分析的方法,采用回归分析的方法都可以处理数据(回归方法,在混杂偏倚控制这一章节继续介绍)。
https://evod.zcmu.edu.cn/resource.html?stationID=1&resourceid=420&isprivate=false&cateid=102
-本讲结束-
本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。