从本讲开始,我将利用8讲左右,介绍实验性研究定量数据的统计分析观察性研究主要包括现况调查、病例对照研究、队列研究。其中,病例对照研究是一类非常重要的非干预性研究,我今天来说说基本的数据分析策略。传统流行病学教材中,病例对照研究(case-control study)是主要用于探索病因的一种流行病学方法。它是以某人群内一组患有某种病的人(称为病例)和同一人群内未患这种病的人(称为对照)作为研究对象;调查他们过去对某个或某些可疑病因(即研究因子)的暴露有无和(或)暴露程度(剂量)。通过对两组暴露史的比较,推断研究因子作为病因的可能性:如果病例组有暴露史者或严重暴露者的比例在统计学上不同于对照组,则可认为这种暴露与患病存在统计学联系,有可能是因果联系。很遗憾的是,由于病例对照研究传统《流行病学》的定义,很多人误以为病例对照研究就是研究疾病发病和不发病的区别,研究发病的影响因素,探讨危险因素的研究。实际上,病例对照研究除了应用于公共卫生探讨疾病发病之外,在临床上、在其它学科都有广泛的用途。除了探讨发病,也探讨临床疗效、探讨患者结局。它的结局指标,不一定是“差”结局,也可以是“好”结局。广泛定义而言,医学中的病例对照研究,是探讨健康有关阳性事件发生的关联因素的方法。通过比较阳性人群和阴性人群,发生阳性事件之前接触某一或者某些的暴的水平差异性,初步分析因果关系,为确证性研究提供线索。健康阳性事件包括发病、死亡、伤残等不良事件,也包括临床结局比如疗效问题(比如客观缓解情况、有效性情况)等良性结局,也包括关于健康行为、态度、意愿、知识等结局。暴露因素指的是影响结局、能够改变结局的相关因素,通常也就是所谓的病因(Cause),更广泛来说是能够预测阳性结局的有关指标。因此,无论公共卫生、临床医学、护理学或者任何健康有关学科,当我们需要研究一个二分类结局的相关影响因素或者预测因子时,均可以考虑病例对照研究。这一理解对医学生,特别是非公共卫生专业学生尤其重要,如此才能接受和应用病例对照研究。病例对照研究存在着多种研究设计类型,诸如病例对照研究、巢式病例对照研究、病例队列研究、病例交叉研究等。常见的病例对照研究,根据其是否进行匹配又可分为成组病例对照、成组匹配病例对照研究、个体匹配病例对照研究等。所有类型的病例对照研究具有相应的统计分析策略。作为初学者,我想诸位首先应该学习最基础的成组设计病例对照研究的统计分析策略。通俗来说,所谓成组病例对照研究,就是找到两拨人群,一拨是阳性事件群体,一拨是未发生阳性事件群体,开展分析比较。两拨人群是自然人群,非随机化分组产生,也并不需要通过匹配的方式实现两组人群均衡可比,两组人群样本量可以不一致,个体特征可以不一致,仅在较大尺度上控制时间(比如同个时间段收集)、空间(比如同个地区收集)、人群特征(比如全是老年人)的一致性。例1:某医师基于某医院开展病例对照研究,探讨冠心病发病有关的影响因素,收集新发冠心病患者作为病例组,收集同期医院非循环系统疾病患者作为对照组,研究的暴露因素是病人的年龄age、性别sex、心电图检验是否异常ecg、高血压hpyer、糖尿病diabetes。数据见casecontrol.sav。
案情分析
病例对照研究一般可以同时研究多个暴露因素对结局的影响。本题是传统流行病学的病例对照研究,探讨的是发病的影响因素,从理论上来判断,潜在的影响因素或者原因变量包括性别、年龄、心电图异常状况、高血压、和糖尿病。本研究的研究结局为二分类数据,暴露因素则存在着定量、二分类和多分类数据。研究影响因素,统计学上是开展差异性或者关联性研究(两组实质一致),分析变量与变量的相关性。
统计策略
探讨不同类型变量的相关性,统计学方法包括基础统计学方法和高级统计学方法。基础统计学方法探讨的是简单关联性,方法包括t检验、F检验、卡方检验、相关分析等,高级统计学方法常见为回归分析方法。一般情况下,一个完整的分析报告,往往采取基础统计学方法和高级统计学方法相结合的方法。病例对照研究简单关联性方法,往往从差异性角度来探讨(差异即相关)。病例对照研究的差异性比较是按照病例/对照分组,即各个暴露因素的在病例组和对照组的分布有无统计学差异。比如病例组和对照组年龄有无差异、性别构成有无统计学差异。不同组差异性比较,将根据暴露因素变量类型的不同,选择不同的统计学方法。这些差异性方法与实验性研究分析方法无异。心电图分布的差异:有序多分类,本案例只要分析构成比分布差异即可,因此推荐卡方检验。卡方检验是最常见的病例对照研究统计分析方法,暴露因素与结局往往形成四格表或者多行多列交叉表数据。简单关联性方法,不少研究者也采用单因素回归的方法开展分析。常见就是单因素logistic回归分析。当自变量是二分类时,单因素logistic回归分析结果与卡方分析结果一致。高级统计学方法常用的方法包括分层分析、回归分析、倾向得分方法等,最常见也最重要的方法便是多因素回归分析方法。回归分析方法可以同时研究多个影响因素,它较简单关联性分析方法具有明显的优势(多因素线性回归分析),是病例对照研究的最重要方法。回归分析方法很多,病例对照研究结局为二分类数据,线性回归分析方法不再适用,应该选择logistic回归分析方法。无论简单关联性还是logistic回归分析,我们必须关注暴露因素与研究结局的效应值,那就是暴露因素到底在多大程度上影响了研究结局。病例对照研究最重要的效应结局为OR值。
OR值
病例对照研究几乎都需要计算各个暴露因素的效应值OR值,来反映暴露因素对阳性事件发生的影响。OR值指的是,优势比/比数比(oddsratio,OR)。优势(odds)是指二分类事件中一类事件相对于其对立事件的优势。病例组中优势是暴露者数/非暴露数,对照组中暴露数/非暴露数。实际上,OR反映的是病例组和对照组暴露人群构成比分布的差异性。若没有差异,则OR等于1;若存在着差异,OR不等于1。这里提醒一下,一般流行病研究教材一般把OR值大于1作为危险因素,小于1作为保护因素,这种说法不适合现代医学的范畴,请学过流行病学的朋友更新对OR值的理解。OR值越远离1,暴露对结局的影响程度越大,它几乎可以用倍数或者百分比来反映暴露因素相对结局的影响。比如,OR=3,意味着暴露组相对对照组,产生阳性结局的可能性几乎增加2倍;若OR=0.6,意味着暴露组相对对照组,产生阳性结局的可能性几乎减少40%。我将在后文继续探讨OR值这一指标。OR值是统计量,需要进一步统计推断,包括置信区间估计和假设检验。假设检验一般即采用卡方检验方法,而置信区间估计依靠各统计软件求得,本文稍后进行讲解。病例对照研究大部分简单差异性分析和logistic回归分析在分析过程中均可计算OR值,P值及置信区间。
病例对照研究基本统计过程
任何研究首先都需对研究对象的特征、病例和对照数量与特征进行描述,此次不再赘述。诚如上文所言,我们需要开展简单关联性分析,采用的手段也是差异性比较分析,同时最好计算OR值和置信区间。(1)针对年龄这一定量变量的暴露因素,须开展两步工作。第一,判断正态性;第二,采用统计推断方法进行分析,同时计算效应值。特别提醒初学者在SPSS的分析中,年龄为检验变量,有无冠心病变量为分组变量。正态性情况:直方图显示,偏态情况不严重,仍然可以采用采用参数检验(两组采用t检验)
t检验的界面和结果:结果显示,冠心病患者和对照组在年龄分布上存在着统计学差异。(2)其它变量均采用卡方检验进行分析。病例对照研究SPSS操作在进行卡方检验同时,可以计算OR值在交叉表界面,选择点击“统计”,可以分别选择卡方和风险(risk)。以高血压为例,卡方检验,卡方值为20.72,P<0.001,OR值为4.680,95%CI为2.37-9.26。这一结果可以通俗的理解为,高血压患者将增加冠心病发病风险3.68倍左右(不过请一定要记住:这是通俗的理解,3.68倍也大概值而非精确值,原因后续再分析)。差异性分析结果可以合并成一张总表:表格有两种形式,不带OR值和带OR值。将所有的研究因素或者第2步具有统计学意义的变量一同纳入到logistic回归模型中,分析影响阳性事件结局的因素。logistic回归分析结果与线性回归分析结果相似,但是多了OR值,其置信区间不再是b值的置信区间,而是OR值的置信区间。结果显示,性别、年龄、心电图表现、高血压情况是冠心病发生的影响因素(P<0.05),其中,男性、年龄越大、心电图异常等级提升、高血压病对冠心病发生有促进作用(OR>1)。logistic回归结果详细解读,我将在下一讲详细介绍,本讲只贴出最后的分析结果。1.病例对照研究,在统计报告撰写上,建议详细写明效应值和置信区间病例对照研究,在简单关联性分析和搞统计学方法中,均可以计算OR值,前者是粗OR值或者未调整OR值,后者是调整OR值。在篇幅允许的情况下,建议在统计表中同时列出两种OR和置信区间,在文字描述以及摘要,则以调整OR值为和P值为准,并列出置信区间,因为调整OR值更为可靠。2.病例对照研究的因果关联性分析,结论为初步确定暴露因素与结局的因果关系。病例对照研究是由果及因的研究,也就是先有了研究结局,再回顾性的分析其原因,原因的信息往往通过研究对象会议产生,这存在着回忆偏差,因此,病例对照研究的结果存在着一定的不可靠性。建议诸位撰写病例对照研究论文,在讨论与结论指出“该研究为现况调查,研究因素与结论的关系是探索性的,其因果关系需要进一步通过前瞻性研究予以确认。”受到传统流行病学的影响,很多人看到OR值就是危险因素。这是非常不合适的理解。这样的理解也会产生一些困惑性的问题。有一些问:郑老师,这个OR值怎么大于1,跟文献结果完全想法!明明是保护性因素,怎么变成危险性因素了。OR值是危险因素,必须满足三种条件,第一阳性事件是不良事件,发病、死亡、复发等;第二,数据库暴露变量编码时暴露设置为1,对照设置为0;第三,数据库结局变量值编码时阳性事件赋值大于对照(0是对照,1是阳性事件,或者1是对照、2是阳性事件);如果阳性事件是良性结果比如有效、治愈,OR值大于1只能说阳性事件促进因素,或者勉强来说是影响因素;但如果阳性事件赋值比对照还要小(0是阳性事件,1是对照),那么OR值大于是促进阴性结局的发生。总之,OR值大于1是暴露促进结局变量赋值较大值事件的发生(比如赋值1)。因此,在阅读统计分析结果,不能不看数据、不看赋值就说OR值大于1是危险因素。为了避免这种令人困惑难以理解的结果产生,在构建数据库时,暴露编码值要大于对照(一般分别设置1和0),目标阳性事件的编码要大于对照组,最好就设置1和0(比如冠心病这一结局变量,未患冠心病者赋值0作为对照,冠心病患者赋值为1作为阳性事件组)。很多人开展病例对照研究,把所有的研究因素同等对待,都作为暴露因素。这样的方法本身没有错,但是研究文章发布不了好杂志。比如性别、年龄等人口学特征,这些因素作虽然可能也是研究影响因素,但已经不值得去大费周章去讨论它对阳性事件的影响。一篇好的病例对照研究,应该区分哪些是研究聚焦的影响因素,哪些是不重要的特征,但它可能是干扰因素。这些干扰因素在统计分析时与暴露因素统计方法无异,但在结果上无须给予同等地位,在讨论中也大可以隐去不议。很多人在讨论中花大篇幅去讨论年龄、性别的影响,这是头重脚轻,味如嚼蜡,往往还让文章失色,画蛇添足是也!
-本讲结束-