队列研究(Cohort study) 又称前瞻性研究(Prospective study)或随访研究(Follow-up study),是对研究因素不同暴露水平的对象进行追踪观察,确定其疾病发生(康复、死亡、生存等)情况, 从而分析暴露因素与阳性事件(疾病发生、临床效果)之间的因果联系。队列研究的暴露因素,可以指的是队列研究对象中社会人口学特征、行为、遗传特征、所处的环境、也可以是临床治疗手段等。队列研究的暴露因素一般是分类变量,因此研究对象分为暴露水平组,形成不同的队列;队列研究暴露因素原始值也可以是定量数据,比如收缩压、饮酒量、吸烟量等,但实际操作中,也一般会将定量变量转为分类变量进行处理。比如根据人群的收缩压,分为高血压、正常组和低血压组,分别进行随访研究。队列研究结局资料可以是分类资料(发病/未发病,有效/无效),也可以是定量资料,也可以是生存结局(带有结局的时间资料);结局资料可以是好结局,也可是坏结局。很多学过《流行病学》的朋友们,可能会被教材所误导,以为队列研究的暴露因素就是疾病的发病危险因素,队列研究的结局就是二分类的,这些是一种严重的错误理解。队列研究主要用于确证性分析暴露因素与健康结局的因果关系,因此在医学因果关系论证方面具有举足轻重的地位,是循证医学的重要方法学。
队列研究基本分析策略
分析队列研究数据并不太难,也就是比较不同人群(暴露组和对照组)的结局差异性。比如,高血压组和正常组,随访2年后生命质量得分的差异性。得分是定量数据,两组定量数据的比较,应采用t检验或者秩和检验。又比如,高血压组和正常组,随访5年后脑卒中的发病率的差异性。用什么方法?两组率的比较用卡方检验!因此,t检验、卡方、秩和、方差分析都能够用于队列研究暴露组和对照组的差异性。不过,队列研究典型的特点是,人群分组是自然而成,暴露组人群和对照组人群往往的基本特征(一般称之为“基线”特征)是不同的。比如,高血压组很可能平均年龄较正常组大。如果随访5年后,脑中风的发病率存在着差异。这种情况下,能否说明差异是因为高血压造成的,还是因为年龄结构不同带来的呢?高血压组和非高血压组组间分组不均衡,则不具有可比性。没有可比性,哪能探讨因果关联性?因此,t检验、卡方、秩和、方差分析能分析人群的差异性,一般能分析人群的差异性,不能肯定说说明暴露因素与结局存在着因果关联性。怎么办?如何更科学地分析两者的因果关系?一般的方法是采用多因素回归的方法排除其它非暴露因素(比如年龄)的干扰。另外,在医学项目中,很多时候我们希望探讨影响结局的多个因素,那么多因素回归分析显然也是最好的方法之一。因此,队列研究不仅需要基本统计学方法,也需要高级回归方法加持。
队列研究基本分析步骤
第1步,统计描述。总体描述人群的特征、分组情况、分组人数、随访时间、失访情况。第2步,初步分析暴露因素与结局的关联性。根据结局的特征,暴露因素与结局的关联性,一般常用的条件与方法如下:从上表可以得知,简单关联性方法包括两类,一类是基础统计学方法--差异性比较方法(关联性方法1),另外一类则是单因素回归分析,如单因素线性回归、单因素Logistic回归、单因素Cox回归(关联性方法2);两类方法结果基本一致,差异即相关!同时可以发现,三类不同的结局对应是三类完全不同的方法。其中,LogRank和Cox回归分析的方法,还没有获得系统的介绍(我将在今后课程进行详细阐述)。效应值方面,OR值、RR值和HR值堪称三剑客。其中,OR值已在之前篇章中详细阐述;HR是生存分析关键效应值,它将与Cox回归同时亮相;RR值应该是医学研究最重要的指标,队列研究能够计算出RR值。本文稍后重点介绍RR值。第3步,多因素回归探讨一个或者多个暴露因素对结局的影响。最后,主流方法是借助回归分析排除干扰,研究暴露因素的影响及及影响程度。常见的的方法如下:同样,不同的结局有不同的回归分析方法。利用线性回归探讨定量结局的影响因素,利用logistic回归探讨2分类结局的影响因素,采用Cox回归探讨生存结局(双结局资料)。不过,Logistic只能计算OR值,无法计算非常重要指标:队列研究还有另外两种分析分类结局的方法:Poisson回归与log-binomial回归。最近几年它们是队列研究重要的统计学方法,并且非常重要的是可以计算RR值,大家可以关注下。这一部分回答几个重要问题:什么是RR值?为什么它很重要,甚至比OR值更重要。
RR的概念与计算
RR值,全称是相对危险度(Relative Risk),也就是暴露组相对对照组,结局阳性事件发生的风险程度,用于描述暴露因素与终点结局事件关联。它的算法是,暴露组阳性率与非暴露组阳性率率的比值。令a/m1=P1或者Pe,把a/m0=P0或者Pc,则RR大于1,说明暴露组相比对照组容易发生阳性事件,反之则说明暴露组不容易发生阳性事件。无论大于1还是小于1,说明暴露因素与结局有关。RR值,是暴露组相对对照组,发生阳性事件的概率的倍数。式中,pe为吸烟组组的发病率, po为不吸烟组的发病率。RR=13.5表示吸烟者患肺癌的概率(或者风险)为不吸烟者的13.5倍,比不吸烟者高12.5倍。
RR值需要假设检验
RR值是统计量,是根据样本得到的数据。它必须接受假设检验,论证总体上RR值是否等于1。由于RR是是基于两个率(四格表资料)得到的效应值,假设检验采用的是卡方检验进。
SPSS软件卡方检验不仅可以计算P值,同时也可以计算RR值。例如吸烟的案例卡方检验和RR值的计算:
卡方检验结果显示,P<0.001说明暴露组和对照组肺癌发生率存在着统计学差异,也说明RR值总体上不等于1。
计算RR值和95%CI 结果如下:RR=13.5,95%CI: 5.41-33.41。RR值置信区间不包括1,也说明RR总体不等于1。
RR值为什么这么重要,比OR值还重要
医学研究中,RR值是最重要的效应指标。主要原因有2点,第一,医学研究最常见的结局指标是分类结局而非定量结局,分类结局的效应指标一般是RR值或者OR值;第二,RR值与OR相比,它能够直接反映暴露因素相对对照,提升阳性事件的发生概率的倍数。比如,RR=13.5表示吸烟者患肺癌的风险为不吸烟者的13.5倍,风险提升12.5倍。这一理解无论是临床应用还是学术研究都非常容易接受。OR值,不能直接反映风险提升的倍数,它的结果与RR值相似,但不等于RR值。所以,本系列教材在介绍病例对照研究时(病例对照研究的基本统计分析策略),一再强调,OR值结果汇报不能说明风险增加的倍数,只能是大致、约等于。
logistic回归只能计算OR值,怎么办?
logistic回归是队列研究最重要最常见的方法,但是无法计算RR值,这不是意味着logistic回归方法就不适合队列研究。虽然Logistic回归分析得不到RR值,但是,第一,由于OR值和RR值一般比较接近,第二,OR值和RR值假设检验的结果一致,OR值具有统计学意义,则RR值也具有统计学意义,第三,Logistic方法软件操作更简单,因此我们经常使用Logistic回归计算OR来研究队列研究。特别是:对于发病率很低的慢性病(如心脑血管疾病、恶性肿瘤等),由于P<<1,OR可作为RR的近似值估计:所以,logistic回归常用于流行病学调查资料,当它得到某一因素的回归系数估计值后,就可得到不同水平下相对危险度的近似估计值。
案例
这一篇推文,我顺手找到的是一篇英文文章,来自于《Arthritis Care & Research 》杂志,题目是:社区队列中脂肪成分和脂肪因子与足痛的关联。该文章发表于2016年,诸位在文末“阅读原文”查看,文章写得比较全面,大家花点时间看一看,学一学。
统计策略
该研究是一项基于社区的队列研究,人群来自澳大利亚某个地区年龄≥50岁者,共1462人。研究的暴露因素是脂肪有关成分的含量、脂肪因子水平,包括脂肪质量指数(FMI)或无脂肪质量指数(FFMI)以及血清脂肪因子肿瘤坏死因子(TNF)和白介素-6(IL-6)等研究结局是随访期间是否发生足痛:“在过去的一个月中,大多数日子里您的双脚有没有疼痛,疼痛或僵硬?足痛分为两种情况:Prevalent foot pain和Future foot pain foot pain,具体定义可以查看原文。由于是队列研究,统计分析策略一般就是包括本文所列的3步:统计描述、简单关联性分析、多因素回归分析。
具体分析过程与结果
1. 研究对象基本特征描述:给出各个人群的特征,均数、率,并且提供了95%CI,诚意满满。由于本研究暴露因素诸多,作者针对不同的指标,开展不同的分析。针对定量数据形式存在的暴露因素,包括脂肪因子、脂肪成分,采用差异性的方法初步分析,探讨暴露因素与结局的关系;针对分类变量,比如性别、疾病、行为采用单因素回归的方法进行分析。无论差异性方法或者单因素回归,都是简单关联性分析。差异即相关!第一,对于定量的暴露因素,采用秩和检验分析结局与各因素的关联。
第二,针对分类的因素,作者采用单因素logistic回归分析,并计算OR值(实际上,卡方检验结果也可以,单因素logistic回归和卡方检验结果一致)。作者把差异性比较和单因素logistic回归分析P<0.20者全部拿来分别针对结局Prevalent foot pain和Future foot pain foot pain开展多因素的logistic回归。在Prevalent foot pain结局方面,脂肪变量FMI和其它因素是重要影响因素。Future foot pain foot pain结局方面,脂肪变量FMI和其它因素是影响因素。病例对照研究在统计分析策略上,主要分为统计描述、简单关联性比较,多因素logistic回归;队列研究,也包括统计描述、简单关联性比较,多因素logistic回归;在简单关联性方法中,可以采用差异性方法,也可以采用单因素回归分析的方法。最大的区别在于,回归分析方面,病例对照研究只能采用logistic回归,而队列研究可以考虑线性、logistic、COX回归、Poisson回归等,不同的结局采用不同的统计学方法。所有流行病学教材说,病例对照研究可以探讨同时探讨多个暴露因素,队列研究一次只探讨一个暴露因素。这往往给人很大的误解:“队列研究就是鸡肋,辛辛苦苦做了几年,我只能研究一个暴露因素?”狭义上,教材说的没有错,一个队列研究只能分析一个暴露因素;但广义上,一个真正的队列研究,往往是多个队列研究的集合。我们在建队列时,往往会同时设定多个暴露因素,同时随访得到多个结局。比如本案例的文章,设置的暴露因素就包括脂肪质量指数(FMI)或无脂肪质量指数(FFMI)以及血清脂肪因子肿瘤坏死因子(TNF)和白介素。结局也很多,该研究估计不仅只研究足痛,全身疼痛都探讨了个遍。在发表论文时,可以建立多因素回归分析,同时分析多个暴露因素影响。不过,多则烂,重点不突出。好的文章,一般应聚焦于一两个同类型指标,最好就是聚焦于一个暴露因素开展队列论文的写作。病例对照研究,研究对象分别是阳性事件的人和阴性事件的人。比如,研究足痛,那么风湿科足痛的患者是病例组的目标人群,其他科非足痛患者是对照组的目标人群,我们从中抽取样本来进行研究。而队列研究,研究对象分别是具有暴露的人群和不具有暴露的人群,比如暴露人群是体重指数较高者、对照组是体重指数低于24的人群。很多人怎么开展回顾性队列研究的呢(研究伊始结局已经出现(足痛、非足痛))?既然结局都已经出现了,那么就抽取足痛和非足痛的人凑一起,进行统计分析吧。错在哪里?当然你抽取足痛与非足痛人群开展研究时,你的思维已经不是队列研究的思维,而是病例对照研究的思维,你的人群不是队列人群的目标人群。为什么?这是因为,当挑选痛与非足痛人群开展分析时,你已经排除了一大批人群。他们可能是失访的人群、愿接受随访的人群。实际上,这些人都是目标人群的重要组成部分。只有从暴露因素出发,框定目标人群,选择队列样本人群,逐一随访各个体的结局(哪怕是失访,也是一个结局)。这才是正确的姿势。因此,队列研究非常重要的工作是绘制研究对象流程图,指出研究伊始多少人是研究对象,根据纳排标准,真正进入随访的有多少?有多少人失访?造成的缺失人群有规模多大?与此相对于的是,我们要考虑缺失数据的处理:只是分析有结局的对象呢?还是将缺失结局对象的信息填补后再进行分析呢?除了队列研究,另外一个研究设计类型也经常计算RR值,那便是RCT研究。吲达帕胺片治疗原发性高血压疗效,将患者随机分为两组。试验组用吲达帕胺片加辅助治疗,对照组用安慰剂加辅助治疗。试分析两组率有无统计学差异?数据详见ht.sav
实验组和对照组的有效率分别是80.77%和45.45%,两组率的比较,我们也根据RR值的计算公式,计算它RR值本例若设定阳性事件是“有效”,那么实验组相对对照组,RR值计算得到1.77。这意味着,吲达帕胺片这一干预措施能够促进阳性事件、即提升“有效”的发生概率达0.77倍。所以,正如我文章先前说的,RR是医学研究最重要的指标,没有之一。它广泛用于医学研究,用于评价阳性事件发生的相对概率。