Cox回归,不懂的话来看这篇 | 30天学会医学统计与SPSS公益课(D26)

Cox回归由于其复杂性和相对较少应用(除了临床研究),很多统计学习者很少接触过和应用Cox回归,对其原理与应用也不甚了解,一般医学教科书一写到Cox回归,马上会涉及到几个令人生畏的名称:比如半参数回归、风险函数,以及那无法理解的Cox回归方程,当然Cox回归全称也令人发蒙:“Cox比例风险模型”。
但随着队列研究和中长期随访的实验性研究越来越多,了解Cox回归是一项必要的学习内容。本文撇开复杂原理,简单通俗地介绍下Cox回归,特别是它的应用。除此之外,必须值得了解的一个非常重要的指标--HR值。

Cox回归与HR值

在科学研究中,经常遇到分类的结局,主要是二分类结局(阴性/阳性;生存/死亡),研究者可以通过logistic回归来探讨影响结局的因素,或者构建预测模型来预测新患者的预期。
但很多时候logistic回归方法无法使用。比如,在随访期中,绝大部分对象都发生阳性结局( 患者全部治愈或者患者几乎都死亡了)。例如比较两种治疗手段治疗新冠肺炎效果(比如瑞德西韦和安慰剂组),可能在1一个月的效果分别是95%和90%,在统计学上可能没有差异。
logistic回归是关于率的分析,探讨影响发生率的因素,但发生率的研究不能说明一切。
我们还可以从发生率发生的速度来分析,探讨影响发生速度的因素。这便是Cox回归基本思维。
Cox回归是生存分析的重要方法,全称是“Cox比例风险模型”。它主要探讨终点事件发生速度有关的因素。通俗来说,它可以探讨,到底哪类群体的“死亡”速度更快、到底什么因素影响了“死亡”速度。
生存分析的“死亡”指的是,阳性终点事件的发生。死亡速度指的是,t时刻存活的个体在t 时刻的瞬时死亡(阳性事件发生)率,可以理解为一组人群在不同时刻的阳性终点事件发生的速度。具体可以用以下函数来表达:
在专业上,我们把它称之为风险h(t),上述公式称之为风险函数(hazard function)。风险值随着时间的变化而变化,一般情况下,随访前期,“死亡“速度较快。
因此,Cox回归是关于“死亡”风险的研究。但是上述公式无法将死亡风险与相关因素建立起联系。
终于在1972年,由英国统计学家D.R.CoxCox建立了新的函数,来解决这个问题。
或者写成:
h(t)便是研究对象的风险函数,即“死亡”速度,它随着时间的变化而变化。h0(t)是回归方程的截距,初学者完全可以忽略;x1,x2,…xj是自变量,β1,β2…,βj为回归系数。
可以发现,Cox回归是一种嵌套线性方程的模型。它通过指数转换,建立了新的线性回归方程,用于探讨自变量x对因变量h(t)的影响,一种非线性的影响。
我举个简单的单因素Cox回归分析案例吧。

比较男性和女性白血病患者缓解时间(天)的差异性,各自的生存时间如下:

男性:4,5,9,10,11,12,13, 20 ,28,28,28,29,31,32,37,41,41,57,62,74,109,100,139,158

女性:8,10,10,12,14,20,48,70,75,99,103,161 ,162,169,195,199 ,220,217 ,245

本案例中疗法的终点阳性事件是疾病进展,男性和女性有不同的生存时间,研究目的是分析性别与生存情况的关系。我们可以从死亡速度的角度进行分析。
根据生存曲线,可以得知不同组的“死亡”速度,即疾病进展速度是不同的,从而造成生存率变化趋势不同。
如果形成Cox回归,那就是:
这是风险函数h(t)与性别x的关系。通过这个公式,可以分别求男性的的死亡速度h(t)和女性的死亡速度h(t)。
对于性别与疾病进展速度的关系,其实,我们最想知道,女性相对于男性,“死亡”速度的升高了还是降低了?升高了多少倍?降低了多少比例?
女性和男性相比,对结局的直接影响便是β,它含义是,X从男性变化到女性对结局的影响程度。
但这种影响并非是“死亡”速度的影响,因为死亡数和性别没有直接的线性关系。实际上,我可以分别带入男性和女性数据库赋值(男性=1,女性=2)来看看两者的关系。
从这一结果可以看出,女性的死亡速度h(t)和男性的死亡速度h(t)比值,它不等于β,而是等于自然指数e的β次方,即EXP(β)。我们可以构建Cox回归方程,计算出β=-0.784,则EXP(β)=0.456,也就是女性相对男性,死亡速度总体将降低54.4%。
因此通过构建风险函数,可以探讨和比较不同组别对风险函数值的影响,利用β和XP(β)分析研究因素的相对影响。β值绝对值越大,EXP(β)越远离1,说明相对作用越大。
其中,EXP(β)直接反应了死亡速度的相对大小。当EXP(β)=1,说明两组人群“死亡”速度相当;当EXP(β)>1,且值越大,说明女性的风险越大,当EXP(β)<1,且值越小,说女性的“死亡”风险越小。当EXP(β)=2,说明女性死亡速度是男性的2倍;当EXP(β)=0.5,说明女性死亡速度是男性的一半。
EXP(β),我们称之为风险函数值比值,简称风险比,HR;它是两个率之比,属于相对危险度RR值的一种(关于相对危险度,可以了解前文:队列研究的基本统计分析策略)。
HR值大于1,提示暴露是阳性事件发生的促进因素;
HR值小于1,提示暴露是阳性事件发生的阻碍因素;
HR值等于1,提示暴露对阳性事件的发生无影响。
HR值虽然意思与之前介绍过的RR值略有不同(队列研究的基本统计分析策略),但是意义相同。两者统称为相对危险度。它们均反映自变量对阳性结局的影响程度,表示的是暴露相对于对照(干预相对于对照)对阳性事件发生造成的影响。它们都能直观的表达为影响的倍数或者比例。比如HR或者RR =2,说明相对对照组,阳性事件发生风险增加1倍。
HR、RR与OR值在解释上存在着不同,OR值不能直接表达阳性事件发生风险的倍数与比例,它值接近于RR值,但不等于RR。

生存分析的目的与Cox回归的作用

具体来说,根据研究目的,生存分析的研究内容可以分为以下4点:
  1. 描述生存过程,计算生存时间、计算生存率(或者死亡率)、计算死亡速度

  2. 比较生存过程,比较生存时间、比较生存率(或者死亡率)、比较死亡速度

  3. 探讨影响生存时间(生存速度)的影响因素

  4. 预测生存概率

不同的生存分析内容,有不同的统计分析策略:
1. 描述生存过程方面,一般采用经典的寿命表法或者 或者Kaplan-Meier法来计算生存率、计算中位生存时间、并且用生存曲线的方式来描述生存过程
2.比较生存过程方面,一般采用logRank或者广义秩和检验的方法开展生产时间资料分布的组间差异性
3.探讨影响生存时间(生存速度)的影响因素、预测生存概率方面,最常用也是最经典的便是Cox回归分析。
因此,Cox回归在观察性研究中和其它回归方法一样是压舱石,是最重要的分析武器。
Cox回归与logistic回归一样,同样可以开展单因素Cox回归和多因素Cox回归,单因素Cox回归是简单关联性分析比较,而多因素Cox回归可以探讨多种因素对生存结局的影响。因此,一般Cox回归都需要开展多因素回归分析的方法。

Cox回归的SPSS操作

本文向诸位展示,如何利用SPSS主要构建多因素Cox回归方程。

1



分析案例

这是一项关于胰腺癌病人术后生存时间的队列研究。该研究的终点为死亡,包括很多可能影响生存的因素。数据库见pancer.sav


2



统计策略

队列研究,结局可以是二分类,也可以是定量数据。如果是一组具有生存时间,且带有生存结局的资料(也就是患者是否存在删失情况,如果删失,说明患者未观察到了结局而结束随访,结局为阴性;若不删失,说明患者全程被随访,直至发生阳性事件,结局是阳性),应采用生存分析方法。
此时,单独拿生存时间(time)、或者单独拿生存结局(censor)作为结局变量进行分析,均将失去很多信息,分析不充分。
探讨影响因素,即分析关联性,关联性的方法包括简单关联性与多因素回归分析方法。生存分析的简单关联性包括LogRank和单因素Cox回归,两者结果一般情况下啊大同小异。但单因素Cox回归无法真正探讨一个因素是否独立地影响生存结局。
多因素Cox回归能够探讨一个因素是否是独立影响因素,能同时探讨多个影响因素的作用,是本例首选方法。

3



Cox回归SPSS操作入口


3



Cox回归具体设置

①时间:放入生存时间;因子:放入分组变量;状态:放入结局变量,并定义事件。在定义事件中,软件要求作者指标,本研究阳性事件赋值。一般情况下,数据库构建针对生存结局变量,一般设定阳性事件赋值为1,因为删失而未观察到阳性结局者赋值为0。因此“定义事件”一般设定“单值”为1 。
②因子:放入自变量,也就是处理因素或者暴露因素
③选项:增加EXP(B)即HR值的95%置信区间。

3



Cox回归分析结果及其解读

(1)总体效果评价
Cox统计分析首先是模型的总体评价,模型的总体评价包括计算-2倍对数似然值(-2 log likelihood,-2LL)。-2倍对数似然是模型评价重要的指标,该值越小越好,可以用于不同模型评价效果。似然比检验即Omnibus Tests ,是对模型的总的全局检验,当P值小于0.05,则说明模型总体具有统计学意义。本题-2LL=182.02, 模型总体检验P <0.001。
(2)Cox回归的主要结果:HR、P值和置信区间
纳入案例的自变量进行回归分析,SPSS给出模型的回归系数(b值)、标准误(S.E.)、检验统计量Wald 卡方值(瓦尔德)、自由度,显著性(P值)、EXP(B)(HR值)及95%CI可信区间。根据结果可以发现,手术年龄、有无术中放化疗(trt)、TNM分期对患者生存情况的影响具有统计学差异(P <0.05)。
值得注意的是,第一,本结果的HR值是针对研究在统计分析所设定的阳性事件。若未按照研究意图准确设置,结果可能相反;第二,解释自变量的影响时必须要结合数据库赋值或者或者对分类变量对照的设定。
比如'有无术中放化疗',在SPSS分析是,我已经把它第一组(数据库赋值较小组)设置为对照(0=无放疗,1=有放疗),则'有无术中放化疗'的HR=0.302意思是有放疗相对于无放疗,生存风险下降70%(1-0.302)。
但是对于性别,事先未进行设定,那么分析结果默认以数据库中赋值较低者为对照(男性=0,女=1),说明女性风险相当于男性的52.3%,不过没有统计学意义。
而对于定量数据的影响,一般表达为自变量每改变一个单位,因变量改变b个单位。比如年龄,HR值则解释为,年龄每增加一岁,改变了0.059个单位,而风险增加6.1%(1.061-1)。

3



Cox回归分析结果及其解读

纳入性别、术中放疗、占位处、腹膜转移情况、分期、胰胆管浸润程度变量,构建多因素COX比例风险模型。结果发现:术中放疗较无术中放疗,对生存时间的影响具有统计学意义(HR=0.30,95%CI 0.10-0.92, P=0.035);四期病人相对三期病人,对生存时间的影响具有统计学意义(HR=3.59,95%CI 1.46-8.93, P=0.006);手术时年龄对生存时间的影响有统计学意义(HR=1.06,95%CI 1.03-1.10, P=0.001)。其他变量对生存时间的影响无统计学意义(P>0.05)。

进一步解读

1.Cox回归比较的是“死亡”速度,也是在比较生存时间、生存率
一般来说,“死亡”速度、生存时间和生存率高度相关,因此与LogRank分析相似,Cox回归是探讨死亡”速度有无统计学差异,实际上也是在比较生存时间、生存率的变化趋势有无统计学差异。
可以泛泛而言,Cox回归是探讨的是探讨影响阳性事件发生风险有关的因素。

2.Cox回归受到等比例风险假定的限制,应用请慎重

Cox全称是Cox比例风险模型,在建模时需要满足等比例风险假定
什么是等比例风险?
由于HR值是两组曲线风险函数值(死亡速度)的比值,同时风险函数值是生存曲线的切线斜率(),那么HR值是生存曲线切线斜率的比值。
实际上,由于每个时点都有相应的“死亡”速度h(t),根据每个时点比较风险值,都可以计算一个HR。因此,我们可以得到无穷个HR值,而它可能会随着时间的变化而变化。
但是我们总体上,一个研究因素在Cox回归中就只有一个HR值,怎么办?以哪个时间点的HR代表总的HR呢?或者说中的HR反映了哪个时间段的风险比值呢?
怎么办?干脆我们规定好,在HR基本不随时间变化情况下,我们才能构建回归模型,这就是等比例风险假定。所有时间点风险比值相同,即等比例,也就是HR值相同。那么最后计算出来的HR就能代表所有时间点的HR了!
我用两幅图来表达等比例与不等比例,更多的关于等比例风险假定的识别与备用方法,大家可以参照想要的推文(生存分析COX回归,小心你的数据不符合应用条件)。
猜猜看,哪副图更符合的等比例风险假定的条件?
2.LogRank分析与Cox回归的异同
Logrank分析与Cox均可以用于探讨研究因素与“死亡”风险的关系。特别是Logrank与单因素Cox回归,在原理与结果具有相似。
Logrank与单因素Cox回归都是简单关联性分析方法。
LogRank从生存率变化趋势角度分析不同暴露组别或者不同干预措施直接之间有无差异;而单因素Cox回归则从死亡速度角度来分析差异性。其实生存率变化趋势和死亡速度,说起来差不多是一回事。
两者区别在于,Cox回归可以计算研究因素对“死亡”风险的影响程度,HR,但是受到等比例风险假定的限制,LogRank呢,很难计算HR,但受到约束条件少。
两者均不能有效分析多因素情况下,研究因素的效应,因为它们无法计算调整HR值和调整P值。
特别在观察性研究中,每个因素的效应都可能受到其它因素的干扰,只有控制了其它因素的干扰后,才能准确探讨目标因素的效应。这个时候,便需要多因素回归分析。
3.Cox回归广泛应用于随访性研究

随访性研究的实验性研究和队列研究,均需要Cox回归。

在实验性研究中,我们一般需要LogRank帮忙计算P值来反映治疗效果或者组间差异性,但是LogRank无法直接计算HR值。因此,一般情况下,我们会结合Cox回归帮忙求一个HR值和95% 置信区间。
在队列研究中,Cox回归可以起到两点作用,第一,在多因素模式下,探讨多个影响因素,第二,可以利用多因素,来控制干扰因素(即混杂因素),来探讨目标暴露因素的作用。因为LogRank和单因素Cox回归都只能探讨简单关联性,而无法排除干扰因素的影响。
(0)

相关推荐