30天学会医学统计与SPSS公益课程(Day 25):生存分析基本方法

Day 25:生存过程的描述与基本比较
隶属第六部分:生存分析

首先,还是强调,生存不是意味着就是活着,死亡不代表死亡。生存分析中死亡,指的是阳性事件,死亡率指的是阳性事件发生率,生存时间指的是维持阴性状态的时间。

上文已指出,生存分析是开展生存率、死亡速度、生存时间的研究。作为初学者,如何学习生存分析呢?

一般初学者学习生存分析,不一定得掌握各种指标的计算原理,但得清楚各个指标的用途与意义,当然必须要学会利用SPSS绘制、分析、比较生存曲线。

生存分析关键概念与计算

首先总结下死亡速度、生存率、和生存时间。
死亡速度及其计算
“死亡”指的的是,阳性终点事件的发生。死亡速度:t时刻存活的个体在t 时刻的瞬时死亡(阳性事件发生)率,可以理解为一组人群在不同时刻的阳性终点事件发生的速度。具体可以用以下函数来表达:
在专业上,我们把它称之为风险h(t),上述公式称之为风险函数(hazard function)。风险函数随着时间的变化而变化,一般情况下,随访前期,“死亡“速度较快。
与死亡速度相对应的的是死亡率,即一段时间内人群的死亡比例,死亡率由死亡速度乘以时间即可得到。
生存率及其计算
生存率(survival rate):0 时刻存活的个体经历 t 时后仍存活的可能性,简写为S(t)。这一指标临床上用的非常多,比如我们经常计算肺癌患者3年生存率、10年生存率、乳腺癌患者5年复发率等。
一把情况下,研究伊始人群总生存率为1,而当所有人出现阳性终点事件时,生存率为0。 生存率与时间相关,可建立与时间的函数关系,因此生存率又称关于时间的生存函数。一般情况下,由于生存分析主要阳性事件结局为坏结局,时间越长,生存率往往越低。
研究者可以根据研究对象的“死亡”速度,来计算各时间点的生存率。最常见的计算方法是Kaplan-Meier法。Kaplan-Meier法又称乘积极限法,它根据每一个时间段的生存概率相乘得到累计生存率。初学者可忽略其计算的原理与方法。
生存时间及其计算
生存时间与死亡率、生存率紧密相关。死亡速度越高、生存率越低,则生存时间越短。生存时间的计算,最常见的采用中位生存时间来描述。中位生存时间(median survival time):也称半数生存期,是生存时间中位数,表示恰有50%的个体存活的时间,即生存率为50%时对应的生存时间,是描述集中趋势的指标。中位生存期越长,表示疾病的预后越好。

如何阅读生存曲线图

死亡速度、生存率、生存时间三者一事三表,高度相关(见下图)。
生存曲线图可集中形象反映三者的特征与关系。
生存曲线图最常见的莫过于Kaplan-Meier生存曲线图。1958年,Edward L. Kaplan和 Paul Meier合作发表了一篇关于如何处理不完整的生存时间资料文章后,利用Kaplan-Meier方法描绘生存过程、绘制生存曲线已经成为处理不同生存时间(time-to-event)的最熟悉的方式。
我们以下数据为例,采用SPSS软件绘制出最朴素的生存曲线图。

3种疗法治疗66例白血病患者缓解时间(天),数据(kaplanm.sav)如下:

A疗法:4,5,9,10,11,12,13, 20+,28,28,28,29,31,32,37,41,41,57,62,74,109,100,139,158+

B疗法:8,10,10,12,14,20,48,70,75,99,103,161+,162,169,195,199+,220,217+,245+

C疗法:8,10,11,12+,23,25,28,28,31,31,40,48,89,124,143,159+,190+,196+,197+,205+,219+

本案例中总共有3种疗法,每种疗法的终点阳性事件是疾病进展,生存时间即术后到疾病进展之间的缓解期时间。时间带+号意味着它是不完全生存时间,研究对象删失了。

随着时间的流逝,同一疗法的患者逐渐出现疾病进展的现象,且大部分出现在早期,所以早期生存率下降地较快(风险函数值即死亡速度较大)。不同人群的同一时期的死亡速度可能不一致,导致不同对象死亡率、中位生存时间都不一致。

下图即Kaplan-Meier 生存曲线图,我们可以从中得到更多的信息。该图X轴为生存时间,Y轴为生存率,不同曲线代表不同治疗随着时间变化,生存率发生的变化。请问,三种治疗方法生存率变化趋势一致吗?死亡速度变化一致吗?

很明显,三者死亡率均呈下降趋势,早期下降较快,后期趋于平稳;三者死亡率下降速度不一致,A疗法(代表蓝色曲线)生存率下降较快,死亡速度较快,因此生存时间也相对较短。B、C两种疗法伯仲之间。

曲线图折线的发生意味着此时此刻研究对象发生阳性事件(本例是患者出现了进展);带加号意味着,在此时此刻,患者出现了失访现象。

该时刻出现阳性事件

该时刻患者删失了

Y轴50%生存率对应的X轴时间为各条曲线的中位生存时间。可以看出来,时间长短上,A疗法<B疗法<C疗法,这是由于三种方法死亡速度不一致造成。

怎么看死亡速度(风险函数值)呢?某一时刻的死亡速度即该时刻的曲线的切线斜率(紫色虚线)。可以看出,在第40天前后,三者切线斜率是A疗法>B疗法>C疗法,意味着A疗法出现疾病进展的速度最快。同时,不同时刻同一人群死亡速度不同。

因此,通过K-M生存曲线图就可大致描述不同组人群的生存率、死亡速度、中位生存时间。同时,生存曲线图也显示出3组人群生存率变化趋势不尽相同,或者说3条生存曲线不一致,反映出3组人群不同的生存状态。

当然,若要更加细致地描述和比较生存状态,则要通过统计软件开展统计描述和统计分析。

利用SPSS描述与比较生存过程

研究利用SPSS方法,分析本文的案例“3种疗法治疗66例白血病患者缓解时间(天)”。该案例在SPSS数据库中,主要包括三个变量“分组变量”,“时间变量”,“是否删失(即是否出现阳性终点)”
描述生存过程的方法,包括寿命表法和Kaplan-Meier法。Kaplan-Meier法最常见,本文以该法为例开展分析。比较生存过程过程主要比较生存曲线是否一致,即比较生存率变化趋势总体上有无统计学差异,常见的方法包括LogRank检验和Bloslew方法。


1



SPSS分析入口

SPSS分析入口:分析-生存分析-Kaplan-Meier法

2



Kaplan-Meier法主界面及操作

①时间:放入生存时间;因子:放入分组变量;状态:放入结局变量,并定义事件。在定义事件中,软件要求作者指标,本研究阳性事件赋值。一般情况下,数据库构建针对生存结局变量,一般设定阳性事件赋值为1,因为删失而未观察到阳性结局者赋值为0。因此“定义事件”一般设定“单值”为1 。
②因子:放入分组变量,也就是处理因素或者暴露因素
③比较因子:即开展多条生存曲线的统计学比较,常见的方法包括秩的对数(LogRank)和布雷斯洛(Breslow)检验
③选项:一般选择计算生存分析表①(计算生存率)、平均值和中位数生存函数②(计算生存时间)、生存分析函数③(绘制生存曲线)

3



分析结果

(1)生存率计算
SPSS软件基于Kaplan-Meier法,针对不同分组,比如A、B、C疗法,计算随访期间不同时点的生存率。Kaplan-Meier法根据每一个时间段的生存概率相乘得到累计生存率。因此在生存率表中,我们可以看到,当研究对象出现重点结局后,在对该时刻生存率的造成的改变;若研究对象删失,则生存率不发生改变(SPSS分析结果缺省)。
比如,我们想知道第20天A组人群的生存率。通过下表可以发现,第20天患者结局是删失,生存率缺省,那么可以观察前一时间段(13天)的生存率,它与第20天一致,即72.7%。
(2)中位生存时间计算
SPSS 同时给出生存时间的均数和中位数。不过生存分析一般只关注中位生存时间即可,所以可忽略下表的平均值。SPSS给出不同组和总人群的中位生存时间及其95%置信区间。

(3)生存过程总体比较

比较A、B、C生存过程的差异,比较的是生存曲线是否相同,实际比较的是生存率变化趋势是否相同,也近似地比较生存时间分布位置是否相同。

生存曲线是否相同一般有两种方式,基本统计学和高级统计学,基础统计学是差异性比较方法(类似于t检验、卡方检验);高级统计学是Cox回归。此处介绍基础统计学方法。

SPSS给出两种基础统计学方法,LogRank 和Breslow方法,两种均属于非参数检验。一般情况下结果相似。但是和Breslow对比较生存率是否相同时,对各时间点进行了根据样本量不同程度的加权,因此结果稍有不同。一般情况下,若需要突出早期随访生存率差异性,则采用Breslow,否则采用LogRank法。比如本例生存曲线图中,A、B、C 3种疗法早期效果差异不明显,所以Breslow检验无统计学差异(P=0.164),而LogRank则从全局考虑,得到了阳性结果(P=0.038)。

3种疗法生存时间的直方图

(4)最后给出生存分析图。上午已有详细的介绍,此处不再赘述。

结果表达

规范文字:结果表明,A疗法(中位生存时间32.0天  95%CI 20.3-43.7)、B疗法(中位生存时间99.0天  95%CI 52.1-145.9)、C疗法(中位生存时间48.0天  95%CI 0.0-131.6)存在着统计学差异(LogRank P=0.038)。
统计图:一般生存分析将结合生存曲线图来进行说明,且生存曲线图最好标注中位生存时间、P值甚至是HR值。如此一以来,作者阅读生存曲线图即可以得到关于生存率、时间和速度的所有信息。

进一步解读

1.生存差异性的比较方法
生存分析核心任务是描述和比较差异性。研究者可通过生存曲线图大致了解组间的差异性,细致的数据需要借助统计分析方法。
统计分析方法论证生存曲线是否相同一般包括有两种方式,基本统计学和高级统计学。基础统计学是差异性比较方法(类似于t检验、卡方检验);高级统计学常用Cox回归。
基础统计学方法常用LogRank 和Breslow方法,主要是开展生存率分析比较,而Cox回归则比较的是风险函数,即“死亡”速度,的差异性。不仅如此,它还提供非常重要的指标:风险比(HR)。该指标不仅反映差异性,还反映研究因素(治疗措施、暴露因素)与生存风险的关联性程度。Cox回归一般用来同时探讨多种研究因素对生存风险的影响。我们将在后文详细介绍。

2.LogRank法是实验性研究研究评价疗效的首选方法
目前,越来越多的实验性研究注重对患者中长期的随访,因此生存分析逐渐成为评价疗效的主流方法。疗效评价主要开展疗效差异性研究,LogRank 、Breslow、Cox回归均可实现研究目的。
但由于Breslow注重短期效果,而Cox分析虽然能够计算HR值,但是它的使用受到诸多条件的限制,特别是等比例风险假设条件的限制。因此,实验性研究一般更注重LogRank检验,以该方法的P值作为衡量实验措施疗效的主要循证依据。
由于是随机化研究,LogRank方法虽然是简单差异性分析,但结论也非常可靠!(小统计大文章!这是我已经老早介绍过的东西)
3. LogRank不能直接提供观察性研究病因学的证据
由于LogRank方法属于基础统计学,与t检验和F检验一样,在观察性研究中,只能探讨组间是否统计学差异。它无法克服组间不均衡带来的潜在干扰因素的影响。一般情况下,观察性研究探讨暴露因素与生存情况的因果关联性,往往需要借助Cox回归方法来进行,该方法同logistic回归一样,可以控制干扰因素的混杂偏倚。

-本讲结束-

(0)

相关推荐