首先,还是强调,生存不是意味着就是活着,死亡不代表死亡。生存分析中死亡,指的是阳性事件,死亡率指的是阳性事件发生率,生存时间指的是维持阴性状态的时间。
上文已指出,生存分析是开展生存率、死亡速度、生存时间的研究。作为初学者,如何学习生存分析呢?
一般初学者学习生存分析,不一定得掌握各种指标的计算原理,但得清楚各个指标的用途与意义,当然必须要学会利用SPSS绘制、分析、比较生存曲线。
“死亡”指的的是,阳性终点事件的发生。死亡速度:t时刻存活的个体在t 时刻的瞬时死亡(阳性事件发生)率,可以理解为一组人群在不同时刻的阳性终点事件发生的速度。具体可以用以下函数来表达:在专业上,我们把它称之为风险h(t),上述公式称之为风险函数(hazard function)。风险函数随着时间的变化而变化,一般情况下,随访前期,“死亡“速度较快。与死亡速度相对应的的是死亡率,即一段时间内人群的死亡比例,死亡率由死亡速度乘以时间即可得到。生存率(survival rate):0 时刻存活的个体经历 t 时后仍存活的可能性,简写为S(t)。这一指标临床上用的非常多,比如我们经常计算肺癌患者3年生存率、10年生存率、乳腺癌患者5年复发率等。一把情况下,研究伊始人群总生存率为1,而当所有人出现阳性终点事件时,生存率为0。 生存率与时间相关,可建立与时间的函数关系,因此生存率又称关于时间的生存函数。一般情况下,由于生存分析主要阳性事件结局为坏结局,时间越长,生存率往往越低。研究者可以根据研究对象的“死亡”速度,来计算各时间点的生存率。最常见的计算方法是Kaplan-Meier法。Kaplan-Meier法又称乘积极限法,它根据每一个时间段的生存概率相乘得到累计生存率。初学者可忽略其计算的原理与方法。生存时间与死亡率、生存率紧密相关。死亡速度越高、生存率越低,则生存时间越短。生存时间的计算,最常见的采用中位生存时间来描述。中位生存时间(median survival time):也称半数生存期,是生存时间中位数,表示恰有50%的个体存活的时间,即生存率为50%时对应的生存时间,是描述集中趋势的指标。中位生存期越长,表示疾病的预后越好。死亡速度、生存率、生存时间三者一事三表,高度相关(见下图)。生存曲线图最常见的莫过于Kaplan-Meier生存曲线图。1958年,Edward L. Kaplan和 Paul Meier合作发表了一篇关于如何处理不完整的生存时间资料文章后,利用Kaplan-Meier方法描绘生存过程、绘制生存曲线已经成为处理不同生存时间(time-to-event)的最熟悉的方式。我们以下数据为例,采用SPSS软件绘制出最朴素的生存曲线图。3种疗法治疗66例白血病患者缓解时间(天),数据(kaplanm.sav)如下:
A疗法:4,5,9,10,11,12,13, 20 ,28,28,28,29,31,32,37,41,41,57,62,74,109,100,139,158
B疗法:8,10,10,12,14,20,48,70,75,99,103,161 ,162,169,195,199 ,220,217 ,245
C疗法:8,10,11,12 ,23,25,28,28,31,31,40,48,89,124,143,159 ,190 ,196 ,197 ,205 ,219
本案例中总共有3种疗法,每种疗法的终点阳性事件是疾病进展,生存时间即术后到疾病进展之间的缓解期时间。时间带 号意味着它是不完全生存时间,研究对象删失了。
随着时间的流逝,同一疗法的患者逐渐出现疾病进展的现象,且大部分出现在早期,所以早期生存率下降地较快(风险函数值即死亡速度较大)。不同人群的同一时期的死亡速度可能不一致,导致不同对象死亡率、中位生存时间都不一致。
下图即Kaplan-Meier 生存曲线图,我们可以从中得到更多的信息。该图X轴为生存时间,Y轴为生存率,不同曲线代表不同治疗随着时间变化,生存率发生的变化。请问,三种治疗方法生存率变化趋势一致吗?死亡速度变化一致吗?
很明显,三者死亡率均呈下降趋势,早期下降较快,后期趋于平稳;三者死亡率下降速度不一致,A疗法(代表蓝色曲线)生存率下降较快,死亡速度较快,因此生存时间也相对较短。B、C两种疗法伯仲之间。
曲线图折线的发生意味着此时此刻研究对象发生阳性事件(本例是患者出现了进展);带加号意味着,在此时此刻,患者出现了失访现象。
Y轴50%生存率对应的X轴时间为各条曲线的中位生存时间。可以看出来,时间长短上,A疗法<B疗法<C疗法,这是由于三种方法死亡速度不一致造成。
怎么看死亡速度(风险函数值)呢?某一时刻的死亡速度即该时刻的曲线的切线斜率(紫色虚线)。可以看出,在第40天前后,三者切线斜率是A疗法>B疗法>C疗法,意味着A疗法出现疾病进展的速度最快。同时,不同时刻同一人群死亡速度不同。
因此,通过K-M生存曲线图就可大致描述不同组人群的生存率、死亡速度、中位生存时间。同时,生存曲线图也显示出3组人群生存率变化趋势不尽相同,或者说3条生存曲线不一致,反映出3组人群不同的生存状态。
当然,若要更加细致地描述和比较生存状态,则要通过统计软件开展统计描述和统计分析。
研究利用SPSS方法,分析本文的案例“3种疗法治疗66例白血病患者缓解时间(天)”。该案例在SPSS数据库中,主要包括三个变量“分组变量”,“时间变量”,“是否删失(即是否出现阳性终点)”
描述生存过程的方法,包括寿命表法和Kaplan-Meier法。Kaplan-Meier法最常见,本文以该法为例开展分析。比较生存过程过程主要比较生存曲线是否一致,即比较生存率变化趋势总体上有无统计学差异,常见的方法包括LogRank检验和Bloslew方法。
SPSS分析入口
SPSS分析入口:分析-生存分析-Kaplan-Meier法
Kaplan-Meier法主界面及操作
①时间:放入生存时间;因子:放入分组变量;状态:放入结局变量,并定义事件。在定义事件中,软件要求作者指标,本研究阳性事件赋值。一般情况下,数据库构建针对生存结局变量,一般设定阳性事件赋值为1,因为删失而未观察到阳性结局者赋值为0。因此“定义事件”一般设定“单值”为1 。③比较因子:即开展多条生存曲线的统计学比较,常见的方法包括秩的对数(LogRank)和布雷斯洛(Breslow)检验③选项:一般选择计算生存分析表①(计算生存率)、平均值和中位数生存函数②(计算生存时间)、生存分析函数③(绘制生存曲线)
分析结果
SPSS软件基于Kaplan-Meier法,针对不同分组,比如A、B、C疗法,计算随访期间不同时点的生存率。Kaplan-Meier法根据每一个时间段的生存概率相乘得到累计生存率。因此在生存率表中,我们可以看到,当研究对象出现重点结局后,在对该时刻生存率的造成的改变;若研究对象删失,则生存率不发生改变(SPSS分析结果缺省)。比如,我们想知道第20天A组人群的生存率。通过下表可以发现,第20天患者结局是删失,生存率缺省,那么可以观察前一时间段(13天)的生存率,它与第20天一致,即72.7%。
SPSS 同时给出生存时间的均数和中位数。不过生存分析一般只关注中位生存时间即可,所以可忽略下表的平均值。SPSS给出不同组和总人群的中位生存时间及其95%置信区间。
(3)生存过程总体比较
比较A、B、C生存过程的差异,比较的是生存曲线是否相同,实际比较的是生存率变化趋势是否相同,也近似地比较生存时间分布位置是否相同。
生存曲线是否相同一般有两种方式,基本统计学和高级统计学,基础统计学是差异性比较方法(类似于t检验、卡方检验);高级统计学是Cox回归。此处介绍基础统计学方法。
SPSS给出两种基础统计学方法,LogRank 和Breslow方法,两种均属于非参数检验。一般情况下结果相似。但是和Breslow对比较生存率是否相同时,对各时间点进行了根据样本量不同程度的加权,因此结果稍有不同。一般情况下,若需要突出早期随访生存率差异性,则采用Breslow,否则采用LogRank法。比如本例生存曲线图中,A、B、C 3种疗法早期效果差异不明显,所以Breslow检验无统计学差异(P=0.164),而LogRank则从全局考虑,得到了阳性结果(P=0.038)。
3种疗法生存时间的直方图
(4)最后给出生存分析图。上午已有详细的介绍,此处不再赘述。
规范文字:结果表明,A疗法(中位生存时间32.0天 95%CI 20.3-43.7)、B疗法(中位生存时间99.0天 95%CI 52.1-145.9)、C疗法(中位生存时间48.0天 95%CI 0.0-131.6)存在着统计学差异(LogRank P=0.038)。统计图:一般生存分析将结合生存曲线图来进行说明,且生存曲线图最好标注中位生存时间、P值甚至是HR值。如此一以来,作者阅读生存曲线图即可以得到关于生存率、时间和速度的所有信息。
生存分析核心任务是描述和比较差异性。研究者可通过生存曲线图大致了解组间的差异性,细致的数据需要借助统计分析方法。统计分析方法论证生存曲线是否相同一般包括有两种方式,基本统计学和高级统计学。基础统计学是差异性比较方法(类似于t检验、卡方检验);高级统计学常用Cox回归。基础统计学方法常用LogRank 和Breslow方法,主要是开展生存率分析比较,而Cox回归则比较的是风险函数,即“死亡”速度,的差异性。不仅如此,它还提供非常重要的指标:风险比(HR)。该指标不仅反映差异性,还反映研究因素(治疗措施、暴露因素)与生存风险的关联性程度。Cox回归一般用来同时探讨多种研究因素对生存风险的影响。我们将在后文详细介绍。2.LogRank法是实验性研究研究评价疗效的首选方法目前,越来越多的实验性研究注重对患者中长期的随访,因此生存分析逐渐成为评价疗效的主流方法。疗效评价主要开展疗效差异性研究,LogRank 、Breslow、Cox回归均可实现研究目的。但由于Breslow注重短期效果,而Cox分析虽然能够计算HR值,但是它的使用受到诸多条件的限制,特别是等比例风险假设条件的限制。因此,实验性研究一般更注重LogRank检验,以该方法的P值作为衡量实验措施疗效的主要循证依据。由于是随机化研究,LogRank方法虽然是简单差异性分析,但结论也非常可靠!(小统计大文章!这是我已经老早介绍过的东西)3. LogRank不能直接提供观察性研究病因学的证据由于LogRank方法属于基础统计学,与t检验和F检验一样,在观察性研究中,只能探讨组间是否统计学差异。它无法克服组间不均衡带来的潜在干扰因素的影响。一般情况下,观察性研究探讨暴露因素与生存情况的因果关联性,往往需要借助Cox回归方法来进行,该方法同logistic回归一样,可以控制干扰因素的混杂偏倚。