R数据分析:生存分析的做法和结果解释
今天给大家写写生存分析:
Survival analysis corresponds to a set of statistical approaches used to investigate the time it takes for an event of interest to occur.
生存分析研究的我们感兴趣的事件发生的时间的分布情况。这里面的“生存”不一定指存活,因为生存分析在医学随访数据中用的很多,而这类数据的随访终点往往就是病人死亡,所以才叫做生存。生存分析研究的时间分布也不一定是真的时间,比如我想研究汽车使用时间与汽车发生故障之间的关系,因为汽车很多时候是闲置的,所以这种情况下,时间应该为汽车行驶的里程数。
基本概念
事件:
事件是指研究者所关心的事件发生了,事件发生的时间点,也就是生存时间的记录终点。
生存时间:
生存时间是指从某一起点开始到所关心事件发生的时间。因为生存时间是生存分析的分析对象,所以对生存时间的长度确定至关重要。
删失:
删失是指事件发生未被观测到或无法被观测到以至于生存时间无法被准确记录下来的情况。
生存函数和风险函数
生存分析刻画的是生存时间的分布情况,这里的分布指的是概率分布,如何形象刻画生存时间的分布情况呢?
一个就是生存函数S(t):
S(t), is the probability that an individual survives from the time origin (e.g. diagnosis of cancer) to a specified future time t.
生存函数就是这个病人活下来的概率和时间的关系。
另一个就是风险函数h(t):
h(t), is the probability that an individual who is under observation at a time t has an event at that time.
风险函数就是这个病人死亡的概率和时间的关系,就是我们在t时刻刚好发生目标事件的概率。
Kaplan-Meier计算生存函数
Kaplan-Meier 法 是由Kaplan和Meier于1958年提出,直接用概率乘法定理估计生存率,故称乘积极限法(product-limit method),是一种非参数法。根据时刻t及其之前各个时间点上的条件生存率的乘积,来估计时刻t的生存函数S(t)和它的标准误SE(S(t))。这种方法的数学表达如下:
一句话总结下就是:此时刻的生存概率等于上已时刻的生存概率乘以此时的存活率。
Kaplan-Meier的R操作
我们依然用R的自带数据集进行演示:
library("survival")
library("survminer")
data("lung")
fit <- survfit(Surv(time, status) ~ sex, data = lung)
print(fit)
这个自带数据集有肺癌患者的生存时间,我们在本例中关注三个变量,一个是time,是患者的生存天数,一个是结局status,1=censored, 2=dead,另一个是分组变量sex性别:
我们的研究问题是:不同性别的肺癌患者的生存时间有无差异?
那么我们可以首先做一个Kaplan-Meier的生存分析:
fit <- survfit(Surv(time, status) ~ sex, data = lung)
print(fit)
结果中有展示不同性别的中位生存期及其置信区间。
那么,我们最想要的还是两组生存曲线的可视化:
ggsurvplot(fit,pval = TRUE, conf.int = TRUE,surv.median.line = "hv")
从图中看:p<0.05,说明两组的中位生存期是有差异的。
在上面的曲线中,y轴是生存概率,我们还可以将y轴转化为事件比例,本例中为死亡比例:
ggsurvplot(fit,conf.int = TRUE,fun = "event",pval = TRUE)
也可以看到两组随时间变化的死亡比例是有显著差异的,接下来写写不同生存曲线比较的检验:
生存曲线的比较
上面的例子中,我们分男女做了两个生存曲线,这两个生存曲线有没有统计学差异呢?
这时候就要用到log-rank test了:
surv_diff <- survdiff(Surv(time, status) ~ sex, data = lung)
surv_diff
通过比较,我们发现两个生存曲线确实存在显著差异,此时我们就可以说性别为2的病人确实比性别为1的病人活得久点。
小结
今天给大家写了简单的生存分析,今天的例子中并没有纳入协变量,之后给大家写比例风险模型。