R数据分析:生存分析的做法和结果解释

今天给大家写写生存分析:

Survival analysis corresponds to a set of statistical approaches used to investigate the time it takes for an event of interest to occur.

生存分析研究的我们感兴趣的事件发生的时间的分布情况。这里面的“生存”不一定指存活,因为生存分析在医学随访数据中用的很多,而这类数据的随访终点往往就是病人死亡,所以才叫做生存。生存分析研究的时间分布也不一定是真的时间,比如我想研究汽车使用时间与汽车发生故障之间的关系,因为汽车很多时候是闲置的,所以这种情况下,时间应该为汽车行驶的里程数。

基本概念

事件:

事件是指研究者所关心的事件发生了,事件发生的时间点,也就是生存时间的记录终点。

生存时间:
生存时间是指从某一起点开始到所关心事件发生的时间。因为生存时间是生存分析的分析对象,所以对生存时间的长度确定至关重要。

删失:
删失是指事件发生未被观测到或无法被观测到以至于生存时间无法被准确记录下来的情况。

生存函数和风险函数

生存分析刻画的是生存时间的分布情况,这里的分布指的是概率分布,如何形象刻画生存时间的分布情况呢?

一个就是生存函数S(t):

S(t), is the probability that an individual survives from the time origin (e.g. diagnosis of cancer) to a specified future time t.

生存函数就是这个病人活下来的概率和时间的关系。

另一个就是风险函数h(t):

h(t), is the probability that an individual who is under observation at a time t has an event at that time.

风险函数就是这个病人死亡的概率和时间的关系,就是我们在t时刻刚好发生目标事件的概率。

Kaplan-Meier计算生存函数

Kaplan-Meier 法 是由Kaplan和Meier于1958年提出,直接用概率乘法定理估计生存率,故称乘积极限法(product-limit method),是一种非参数法。根据时刻t及其之前各个时间点上的条件生存率的乘积,来估计时刻t的生存函数S(t)和它的标准误SE(S(t))。这种方法的数学表达如下:

一句话总结下就是:此时刻的生存概率等于上已时刻的生存概率乘以此时的存活率。

Kaplan-Meier的R操作

我们依然用R的自带数据集进行演示:

library("survival")
library("survminer")
data("lung")
fit <- survfit(Surv(time, status) ~ sex, data = lung)
print(fit)

这个自带数据集有肺癌患者的生存时间,我们在本例中关注三个变量,一个是time,是患者的生存天数,一个是结局status,1=censored, 2=dead,另一个是分组变量sex性别:

我们的研究问题是:不同性别的肺癌患者的生存时间有无差异?

那么我们可以首先做一个Kaplan-Meier的生存分析:

fit <- survfit(Surv(time, status) ~ sex, data = lung)
print(fit)

结果中有展示不同性别的中位生存期及其置信区间。

那么,我们最想要的还是两组生存曲线的可视化:

ggsurvplot(fit,pval = TRUE, conf.int = TRUE,surv.median.line = "hv")

从图中看:p<0.05,说明两组的中位生存期是有差异的。

在上面的曲线中,y轴是生存概率,我们还可以将y轴转化为事件比例,本例中为死亡比例:

ggsurvplot(fit,conf.int = TRUE,fun = "event",pval = TRUE)

也可以看到两组随时间变化的死亡比例是有显著差异的,接下来写写不同生存曲线比较的检验:

生存曲线的比较

上面的例子中,我们分男女做了两个生存曲线,这两个生存曲线有没有统计学差异呢?

这时候就要用到log-rank test了:

surv_diff <- survdiff(Surv(time, status) ~ sex, data = lung)
surv_diff

通过比较,我们发现两个生存曲线确实存在显著差异,此时我们就可以说性别为2的病人确实比性别为1的病人活得久点。

小结

今天给大家写了简单的生存分析,今天的例子中并没有纳入协变量,之后给大家写比例风险模型。

(0)

相关推荐

  • 林丹瑜教授谈K-M曲线和Cox回归:史上引用次数第11位和24位

    统计下午茶 科学发展的漫漫长河中,不乏无心插柳柳成荫的轶闻趣事.很多应用广泛的经典统计方法正是因其他领域的需要才发明的,譬如,现代统计学的起源者费舍尔(Fisher)当年是个遗传学教授,而不是统计学教 ...

  • 当病人问我还能活多久时,你该这么说……

    解螺旋公众号·陪伴你科研的第2631天 生存分析 生存分析是临床研究中一种常用方法,主要用来处理考虑发生时间的二分类结局变量.结局可以是死亡.疾病发生或任何其他感兴趣的二分类结局事件.如果我们同时关心 ...

  • R数据分析:逐步回归的做法和原理,案例剖析

    做回归的时候经常头痛的一个问题就是变量的选择,好多人一放一大堆变量但是结果做出来都没意义,这个时候你可以试试让算法给你选择最优的自变量组合哟. 那么今天要写的就是回归时筛选变量的逐步法: The st ...

  • R语言生存分析: 时变竞争风险模型分析淋巴瘤患者

    原文链接:http://tecdat.cn/?p=22422 在本文中,我们描述了灵活的竞争风险回归模型.回归模型被指定为转移概率,也就是竞争性风险设置中的累积发生率.该模型包含Fine和Gray(1 ...

  • R语言生存分析可视化分析

    完整原文链接:http://tecdat.cn/?p=5438 生存分析指的是一系列用来探究所感兴趣的事件的发生的时间的统计方法. 生存分析被用于各种领域,例如: 癌症研究为患者生存时间分析, &qu ...

  • 我不相信kmplot这个网页工具的结果(生存分析免费做)

    我们已经多次介绍过生存分析: 集思广益-生存分析可以随心所欲根据表达量分组吗 生存分析时间点问题 寻找生存分析的最佳基因表达分组阈值 apply家族函数和for循环还是有区别的(批量生存分析出图bug ...

  • 聊个天就把生存分析给做了?

    但是今天逛朋友圈发现了一个超级神器,德克萨斯大学MD安德森癌症中心梁晗教授课题组开发了一个在线网页工具:DrBioRight,"  a natural language-oriented, ...

  • R语言生存分析

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. R语言生存分析  生存分析是医学数据挖掘中的重要内容 R语言中用于生存分析 ...

  • R语言生存分析-Cox比例风险模型诊断

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘.    Cox比例风险模型诊断   Cox比例风险模型的建立是基于几个假设之 ...

  • R数据分析:混合效应模型的可视化解释,再不懂就真没办法

    好多同学咨询我混合效应模型,有些问题自己需要讲很多遍,想想就再开一贴,争取这一篇文章给大家写清楚. 混合效应模型名字很多,Hierarchical Modeling, also known as Mi ...

  • R数据分析:广义估计方程式GEE的做法和解释

    好久没有更新文章了,因为同学们咨询的问题有点多,另一个原因就是自己实在太懒.... 今天继续给大家写广义估计方程式GEE. In statistics, a generalized estimatin ...