生存分析的10年和20年时间点

看到一个研究,根据KIAA1429的表达量把TCGA数据库的乳腺癌患者分组后做生存分析,发现有统计学显著,描述如下:

Breast cancer patients were divided into low-KIAA1429 expression (n = 528) group and high-KIAA1429 expression (n=528) group. The high KIAA1429level correlated with poor survival rate. *P = 0.003

可视化如下:

生存分析可视化

但是我注意到,它里面的时间范围有点长,接近20年,但是我们目前谈论肿瘤病人的生存情况,通常是3年或者5年生存率。如果把这个图时间范围限定一下,很容易看到,在第3年或者第5年,这个统计学显著性可能是不存在的

我们该如何计算3年或者5年生存率

统计学检验等数据分析是一回事,如何解释这个结果又是一回事。仅仅是看统计学p值,肯定不行,太多人问:生存分析和Cox回归中,生存曲线最后交叉,如何衡量治疗效果?

比如我就看到有人提问:在生存分析中,如果两组的生存曲线有交叉,书上说Log-rank检验不再适合,同时SPSS软件中的Breslow和Tarone-ware检验也不适合。搜到文献一篇,《生存曲线交叉时统计推断方法的比较和选择》,通过理论分析得出结论,建议用Two-stage方法。但并未详细说明如何进行Two-stage检验。

一个很重要的问题就是如何把影响生存的混杂因素区分出来?

有一个文章就是考虑TCGA数据库的乳腺癌患者的生存分析的10年和20年时间点,

生存分析是一本书书籍的知识点

如果你仅仅是要模仿该文献的生存分析,其实我在生信技能树多次分享过生存分析的细节;

很容易通过R代码,或者网页工具做出来同样的图表,但是生存分析其实是有一本书的知识点,如果想吃透还是蛮难的。

 

比如gepia2工具

这个工具备受推崇,宣传量也是很足了,简单的输入基因名字,选择癌症,即可出图:

  • 网址:http://gepia2.cancer-pku.cn/#survival
 

也可以是oncolnc

这个是老牌网页工具了,最开始大家都是推荐它,不知道这些年随着TCGA数据库的临床数据的更新,该工具有没有更新。

  • 网址:http://www.oncolnc.org/kaplan/?lower=50&upper=50&cancer=BRCA&gene_id=25962&raw=KIAA1429&species=mRNA
 

类似的工具实在是太多了,我就不一一截图展示了:

  • http://tumorsurvival.org/TCGA/Breast_TCGA_BRCA/index.html

甚至都并不一定要TCGA数据库

比如,同样的基因表达量把病人分成两组生存分析,有文章就是自己拿到病人队列,做简单的qPCR实验拿到自己的数据:

  • a, KIAA1429 expression in 70 pairs of HCC tissues and adjacent normal tissues from WCH dataset by using qPCR.
  • b-c ,Kaplan-Meier analyses of the correlations between KIAA1429 expression and overall survival or disease-free survival of 70 HCC patients.
 

可以看到,其实还有不同时间点的差异,比如OS, PFI, DFI, and DSS,建议大家仔细研读文章《An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics》,下载其附件:TCGA-CDR (Table S1, tab TCGA-CDR)

(0)

相关推荐