TCGA+biomarker

引用:Clariom;  https://www.jianshu.com/p/8b257d1ff818生存分析KM法与Cox法异同KM 方法即Kaplan-Meier survival estimate是一种无参数方法(non-parametric)来从观察的生存时间来估计生存概率的方法。KM生存分析模型,是单变量分析(univariable analysis),在做单变量分析时,模型只描述了该单变量和生存之间的关系而忽略其他变量的影响。同时,Kaplan-Meier方法只能针对分类变量(治疗A vs 治疗B,男 vs 女),不能分析连续变量对生存造成的影响。为了解决上述两种问题,Cox比例风险回归模型(Cox proportional hazards regression model)就被提了出来。因此,Cox比例风险回归模型,可以分析连续变量对生存造成的影响,也可以多变量分析对生存的影响。Cox回归分为单因素cox回归和多因素cox回归,单因素Cox回归Cox回归分为单因素cox回归和多因素cox回归,今天主要介绍单因素cox回归的使用。在TCGA+biomarker这类研究中单因素cox回归用的是比较多的,大部分情况下是用来筛选变量。当有多个自变量时,比如差异分析得到了60个差异miRNA,这时候可以通过对这60个miRNA批量做单因素Cox回归,筛选结果显著的miRNA(用于下一步的多因素cox回归)。单因素Cox回归案例展示下图展示了多个变量与无病生存间的单因素cox回归分析结果,独立在三个数据集中分别计算,绘制出如下表格。大家可以注意到,针对每个变量,都经过数据整理成为二分类变量,每个自变量只有一行数值,说明都是将这些二分类变量进行了数值化去做的单因素cox回归。

image但自变量并不一定都需要整理成分类变量,因为cox回归本来就可以针对二分类、多分类和连续变量进行分析,比如下图:针对KIF20A这个基因做个两种单因素cox回归,一种是针对KIF20A表达值的连续性变量(因此只有一行数值);一种是提前将KIF20A的表达值分为两部分,成为二分变量(自变量因子化,分层展示)。

image很多时候,为了单因素和多因素COX回归结果看起来更连贯,经常也会把两种cox回归结果整理在一起进行展示,如下图:分别在两组独立数据集中做单因素和多因素Cox回顾分析。以TESTING数据集结果为例,单因素cox分析了10个变量与生存之间的关系,发现有5个变量结果显著。接下来对这5个变量进行多因素分析,发现有两个变量显著,可作为独立因子!

image总结:cox回归结果的展示,主要涉及三个参数:Miedian(中位数)、HR值(****概念风险比****)、P值(统计学指标)单因素Cox结果解释单因素cox回归结果(参考网络,觉得说的还是挺清楚的)

image1、coef是公式中的回归系数b(有时也叫做beta值),因此exp(coef)则是Cox模型中最主要的概念风险比(HR-hazard ratio):HR = 1: No effectHR < 1: Reduction in the hazard(有助于)HR > 1: Increase in Hazard(不利于)2、Z值代表Wald统计量,其值等于回归系数coef除以其标准误se(coef),即z = coef/se(coef);有统计量必有其对应的假设检验的显著性P值,其说明bata值是否与0有统计学意义上的显著差别3、exp(coef)就是 HR,等于0.59,即风险比例等于0.59。在数据中男性(male=1),女性(female=2),HR=0.59,说明性别为有助于事件结局(生:1,死:2),女性(male=2)比男性减少了0.41倍风险,女性与良好预后相关。4、ower .95 upper .95则是exp(coef)的95%置信区间,可信区间越窄,可信度越高,你的实验越精确,越是真理。5、Likelihood ratio test,Wald test,Score (logrank) test则是三种检验方法的p值,p值小于0.05, 说明回归方程是有统计学意义的。这三者是asymptotically equivalent;当样本数目足够大时,这三者的值是相似的;当样本数目较少时,这三者是有差别的,但是Likelihood ratio test会比其他两种在小样本中表现的更优。案例图表解释(参考网络解释,很直观)

image解释:HR就是相对风险度,HR值大于1是危险因素,小于1是保护因素(相对于生存这样个结局事件来说!)。图中的数字4为1(即每个分类变量中的对照),3简单来解释就是这个情况下它是上面那个的产生影响最终统计连续变量的几倍的事情。连贯起来解释就是针对癌胚抗原CEA这个自变量,第一行是正常CEA的人共114个,而异常CEA的人是31个,异常CEA的患者是正常CEA患者死亡风险的1.953倍,他的上下可信区间是1.068~3.569,并且经过统计是P=0.03有意义!图中1处可以发现在这里把TNM分期分为了两类,其实分几类都可以,原理都一样。分两类比较简单罢了,并且好解释。单因素cox回归分析如何做?适用于数值型变量,这类变量的cox结果只有一行。(自变量可以是连续性变量,也可以是数值化后的分类变量)rm(list = ls())library("survival")library("survminer")#载入并查看数据集data("lung")head(lung)str(lung)#该数据将所有变量都转换为数值型,包括性别(1,2表示),分期(1,2,3,4表示)等。若是字符型的话,结果会有所不同!#cox 回归分析res.cox <- coxph(Surv(time, status) ~ ph.ecog, data = lung) #ph.ecog为数值型变量res.coxsummary(res.cox)适用于分类变量,同时展示所有协变量的结果rm(list = ls())library("survival")library("survminer")#载入并查看数据集data("lung")head(lung)str(lung)#该数据都为数值型,如性别(1,2表示)。要分类展示cox回归需要将分类变量因子化#将分类变量从数值型改为因子lung <- within(lung, { sex <- factor(sex, labels = c('female', 'male'))}) # female为对照#cox回归分析(sex)res.cox <- coxph(Surv(time, status) ~ sex, data = lung)res.coxsummary(res.cox)##是否分开展示看结果?结合自身结果,看整体展示和分开展示哪个好说明好解释用哪个!!往期回顾TCGA+biomarker——常见结果展示TCGA+biomarker——Sample基线表更多内容可关注公共号“YJY技能修炼”~~~

(0)

相关推荐

  • R语言生存分析-Cox比例风险模型诊断

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘.    Cox比例风险模型诊断   Cox比例风险模型的建立是基于几个假设之 ...

  • 互助问答第485期:关于定序变量的问题

    关于定序变量的问题 请问老师定序变量当自变量可以当数值变量放到回归模型中吗,1到4的定序,比如公平1-4越大越公平,在自变量里可以直接当数值放还是必须需要让非常不公平的那个做参照组. 可以直接放,很多 ...

  • 临床预测模型---研究思路(一)

    在临床工作中,我们时常会接受患者的"灵魂拷问",比如 "得了这个病以后会怎样?","我这个病有多大可能可以治好?"等等.相信此时许多小伙伴的 ...

  • 互助问答第506期:关于SPSS影响因素分析的问题

    关于SPSS影响因素分析问题的问题 老师好!我研究的是影响因素,自变量有连续数值型.二分类以及无序多分类变量,因变量是四个连续数值型变量,想要探究这些自变量对因变量有无影响以及具体影响程度应该用什么方 ...

  • TCGA

    甲基化芯片 450k甲基化芯片可以检测人全基因组近450000个甲基化位点,具有单碱基的分辨率.全面的覆盖了96%的CpG岛,并根据需求加入了CpG岛以外的CpG位点信息,人类干细胞非CpG甲基化位点 ...

  • TCGA临床信息中英文对照

    物业名称Property name描述Description种类kind资源类型.The resource type.等份[]aliquots[]从该参与者处提取的等分条形码的列表.List of b ...

  • 基于TCGA数据库肿瘤免疫细胞浸润分析流程

    分析基本思路: 1.首先我们应该要知道什么是肿瘤的免疫细胞浸润模式,通过一些什么样的原理,可以用什么样的软件进行分析. 肿瘤免疫细胞浸润是指免疫细胞从血液中移向肿瘤组织,开始发挥它的作用,可以从肿瘤组 ...

  • 癌症类型和样本代号详解TCGA

    这是实战TCGA数据库的又一个知识点,如果你已经对TCGA有浅显的认识,那么我们应该根据研究方向找到自己的癌症类型,TCGA有一台完整的癌症分型,慢慢这个分型也成为了主流,你别不服气,如果我们有这样的 ...

  • 整理从TCGA下载的数据

    如果从TCGA官网网页下载数据,或者使用gdc-client工具下载的数据,都是以单个的文件夹形式存储,并且文件夹中的为压缩文件,所以,下载数据后,第一步就是如何把这些文件复制在同一个文件夹中,以利于 ...

  • 生信分析零基础——从GEO到TCGA,让你从「门外汉」到「老司机」

    什么是生信?提起生信,相信大家又爱又恨,得不到的永远在骚动.爱是不用做实验就能发原创研究,好棒啊.恨是看不懂那一大串代码,不会操作. 目前,不做实验发文章的主要有两大类:Meta分析,生信.其中生信文 ...

  • TCGA可变剪切预测数据库

    可变剪切(Alternative splicing,AS)是基因转录时,通过组合不同的外显子,形成不同转录本的过程,在生命的信息传递过程中发挥着重要的作用,维持蛋白质多样性的主要机制.在不同组织或者发 ...

  • TCGA / 癌症简称 / 缩写 / TCGA癌症中英文对照

    TCGA数据库中含有的癌症名称,简写和中文名称 Cohort 英文名称 中文名称 ACC Adrenocortical carcinoma 肾上腺皮质癌 BLCA Bladder Urothelial ...

  • TCGA免疫浸润评价数据库

    免疫浸润评估大致过程 对于RNA-seq的数据,之前我们的分析方法只是局限于单个基因之间的整合分析,最多也就是做一下富集这样的聚类分析.前段时间随着肿瘤免疫的热度,也有人试着开始利用RNA-seq这样 ...