生存分析凭什么不需要矫正P值

生存分析是大数据时代筛选目标基因的超级有效策略。各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。

虽然生存分析如此重要而且如此常见,但是仍然有一些未解之谜,不同数据库来源,病人的不同时期的记录信息,以及不同的阈值分组,拿到的结果居然是可以不一样的!虽然大家都倾向于做各种花式分析,然后挑选具有统计学显著意义的生存分析结果。

生存分析最重要的是病人分组

我在生信技能树多次分享过生存分析的细节;

可以看到,有基因表达量高低分组,基因突变与否分组,多个基因表达量和突变联合分组,甲基化高低分组,gsea和gsva等基因集得分进行分组,五花八门,其中200块的代码我的学徒免费送给你,GSVA和生存分析 视频值得看!

TCGA数据库的RNA-seq表达矩阵全部基因高低表达分组后批量生存分析

虽然说可以各种花式分析,然后挑选具有统计学显著意义的生存分析结果,但是最开始基本上都是对全部基因分组后批量生存分析,可以是表达量高低,包括mRNA,lncRNA,miRNA的表达量,以及甲基化信号值高低等等,一个基因可以把病人分组,只要是有分组,就可以进行一次生存分析。

比如我们可以下载TCGA数据库的RNA-seq表达矩阵,读入到R里面构建成为 expr 这个数据变量,然后整理好临床表型,构建成为phe这个变量,接下来就可以使用下面的代码对RNA-seq表达矩阵全部基因高低表达分组后批量生存分析:

## 批量生存分析 使用  logrank test 方法
mySurv=with(phe,Surv(time, event))
log_rank_p <- apply(expr , 1 , function(gene){
  # gene=as.numeric(expr[1,])
  phe$group=ifelse(gene>median(gene),'high','low')  
  data.survdiff=survdiff(mySurv~group,data=phe)
  p.val = 1 - pchisq(data.survdiff$chisq, length(data.survdiff$n) - 1)
  #cat(p.val) 
  return(p.val)
})
log_rank_p=sort(log_rank_p)
head(log_rank_p)
boxplot(log_rank_p)  

但是最近挑选具有统计学显著意义的生存分析结果的基因时候,发现很多基因都是表达量相关的,也就是说,它们尽管说是不同的基因在不同病人表达量不同,但是它们对病人的分组效果其实是类似的。

那么,我们一下子对几万个基因进行批量生存分析,每一次每一个基因的生存分析都是独立的P值,为什么我们没有对这样的P值进行矫正呢?

大家耳熟能详的矫正P值有,adjust.p , q值,以及FDR,他们的作用都是把P值的放大,这样之前那些小于0.05或者0.01的具有统计学显著的基因就不再显著啦,就是把筛选标准严格一点而已。

生存分析凭什么不需要矫正P值?

难道就是因为我们希望统计学显著的生存结果,就选择性展示它吗?

(0)

相关推荐

  • 肿瘤miRNA靶点预测数据库

    miRNA作为ncRNA的一类.其主要发挥功能的主要方式是通过和基因形成双向互补链进而来影响基因的表达.因此通过miRNA和基因序列是否互补就可以遇到miRNA可能的靶基因了.这个基本上就是经典的预测 ...

  • 怎么样查找正常组织的基因表达谱数据?

    大家可以收藏一下. 数据库介绍 RNA-Seq Atlas - 通过下一代测序在正常组织中进行基因表达谱分析的参考数据库 RNA-Seq Atlas是一个基于网络的RNA-Seq基因表达谱和查询工具库 ...

  • R语言生存分析: 时变竞争风险模型分析淋巴瘤患者

    原文链接:http://tecdat.cn/?p=22422 在本文中,我们描述了灵活的竞争风险回归模型.回归模型被指定为转移概率,也就是竞争性风险设置中的累积发生率.该模型包含Fine和Gray(1 ...

  • 【文献摘要】前庭神经鞘瘤的恶性转变:临床研究与生存分析

    <Frontiers in Oncology>杂志 2021 年4月14日在线发表四川大学华西医院的Jiuhong Li, Qiguang Wang, Menglan Zhang,等撰写的 ...

  • 生存分析,你真得了解吗? |

    在医学或者公共卫生研究中,慢性疾病的发生.发展.预后一般不适用于治愈率.病死率等指标来考核,因为其无法在短时间内明确判断预后情况,为此,只能对患者进行长期随访,统计一定时期后的生存或死亡情况以判断诊疗 ...

  • 应该知道的生存分析参数(收藏贴)

    在做生信分析的时候,尽管各种分析多到让人眼花缭乱,但是最重要的无外乎表达差异和生存参数,其余都是点缀.表达差异是前提,但是光有表达差异还不行.若A基因在肿瘤和正常组织中表达有差异,但是不影响生存参数, ...

  • R语言生存分析可视化分析

    完整原文链接:http://tecdat.cn/?p=5438 生存分析指的是一系列用来探究所感兴趣的事件的发生的时间的统计方法. 生存分析被用于各种领域,例如: 癌症研究为患者生存时间分析, &qu ...

  • 生存分析,你真得了解吗? | 30天学会医学统计与SPSS公益课(Day24)

    Day 24:生存分析基本概念 隶属第六部分:生存分析 在医学或者公共卫生研究中,慢性疾病的发生.发展.预后一般不适用于治愈率.病死率等指标来考核,因为其无法在短时间内明确判断预后情况,为此,只能对患 ...

  • 30天学会医学统计与SPSS公益课程(Day 25):生存分析基本方法

    Day 25:生存过程的描述与基本比较 隶属第六部分:生存分析 首先,还是强调,生存不是意味着就是活着,死亡不代表死亡.生存分析中死亡,指的是阳性事件,死亡率指的是阳性事件发生率,生存时间指的是维持阴 ...

  • 30天学会医学统计与SPSS公益课程(Day 24):生存分析基本概念

    Day 24:生存分析基本概念 隶属第六部分:生存分析 在医学或者公共卫生研究中,慢性疾病的发生.发展.预后一般不适用于治愈率.病死率等指标来考核,因为其无法在短时间内明确判断预后情况,为此,只能对患 ...

  • 都可以批量做生存分析了,还要网页工具干嘛?

    朋友圈经常就被刷一个生存分析的教程,感觉都成月经帖了!关键是也没有讲什么新颖的东西,无非就是某个新的网页工具的用法,实在是太low了.必须得从我这里结束它们~ 很久以前我们这个公众号推出过一个生存分析 ...