并不是只有TCGA才有临床信息用来做生存分析
本文的临床数据的生存分析,并没有使用TCGA数据库里面的病人信息,而是自己收集病人样本,记录其临床信息,随访时间等等。还采用IHC等病理技术手段来量化感兴趣的基因的表达量情况,最后全部使用自己的数据做出来了下面的生存分析曲线。
因为作者并没有上传这些临床信息,所以呢,是不可能重复出来作者的生存分析曲线啦。不过,我们的学徒任务是,去TCGA数据库,找到BRCA和CRC病人的该基因的表达量情况,对病人进行分组后会在生存曲线,看看是否也是具有统计学显著。
如果你感兴趣研究团队的数据收集过程,也可以继续读文献:
可以看到病人队列也不小了,两个癌症,每个一百多病人。研究者在检查STING这个基因表达量的时候,区分了内皮细胞和免疫细胞。这一点很有趣。
只有你对你的课题熟悉到一定程度才知道,并不是TCGA数据库里面的RNA-seq或者芯片数据检测到的STING这个基因表达量能区分生存就是你的生物学故事的证据支持。
临床资料整理
也详细描述了病理技术的来龙去脉,使用的仪器和商业抗体信息。
临床数据统计通常不使用R语言
这里值得强调的是,其实临床统计数据分析并不一定要使用R语言,甚至说,大部分都不会使用R语言完成统计分析。本文就是典型,使用的是收费软件,PRISM和SPSS。
临床三线表是必须的
这个我以前讲解过使用R语言如何绘制
可以根据临床信息细分为癌症亚型后继续生存分析
因为研究团队收集的病人临床信息比较全面,所以可以根据 stage 这个信息,把病人继续细分为3个分组后继续进行生存分析。
你的作业就是,使用TCGA数据源,制作本文里面的生存分析,看看显著与否!
赞 (0)