PCA都分不开的两个组强行找差异是为何

我在生信技能树的教程:《你确定你的差异基因找对了吗?》, 提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图

  • 左边的热图,说明我们实验的两个分组,normal和npc的很多基因表达量是有明显差异的
  • 中间的PCA图,说明我们的normal和npc两个分组非常明显的差异
  • 右边的层次聚类也是如此,说明我们的normal和npc两个分组非常明显的差异

如果分组在3张图里面体现不出来,实际上后续差异分析是有风险的。这个时候需要根据你自己不合格的3张图,仔细探索哪些样本是离群点,自行查询中间过程可能的问题所在,或者检查是否有其它混杂因素,都是会影响我们的差异分析结果的生物学解释的。

生存分析和差异分析的关键是分组

在肿瘤学研究里面,就是对癌症患者的样本根据某个临床特征或者某些分子的特性来进行分组。但是如果大家分析过TCGA数据库的全部样本的RNA-seq表达矩阵,就应该是明白,首先样本需要按照癌症肿瘤,起源器官等特征进行第一级别分组,然后每个癌症内部表达量分组主要是体现在亚型。比如是乳腺癌,你可以看lumA,lumB,basal,HER2 等亚型,如果是胃癌,也是有4种分子分型,具体如下:

  • ①爱泼斯坦-巴尔(Epstein-Barr)病毒(EBV)阳性型肿瘤:约占胃癌的9%,表现为较高频率的PIK3CA基因突变和DNA极度超甲基化,以及JAK2、CD274(也称PD-L1)和PDCD1LG2(也称PD-L2)基因扩增。

  • 微卫星不稳定(MSI)型:约占22%,表现为重复DNA序列突变增加,包括编码靶向致癌信号蛋白的基因突变。

  • 基因稳定(GS)型:约占20%,其组织学变异弥漫且丰富,RHOA基因突变或RHO家族GTP酶活化蛋白基因融合现象多见。

  • 染色体不稳定(CIN)型:此类肿瘤占胃癌的比例近一半,表现为显著异倍体性及受体酪氨酸激酶的局部扩增。

当然了,这样的肿瘤亚型已经被研究的比较清楚了,很难直接去做它们之间的差异,已经被阐明过了,所以大家会另辟蹊径的对肿瘤病人进行分组。

现在非常多的数据挖掘文章,喜欢使用TMB分组,或者免疫浸润情况分组(包括CIBERSOFT计算的LM22比例分组,以及ESTIMATE计算得到的 immune scores, stromal scores and ESTIMATE scores ),实际上风险很大,因为它们这些指标并不能比较好的区分肿瘤病人。

如果从PCA角度来看,就会发现被你分组的病人在前几个主成分上面基本上是混杂在一起的,如果是看全局热图(比如top500的mad的基因),就会发现病人仍然是混在一起。我前面提到过很多次,这样的混杂,其实对你差异分析的结果具有干扰,会影响我们对差异分析结果的生物学解释。

但是很多文章就喜欢取巧,针对性看top200的差异基因那么两个分组还是可以比较明显,如下:

针对显著的差异进行进行热图可视化

火山图看起来也会是很正常:

 

当然了,这些简单图表通常是都不会出现在文献正文里面,因为这样的数据挖掘文章落脚点都是肿瘤免疫,预后模型啥的,所以主要是生存分析模型等等。大家可以组合ESTIMATE关键词加上具体的某个TCGA里面的癌症,就可以发现大量的这样的文章。

或者是组合CIBERSORT关键词,也是加上某个TCGA里面的癌症,成百上千个粗糙的数据挖掘等你去“品鉴”。

数据挖掘的核心是缩小目标基因

各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可

如果大家对数据挖掘的中间过程的合理性不好把握,建议看完我两年前带学徒的时候,安排他们做的文献关键图表复现作业系列笔记分享,如下;

第一期(2018年秋季)

第二期(2019年全年)

(0)

相关推荐

  • 纯生信数据挖掘,就不能发高分一点的文章?

    最近有人问我们,纯生信数据挖掘能不能发高分一点的文章?答案是可以的.那怎么样发呢 ?GEO+Oncomine,或者TCGA联合Oncomine(本套路适合肿瘤数据挖掘,非肿瘤数据挖掘是没有较高的深度) ...

  • 免疫治疗综合分析数据库

    关于基于测序数据来分析免疫治疗情况的话,之前我们介绍过一些和免疫浸润有关的数据库. 免疫浸润算法那么多,要怎么选呢? [[TIMER2 TCGA-免疫浸润评估数据库]], [[DREIMT-免疫细胞和 ...

  • 比GEO2R更好用的GEO数据分析工具

    之前在介绍GEO数据库数据分析的时候,我们介绍过GEO2R这个在线的分析GEO芯片数据的工具.但是对于GEO里面的一些二代测序的数据,就没办法进行分析了.最近新发布了一个在线的数据库eVITTA,则可 ...

  • ADONIS、ANOSIM、Mangel

    常规的T检验.方差分析等,可以用于比较组间变量的差异水平.由于这些常规方法都是对于1-2个特定变量而言的,那么如果我们想比较所有变量整体的差异,或者说各组对象间在变量组成上是否存在较大的不同,应该怎样 ...

  • 《少女小渔》:每一个女人的成长,都离不开这两种男人

    关于爱情,丁尼生曾说过:"爱情是自由自在的,而自由自在的爱情是最真切的."年轻的时候读来,觉得甚是浪漫,以为爱情之所以有震撼人心的力量,正是在于不受阻挠的自由和无怨无悔的付出. 可 ...

  • 大凡有大成就的人都离不开这两个人!(经典)

    不可否认,一个人想要在事业上获得大成就,靠自己的力量肯定是有限的,但凡事业越大越离不开两个人,到底是哪两个人呢? 第一个人:贵人 有句话说的好:人需要名师指路,贵人相助! 什么是贵人? 贵人就是帮过你 ...

  • 从烟花房到摩天轮房,深圳能涨价的房子,都逃不开这两字

    每天都有人在粉丝群内询问."直播"施工进度. 从地王大厦.到春笋再到平安金融中心,深圳人追逐的"地标"换了一茬又一茬. 由地标连带产生的窗景资源,从" ...

  • 天道:气质好的女人,都离不开这两个特点,第二个让男人自卑

    一个人的气质,是带给他人的第一感觉,气质是一个人由内到外散发独特的味道,也是一个人区分他人重要特征. 气质对每个人都很重要,往往而言,决定一个女人气质的,从来都不是长相,而是这两个习惯: 1.刻在骨子 ...

  • 历史上请皇上吃饭的人,都逃不开这两种结局

    历朝历代的皇帝国王,不管是赵钱孙李,还是威廉亨利,逢到与臣民会餐这样的事儿,总是请客的时候多,吃请的时候少. 图源:黎青 说起皇上吃请,次数虽然不多,场面却着实不小,其中最甚者大约是隋炀帝. 据史书记 ...

  • 好的爱情无非都离不开这两个字

    遇见北苏    一起成长 点击蓝色北苏字体关注北苏 左先生也好,右先生也罢,他都有真诚的态度,和专情的品质,就是我们的好先生. --北苏 文/北苏      来源/北苏(subeisu) 1 周末带孩 ...

  • 一段好的婚姻,都离不开这“两个”字

    文/墨然 婚姻是什么?你问一百个人,他们就有一百种看法.而我理解的婚姻,它不是过家家,而是两个人为了一个目标去前进,是需要彼此的郑重其事,真诚的去对待彼此,是学会理解和尊重.婚姻说到底就是一个相互包容 ...

  • “我们这一辈子都分不开”

    [民族团结一家亲] "我们这一辈子都分不开" 每次都要坐23个小时的火车.5个半小时的汽车,从2016年起,每隔一段时间,中国人民银行乌鲁木齐中心支行国库处处长蒋晓虹就要到民丰县若 ...

  • 互相折磨,却爱到痴情,分都分不开的星座

    互相折磨,却爱到痴情,分都分不开的星座                                   水瓶&白羊                                  水瓶和 ...