筛到5分的核心基因以后你可以怎么做?
上一篇推文讲了如何筛出一篇5分文章的核心基因,感谢小伙伴们的关注,虽然没有30个“在看”,但是新进来的小伙伴进去点一点“在看”,补到30个好不好?不然小编就没得加鸡腿了。
这一次我们从一些已经发表的文章拆解,我们来看看,你找到了一个核心基因以后,你可以怎么做呢?我们就不说那么多废话了,直接用几篇文章的解读来带着大家领会一下如何去进行下一步的分析。
Case1:预后标志物+免疫浸润
第一篇文章是2019年发表在 Front Oncol(IF=4.1437)名为:UBASH3B Is a Novel Prognostic Biomarker and Correlated With Immune Infiltrates in Prostate Cancer的文章。
不得不说,随着免疫检查点抑制剂在各种肿瘤治疗中大放异彩,和免疫检查点抑制剂疗效相关的一些标志物也一起受到了广泛的关注,比如说我们的第一个case“免疫浸润”就是一个很好的例子。
免疫浸润不仅仅常用到肿瘤的免疫检查点抑制剂疗效中,还有其他的疾病的发生发展也都和“免疫浸润”息息相关,学习方法和套路;然后从这个所谓的“套路思维”中跳出来,这才是希望大家可以达到的。
通过肿瘤组织和正常组织的mRNA表达:发现核心基因在肿瘤组织中显著升高;
在转移的组织和恶性程度更高的组织中核心基因也更高;
其实我觉得还不如用Cox来筛选来得好,有那么多基因都满足上面的两点,作者为什么要研究UBASH3B这个基因?或者是通过高通量筛选出只有UBASH3B满足上面的两个标准,这样的方法更为严谨。
通过核心基因的高低表达把人群分成2组做差异分析并得到差异基因(DEGs)
通过上面的得到的DEGs进行通路富集来解释为什么会引起生存差异
然后发现DEGs和显著激活差异的通路和免疫浸润相关
最后做了一下核心基因和免疫浸润相关基因以及通路的相关性分析
这样的思路的确是比较简单粗暴的,肯定是可以这样的做的,但是显然也可以做得更好。
小结:
首先,可以建议大家可以补做CIBERSORT或者是xCell这样的分析,不建议做Timer或者是Estimate,因为信息量太少了。其次,作者是有用到自己的数据的,但是如果能有20-30个样本并且是带随访的RNAseq数据来进行筛选,感觉说服力就强很多了,当然作者为了增强说服力,从多种维度进行验证,弥补了缺陷。最后,如果大家能有现成的基因敲除鼠,或者是能够有免疫重建的PDX模型,那么能在现在的基础上补做一些机制实验,在10分左右还是很有希望的。
Case2:单基因多组学验证生存
第二篇文章是2020年发表在J Clin Med(IF=5.688)上名为Opposite Roles of BAP1 in Overall Survival of Uveal Melanoma and Cutaneous Melanoma的文章;
这篇文章很简单,大致内容如下:
核心基因的低表达组和缺失组有着更坏的生存;
然后用Cox回归分析也同样证明了第一步的结论
扩展分析了核心基因的表达量和诊断年龄显著相关
是的,就这样戛然而止了,很诧异。反思了一下,这个可能是一个“约稿”,毕竟JCM是MDPI的杂志,他们杂志就爱搞这种“特刊+约稿”的事情。当然,按照题目,作者发现了核心基因分别在uveal melanoma (UM) and cutaneous melanoma (CM)的生存意义是不一样的…这也算是一个重大发现吧…
那么我们从这篇文章的分析跳出来,看看我们还可以做哪些东西,从而做得更好呢?如果找到一个和生存相关的基因,接下来除了重复性质的验证,你还可以做什么呢?
找到最合适的临界值,建议xTile或者是tROC,而不是直接的median;
用GSEA或者是ssGSEA来解释生存预后以及和核心基因的关系;
横向分析有很多,除了作者做的年龄;还有可以想到的临床分期分型,肿瘤大小,一些热门的score;
从核心基因本身出发探寻通路和互作关系;
本来有一篇文章要分析,但是因为篇幅性质,就没有放进来。那是讲的筛选出来的基因是一个自噬相关的基因。筛选出那个基因了以后,就可以看看那个基因和自噬相关的通路那些是相关的;如果运气好还可以在GEO看看,说不定能找到一些别人调控过该基因的分析;
当然还可以通过疾病类型进行扩展分析,比如说研究NSCLC的时候,把LUAD和LUSC分开来做亚组补充分析的信息量;
Case3:基因突变+TMB+免疫浸润
第二篇文章是2020年发表在Aging(IF=5.515)上名为EP300 mutation is associated with tumor mutation burden and promotes antitumor immunity in bladder cancer patients的文章。
这篇文章的核心基因是EP300,但是它和上面的文章不一样的是,它是做的基因突变,当然随着多组学数据的开放,你可以做拷贝数变异,可以做蛋白芯片,可以做甲基化,可以做乙酰化等;RNA seq的数据最多并且干预调控比较容易,大部分的时候大家都还是以RNAseq的数据为核心方式进行展开自己的文章。
这篇文章为什么要研究EP300 mutation,作者一步一步筛选出来就很有逻辑,大家可以看一看:
定义Frequently Mutated Gene(FMG)→把TCGA和ICGC两个数据集中的FMGs取交集(11个基因)→TMB的差异分析(9个显著)→生存分析中仅EP300 mutation显著
那么全文思路大致如下:
筛选了核心基因:和TMB以及生存存在关联;
Cox回归分析验证核心基因和生存的关系;
GSEA分析看核心基因突变与否和通路激活程度的关系;
核心基因突变与否和CIBERSORT的免疫浸润之间的关系;
讨论也比较简单,这篇文章比较大的一个亮点是作者很有逻辑地筛选出来了EP300 mutation,至于后面的分析的确是比较少了;该作者既没有看那个基因突变是否和其他组学的关联,也没有看是否有热点的突变;扩展的分析也就止步于GSEA和CIBERSORT。
其实,我在想如果是能够从GSEA分析中找到一类通路,然后和CIBERSORT的结合起来讲一个故事可能会更好?或者是找到一些通路,进行干预他们对一些表型的关系?如果是有一些临床的样本,结合上现实生活中ICIs治疗的案例,配上case report的一些描述和影像资料,我觉得文章还能再上一个档次。
三个案例分享完了,希望大家能够从里面学到很多新的东西,请点下右下角的在看哟,哈哈哈其实厉害的同学会说,这不就是所谓的单基因套路吗?那我问你套路香吗?
当然香呀!!!!!
并且套路都没学会就开始高级创新了??????
还是和之前一样,如果大家右下角「在看」超过30,我们就开始下一期的5分生信文章涉及思路探讨的系列推送——免疫浸润和免疫相关基因的深度剖析。