学徒作业-单基因的tcga数据挖掘分析
最近在做一个0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》,直播活动,收集整理文献看到了一个很有意思的研究,节选文章里面的部分图表作为学徒作业哈!
TCGA数据库关于食管癌的,分成ESCC和EAC,其中ESCC好发于中国人群,所以作者关心TCGA数据库里面的90个ESCC病人。
根据CCL2基因的表达量,可以把TCGA数据库里面的90个ESCC病人分成高低表达CCL2的两个组,然后可以差异分析,GSEA分析等等
文章发表在Molecular Cancer 杂志,2020年2月,标题有点长,是:CCL2-CCR2 axis recruits tumor associated macrophages to induce immune evasion through PD-1 signaling in esophageal carcinogenesis
这次的学徒作业是完成下面的4幅图:
e Heatmap of gene expression profiles of human ESCC cases (n = 90) from TCGA database. f Pearson correlation analysis shows tight association of CCL2 with CCR2 and PD-1. g Gene set enrichment analysis (GSEA) between group high (n = 52) and low (n = 38) of CCL2 expression shows enriched pathways associated with PD-1 signaling. h Heatmap shows that expression of PD-1 signaling pathway associated genes is correlated with CCL2 expression in human ESCC
如下图:
其中图f可以直接网页工具做出来,UCSC的xena浏览器,或者GEPIA2都可以,感兴趣的可以去学习:GEPIA2详解(中国智造-肿瘤数据库),当然了,也可以自行编程探索。需求最大的是tcga数据库的生存分析和表达量差异,看看这两个视频:
https://www.bilibili.com/video/av25643438?p=9
https://www.bilibili.com/video/av49363776?p=6
GSEA分析
这个文章里面的gsea就是简单的一个单机版gsea的java软件运行结果罢了,我在生信技能树多次讲解GSEA分析:
GSEA分析一文就够(单机版+R语言版) GSEA的统计学原理试讲 GSVA或者GSEA各种算法都是可以自定义基因集的 基因集富集分析(GSEA)中的排序指标:它们重要吗? 200块的代码我的学徒免费送给你,GSVA和生存分析
多元化的TCGA数据库的应用
我喜欢把TCGA数据库的应用划分为8个领域:
1、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)的预后(生存曲线) 2、探索各类肿瘤与对照的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(箱线图) 3、探索各类肿瘤与对照的全局(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(差异分析流程) 4、探索各类肿瘤中两个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平相关性(散点图) 5、探索各类肿瘤中多个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平总结(热图) 6、探索各类肿瘤中单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)与所有其它分子相关性并且排序 7、探索各类肿瘤中单个基因突变或者单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的预后(生存曲线) 8、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)分组后的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)特性的分布
锦上添花之生存分析
如果你看的数据挖掘文章足够多, 那么生存分析你一定不会错过。比如:https://www.nature.com/articles/s41598-018-27307-2,发表在2018年6月,标题是:A seven-lncRNA signature predicts overall survival in esophageal squamous cell carcinoma ,重心就是生存分析。