GEPIA,无编程生信小白福音
GEPIA, 全称GeneExpression Profiling Interactive Analysis。这个数据库是2017年7月由北京大学张泽民教授团队的唐泽方等人通过 R 、Perl等语言对数据进行处理、可视化而设计的癌症大数据分析网站 ,GEPIA让没有任何编程背景的科研工作者能够轻松执行各种基因表达分析。开发的相关的文章发表在Nucleic Acids Research 杂志上。数据库的数据来源主要是TCGA数据库。分析内容包括肿瘤/正常差异表达谱分析、表达分布、病理分期、生存分析,相似基因,基因表达相关性和降维分析等。
网址:http://gepia.cancer-pku.cn/
目前已经有更新版GEPIA2(更高分辨率和更多功能的加强版GEPIA)。在官网首页搜索栏可以看出,该网站的分析主要有三个板块,也是主要功能,分别是Single Gene Analysis、Cancer Type Analysis、Multiple Gene Analysis。
1.General 概况
点击首页【GOPIA】就可以看到对ERBB2,酪氨酸激酶受体2(网站默选的,可在搜索框更改)基因概况的介绍。体图中肿瘤和正常样品的中位表达,显示了该基因在人体不同器官组织中的表达情况,红色的表示肿瘤组织,绿色的表示正常组织,颜色越深表示表达水平越高,表达量可以用鼠标点击部位显示出来。
同时,为了帮助那些不了解缩写的人,网站在顶部有“Click here to get the extensio of tumor abbreviations”,点击即可显示这些缩写的全称。
网站还给出了不同肿瘤中正常样本和肿瘤样本中表达量的对比图,每个点代表一个样本,如下所示。还有柱状图,取了所有样本的平均值,清晰明了,但是没有p值。总而言之,散点图和柱状图各取所需。
2. Differential Genes
Differential Genes部分,可以分析在特定肿瘤中正常样本和肿瘤样本中的差异表达基因,用户可以定义差异基因分析的算法和对应的阈值,这里试验性地把q-value Cutoff改为0.005,点击List,查看差异基因对应的表格数据结果如下:
点击Plot显示差异基因在各个染色体上的分布,示意如下:
3. Expression DIY
这部分是用户选择感兴趣的肿瘤,在Expression DIY标签下可以对检索的基因进行表达水平的作图,从下拉菜单可以选择Profile散点图,Boxplot箱式图和Stage plot小提琴图。每一种格式的图都可以DIY作图的参数,选择呈现的癌种并对其进行排序,甚至颜色和大小。如果输入多个基因列表,还可以以热图的形式进行可视化。
4. Survival
生存分析,对于医学研究来说很常见。Survival标签也有下拉菜单,单基因分析用Survival Plots,另一个Most Differential Survial Genes是多基因分析时用。用Survival Plots做单基因生存分析效果图如下:
用Most Differential Survial Genes分析出与生存状态相关的差异基因,结果如下所示:
5.Similar Gene
想了解目标基因有哪些类似基因的情况下,可以用这个类似基因筛选功能,强大到可以罗列Top 1 到Top 9999999的相似性基因。
6.Correlation
人体疾病很少会单个基因起发挥功能,一般都是多个基因一起起作用。如果想了解两个基因之间的关联性,可以用这个功能。可以自己挑选样本,指定相关系数的算法,结果如下所示。
7.PCA
多基因的降维分析一般使用的是PCA主成分分析(Principal Component Analysis),这部分进行PCA分析,可以指定多组样本,然后根据输入的基因的表达量进行PCA分析,可以生成2D、3D PCA的图。