可能是最出名的TCGA表达相关数据库介绍(一)
有小伙伴后台留言说想知道 GEPIA 数据库的用法,正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能。所以就趁着这个机会给大家介绍一下GEPIA2吧。
新版本的GEPIA添加了很多功能,我们就一个一个来讲解吧。其实功能讲解挺简单的,由于小编太絮叨了,所以就只能分两期来说明了。
1
一般检索
结果展示方面:
我们首先能看到的是,这个基因在肿瘤正常和癌症位置的表达图。这里数据库主要是通过三个图来展示的:分别是人体基因谱图、点图和柱状图。
由于TCGA对于基因的注释是基于亚型来的,所以往下我们可以看到和这个基因相关的亚型的的信息。
对于RNA-seq,我们可以获得所有基因的表达量,所以通过相关分析我们就可以知道和这个基因相关的其他基因是哪些。这里相关分析用的是PCC (皮尔森相关)。
2
差异表达分析
对于基因差异表达分析的这里多说两句,GEPIA2 使用的候选方法是 limma 或者ANOVA。但是对于RNA-seq的数据,目前对于差异表达的分析的方法标准还是使用count 数据来进行分析,分析方法选择 Deseq2 或者 EdgR 都可以。由于GEPIA里面背景数据集是 TCGA 的 TPM 数据,其实用limma(这个一般是用来分析芯片数据的方法)也行,但是其中有一些基因差异结果肯定是不一样的。
另外:GEPIA 默认的时候 ANOVA 分析差异,如果要还limma的话,记得先还分析方法在选择癌种。不然你如果先选择了癌种,然后再选分析方法,然后数据库就默认把你的癌种调回ACC了。血的教训😂。非代码的操作还是要谨慎再谨慎的。
结果的展示分别可以通过列表和一个染色体分布图来展示的。
3
表达数据自定义
通过点图的方式查看 TCGA 数据库当中癌和正常的表达分布。这个和我们在一般介绍当中的图是一样的,只不过这里可以自定义癌种。
通过箱式图的方式查看表达的差异。这里对于正常样本添加了 GTEx 的数据。如果不知道 GTEx 是什么,可以看我们之前的帖子。
查看目标基因在具体肿瘤分期当中的分布
比较多个基因在不同肿瘤当中的表达丰度