可能是最出名的TCGA表达分析数据库(二)
1
预后分析
基因输入方面:我们可以输入一个基因,也可以输入一系列的基因。如果是一系列的基因,我们可以理解为这一系列基因都和某一个表型有关,通过这一系列基因的表达,来代表这个表型的表达。例如我们输入:CCR7,SELL,IL7R。这三个基因来代表Central memory T cell。对于这种基因代表表型的方法,最好的整合方法还是GSVA的算法。但是由于那个计算量比较慢,所以GEPIA2采用了这几个基因表达(log(TPM + 1))的均值来代表表型,这个也是能反映一些内容的吧。
预后分析分组方面:GEPIA2 提供了三种方式,中位值、四分位数以及自定义。由于基因在进行 KM 预后分析的时候,是分为两组。第一步是对相关观察的变量进行分组。一般来说,是基于中位值平均分成高低表达两组,分别代表高表达和低表达;第二步才是进行预后分析。
但是对于分组而言,没有一个人为的规定说具体怎么分组好,中位置没有意义怎么办呢?那其实还有两种方法可以继续看一下的,
在进行基因分组的时候,不用中位置来进行区分。而已使用表达的前X%(例如25%)作为高表达组,然后后X%(25%)作为低表达组。这样再看这两组预后有没有意义。这个就是数据库使用四分位数分析的方法。
还有一种方法这个数据库实现不了,不过可以介绍一下。这个方法也可以叫 best spearation,类似于穷举法。我们把基因表达每一个值都当作一个界限值来进行分组,然后看各个分组的预后有没有意义,在所有分组分析的结果当中选择最佳的当作最佳的分组,这种统计方法叫做最大选择秩统计量。感兴趣的可以查一下。
其他的就是常规的数据库的选择方式了,这里我们就不介绍了。数据库提供了三种结果呈现
单一基因的预后分析图
某一个肿瘤预后最有意义的基因
某几个基因在不同肿瘤当中的预后HR结果比较
2
基因异构体表达分析
我们可以查看某一个基因异构体在不同肿瘤当中的差异趋势
查看基因异构体的具体区别
3
基因之间的相关分析
如果数据是一个连续正态分布的那,就使用 Pearson
如果数据是连续性变量但不符合正态分布的时候,就使用 Spearman
如果数据是等级资料的时候,就使用 Kendall
3
降维分析
关于GEPIA2的的应用就是这些了,中间我们在每一个分析方式当中添加了一部分少量的方法讲解。如果有检索目标,想看一下在某一个基因在 TCGA 当中的表达关系的话,利用GEPIA来进行查找还是一个快速的方法的。另外如果想要看多组学交叉分析的结果的话,这个就没办法看了,就改天给大家介绍多组学交叉分析的数据库吧。