可能是最出名的TCGA表达分析数据库(二)

有小伙伴说想知道GEPIA数据库的用法。正好最近一段时间GEPIA2更新了,其中也更新了一些新的功能。所以就趁着这个机会给大家介绍一下GEPIA2吧。昨天我们介绍了其中一部分,这里我们来说一下后面的一些功能。

1

预后分析

如果要查看一个基因的预后,可以通过这个功能来查看。新版的预后分析添加了一些新的选择,这里我们就简单的介绍一下。
  • 基因输入方面:我们可以输入一个基因,也可以输入一系列的基因。如果是一系列的基因,我们可以理解为这一系列基因都和某一个表型有关,通过这一系列基因的表达,来代表这个表型的表达。例如我们输入:CCR7,SELL,IL7R。这三个基因来代表Central memory T cell。对于这种基因代表表型的方法,最好的整合方法还是GSVA的算法。但是由于那个计算量比较慢,所以GEPIA2采用了这几个基因表达(log(TPM + 1))的均值来代表表型,这个也是能反映一些内容的吧。

  • 预后分析分组方面:GEPIA2 提供了三种方式,中位值、四分位数以及自定义。由于基因在进行 KM 预后分析的时候,是分为两组。第一步是对相关观察的变量进行分组。一般来说,是基于中位值平均分成高低表达两组,分别代表高表达和低表达;第二步才是进行预后分析。

    但是对于分组而言,没有一个人为的规定说具体怎么分组好,中位置没有意义怎么办呢?那其实还有两种方法可以继续看一下的,
    1. 在进行基因分组的时候,不用中位置来进行区分。而已使用表达的前X%(例如25%)作为高表达组,然后后X%(25%)作为低表达组。这样再看这两组预后有没有意义。这个就是数据库使用四分位数分析的方法。

    2. 还有一种方法这个数据库实现不了,不过可以介绍一下。这个方法也可以叫 best spearation,类似于穷举法。我们把基因表达每一个值都当作一个界限值来进行分组,然后看各个分组的预后有没有意义,在所有分组分析的结果当中选择最佳的当作最佳的分组,这种统计方法叫做最大选择秩统计量。感兴趣的可以查一下。

其他的就是常规的数据库的选择方式了,这里我们就不介绍了。数据库提供了三种结果呈现

  1. 单一基因的预后分析图

  1. 某一个肿瘤预后最有意义的基因

  1. 某几个基因在不同肿瘤当中的预后HR结果比较

2

基因异构体表达分析

基因在形成mRNA的时候,由于可变剪切的存在,就形成了不同的异构体。所以对于不同的异构体,其表达量可能是不一样的。在这一部分我们可以查看一个基因不同异构体的表达水平。
  1. 我们可以查看某一个基因异构体在不同肿瘤当中的差异趋势

  1. 查看基因异构体的具体区别

3

基因之间的相关分析

如果我们想看两个基因之间的相关性,可以通过这个部分来查看的。我们需要做的就是输入想要查看的两个基因,同时选择分析方法。
对于相关分析的分析方法,目前也就是三种: Pearson,Spearman 和 Kendall。这三种方法简单的应用区分如下:
  • 如果数据是一个连续正态分布的那,就使用 Pearson

  • 如果数据是连续性变量但不符合正态分布的时候,就使用 Spearman

  • 如果数据是等级资料的时候,就使用 Kendall

由于我们的表达数据不存在等级的说法,所以 Kendall 是不需要的。对于TPM的数据,一般来说都是偏态的,而通过log2(TPM + 1)转换之后,有的可能会变成偏向正态的。所以这也是数据库在计算相关的时候默认使用的是Pearson。但是有时候数据就算转换了,有可能也是偏态的,所以这个时候可以使用Spearman分析一下看看。
结果呈现,就是一个相关分析的图:

3

降维分析

我们在进行多维度分析的时候,都会通过降维分析来查看,具体的具体影响因子可能是什么。常规的降维分析就是PCA(主成分分析了)。这个数据库提过了,我们输入目标基因来查看降维结果的界面。进而评价,这几个目标基因能不能把用来区分不同的分组。
如果对于主成分分析不了解的话,推荐 STATQUEST 对于PCA的讲解(bilibiliID: BV1T4411T73S)
结果呈现,首先是一个柱状图来说不同成分对于变异度解释的程度。
另外还提供了,主成分分析的散点图。数据库提供了三维的主成分分析的图,由于小编不喜欢三维图形(区分度太差了),所以就只放一个2D的了。
数据库总结

关于GEPIA2的的应用就是这些了,中间我们在每一个分析方式当中添加了一部分少量的方法讲解。如果有检索目标,想看一下在某一个基因在 TCGA 当中的表达关系的话,利用GEPIA来进行查找还是一个快速的方法的。另外如果想要看多组学交叉分析的结果的话,这个就没办法看了,就改天给大家介绍多组学交叉分析的数据库吧。

(0)

相关推荐