TCGA多组学联合分析数据库

之前我们在介绍GEPIA的时候,说这个数据库只能用于TCGA表达数据的一些分析。但是对于TCGA数据而言,里面包括相同样本的表达、突变、拷贝数、甲基化以及临床信息等数据,所以我们其实可以利用TCGA数据库来进行多组学之间的交叉分析。今天我们就介绍一个TCGA多组学分析的经典数据库:
cbioPortal(https://www.cbioportal.org/)

数据库主界面介绍

1.数据集选择

在这个数据库的主界面上,我们可以看到包括的相关数据集。数据库已经把按照组织类型分好了,例如我们选择食管/胃。

从图中可以看到,这个数据库包括的数据不限于TCGA的数据。同时还包括一些其他发表的数据,例如在胃癌里面,就有一个日本的发表在Nat Genet上的数据集,,我们可以在数据集的后面看到具体的样本量。

我们可以点击数据集当中的饼图(

)就可以看到具体的数据集信息。例如这个日本的数据集,我们就可以看到,这个数据集是一个全外显子测序的数据,主要是用来检测胃癌和正常配对组织突变的情况。下面的一些图是基于不同的临床信息,突变频率的变化。

由于TCGA的数据比较全,所以我们就选择其中一个组织分析的TCGA的结果。

2. 样本选择

选择完之后,我们点击

就可以进行下一步了。接下来,我们就可以就要选择分析的样本了和输入想要分析的基因了。

其中第一个看到的让我们选择基因组图谱,这个默认的是突变和拷贝数。这个选项只是在后面结果绘制OncoPrint图的时候有影响,其他的对于别的分析影响不大的,所以至于下面的mRNA表达以及protein表达可以不选的。

进一步的我们要选择分析的样本了,虽然TCGA的数据做了不同组学的数据。但是也不是说作用组学做的是完全相同的样本,中间总有一两个样本做了一个组学的检测的。但是这个结果的选择对于后续的分析影响也不大,所以我们就选择所有样本。

最后就是输入基因,基因输入的话,我们可以输入多个基因同时观察这些基因的在数据集当中的变化,同时也可以输入一个基因。对于输入一个基因的时候,可以得到额外的分析结果。所以我们就选择输入TP53基因。

然后,点击Submit即可。

结果展示

结果的展示主要是通过以下内容来展示分析结果的。我们就挑其中四个主要的结果,来介绍一下这些结果吧!

  1. OncoPrint图,首先会显示我们检索基因在目标数据集当中突变以及拷贝数的变化的情况。这个情况主要是通过OncoPrint图来进行展示的。

关于这种图代表的含义,是来反应每个样本的基因突变情况的。在图中每一个竖杠代表一个样本。里面红红绿绿的代表样本相关的改变。具体的可以看图例。例如里面那个

代表这个样本存在拷贝数减少同时也有TP53的错义突变。

另外这个数据库也提供了添加不同临床信息以及下载的功能。这个的话,其实做出来的图完全可以在课题或者文章当中使用了。

  1. 基因突变的位置:在上面的OncoPrint图我们可以查看测序的样本是否有突变。另外对于目标基因而言,我们可以在Mutations查看具体的这个基因具体突变的位置。

数据库默认的是显示突变在基因上的位置。我们可以添加多个轨道来进一步注释这些突变的位置,例如加肿瘤热点的轨道等等……

  1. 多组学比较分析:这个数据库能够进行多组学分析的选项也是在Plot里面。在Plot里面。这里结果的呈现是通过定义一个图片的X和Y轴的数据来进行分析的。

例如下图就是X轴是mRNA的表达,Y轴是蛋白的表达,由于两个都是连续性变量,所以在结果当中显示的就是相关分析的结果。

cbioPortal数据库好的一点在于我们可以根据多选择的结果来下载目标数据。如果对于TCGA默认的分析结果不满意。完全可以自己下载下来自己分析。例如,我们查看蛋白表达和组织分型的时候,发现他们分型的结果分类很多。不是自己想要的,就可以下载下载数据,自己分析的嘛。

  1. 共表达分析

由于表达组的数据检索的成千上万的基因的表达量,基于这个数据量,我们就可以通过相关分析来分析和目标基因有相互作用关系的基因。之前介绍的GEPIA只能评价指定基因和目标基因的相关。这个则是可以评价制定基因所有基因的相关性。所以通过这个功能我们可以得到和这个基因相关的其他所有基因。

数据库总结

以上就是关于cbioPortal数据库使用的一些常见功能。大家都进行一些多组学分析的时候,可以使用这个经典的数据库,还是挺好用的,而且所有的分析的图片以及数据都可以下载。
多组学文献精读05 | TCGA中的致癌信号通路(视频)2020-05-16
可能是最出名的TCGA表达相关数据库(一)2020-05-16
可能是最出名的TCGA表达分析数据库(二)2020-05-16
[数据库介绍]一站式表达谱数据分析2020-05-14
(0)

相关推荐