泛癌全基因数据分析工具推荐:UCSC XENA
前两天我们介绍了一下刚刚发表的泛癌的全基因组在线数据工具汇总的文章。同时也介绍了一下关于ICGC的使用,在那个文章里面提到了五个在线分析PCAWG的工具,今天就来介绍另外一个:UCSC XENA。
1
UCSC XENA简介
之前我们在很多帖子里面都提到了。如果下载TCGA的数据的话,其实可以通过UCSC来进行介绍的。所以今天我们就先来简单的介绍一下UCSC XENA的使用。明天可以再来详细的介绍UCSC XENA如何使用PCAWG的数据来进行分析。
关于UCSC XENA的网址是:http://xena.ucsc.edu/
登陆到界面时候,我们点击Launch Xena即可登陆到UCSC XENA的分析界面。
2
分析工具基本操作
关于XENA的基本使用,在到了分析界面之后。我们需要做的只有两步:(i)选择想要分析的数据集;(ii)选择想要分析的变量。
2.1 数据集选择
在UCSC XENA里面储存了多个关于大型的公共数据集,包括TCGA、GETx以及target等等……关于具体有什么数据集。我们在后面数据下载的时候进行介绍。这里数据集选择的时候,我们只需要数据关键词就可以匹配数据库当中的数据集了。
例如我们输入STAD(TCGA当中的胃癌简写)。在显示
选择完之后,就会显示一个数据当中多少样本的一个条形图。
下一步就是来选择我想要分析的具体的结果了。
2.2 选择想要分析的变量
在分析数据选择方面的话,UCSC XENA还是主要基于某一个基因或者一段染色体区域来进行分析的,所以我们在使用UCSC XENA的分析的时候是需要要自己想要分析目标的,这个和ICGC查看所有所有结果是不一样的。
这里我们来假设想要查看TP53在临床分级当中的表达差异。
2.2.1 选择表达数据
对于数据集选择的上面,数据库只是显示了其中的三个。我们可以点击Show Advanced来进行显示。点击完之后,我们就可以看到所有可以分析的数据集了。
由于我们要查看TP53表达和临床特征的关系,所以我们这里选择:TP53以及gene expression。
选择完之后。结果是是通过一个热图的形式表示的。这个结果A和B是对应的。我们可以看到每个样本TP53的表达值。具体颜色的表示,可以在下面的图例表示出来。
2.2.2 选择临床分组数据
上面我们提到的是选择基因表达的数据,之后我们就要选择临床表型数据了。由于要看组织分型的结果,所以我们选择临床数据当中的组织分型。
2.3 结果解读
在选择完数据之后,可以显示两个模块相同样本的结果。
对于这样的结果,我们其实很难通过这样的热图来进行进行比较。这个数据库也提供了转换数据呈现方式的结果,我们可以点击下图的这里就可以获得柱状图了,同时在不同的选项里面。也提供了结果图形下载和原始数据下载的地方。原始原始数据下载。我们下载的也就是我们选择的这些数据的原始数据。这样就满足了我们在不需要全部基因组数据的情况下,可以来分布我们的目标结果了。
这样的好处是,有可能我们使用原始数据获得的图形分组不好,那我就可以自己下载这些数据来做了。例如现在关于组织分级的原始数据是有GX这个不确定因素的。所以图中的统计结果是不准确的。那这个时候。我们就可以下载原始数据来去掉GX,再进行自己分析。有了数据了,即时基本的统计分析R不会,那SPSS也可以做吧。做图的话,R语言不会,那excel也是可以的,所以给了我们很多DIY的方式。
3
数据下载
XENA除了提供了基本的分析工具,同时对于原始数据也可以进行下载,所以这个也是我们说的。如果想要下载TCGA数据的话,其实并不需要去原始网站上进行下载的。那个还需要各种代码下载,使用XENA就可以直接下载了。
关于XENA储存的数据,需要多说一句的是,XENA的数据有时候是经过结果一定的处理的,这个时候在下载的时候一定要知道自己的原始数据有没有经过处理。这个我们可以在数据下载的unit当中看到,例如这个TCGA的count数据就是经过log2处理的。
以上就是UCSC XENA使用的基本功能了。对于PCAWG的使用还是没有介绍到了,所以明天我们可以以一个课题寻找的形式来看一下如果使用UCSC XENA当中的PCAWG的数据来寻找一个课题。