TCGA数据库 ID转换问题
我们在使用TCGA数据库的时候,从TCGA数据库下载到的数据,使用的原始数据ID是ENS ID。对于这样的ID号,我们一方面不认识他们是什么,另外如果要做下有分析的话,很多数据库也不接受这样的输入,所以就需要转换为gene symbol。
前几天我们也实验过,如果使用很多ID 转换工具的话,很多基因是转换不过来的。尤其是TCGA这种ENSID+version的就更加不容易转换了,那么怎么才能全部的转换这些ID成为基因名呢?今天我们就来简单的介绍一下。
在解释怎么转换之前,首先还是要知道这样的ID是怎么来的。这个就简单的介绍一下二代测序分析的过程。
我们在进行基因测序的时候,获得的原始数据只有fastq的文件,这个文件只是一段一段的基因序列。
我们在获得这些的时候,并不知道我们测出来的这些序列是来自于哪个基因,所以就需要对这些序列进行比对(mapping),但是机器也不知道要往哪里比对,所以我们就需要给计算机提供一个参考基因组。这个基因组是一个人类所有基因的基因ID+相关序列的fasta的文件。经过比对,我们就知道了我们测序出来的那些序列是来自于什么基因了。
通过以上的简单介绍,我们只需要知道TCGA使用的是什么数据库的参考基因组,那么一般来说都能找到相对应的ENSID—基因名的数据的。
经过查询,我们发现,TCGA的数据库使用的是Gencode数据库的参考基因组。
关于gencode (https://www.gencodegenes.org/)数据库,我们来做一下简单的介绍。这个数据库别的不干,主要的工作就是来更新人和小鼠的参考基因组的信息。随着基因组研究的深入,人体的参考基因组会发生不断的变化,而这个数据库就是来实时的更新这些基因组的变化。
每一次数据库版本的变化这个数据库都会按照数字网上叠加。目前基因组变化已经到了gencode v34版本。而通过之前TCGA的图,我们可以看到,TCGA的基因组由于是之前注释的,所以是gencode v22版本。我们可以点击这个数据库当中的Human-Release History就可以看到作用的版本变化了。
由于是22版本,进一步的点击22的就可以看到这个版本的所有相关信息了。
以上只是来简单的介绍了一下gencode的数据库,进一步的来了解TCGA是通过哪个数据库来进行比对的。如果大家以后又要比对二代测序的数据的话,就可以在这里下载参考基因组的。但是如果我们要进行基因转换的话,需要在这里下载数据嘛,首先肯定是可以的,但是我们也有更简单的方法,那就是在UCSC XENA的数据库里面,已经把gencode v22的信息整理好了,我们直接下载就行了。