Gene ID 转换工具
我们在研究基因的时候,尤其是在研究高通量数据分析,经常会碰到我们研究的这个数据的基因ID不是我们通常意义上的基因名。拿TCGA的数据举例,TCGA RNA-seq的数据比对的基因是ID是Ensembl数据库的ID号,如果我们拿到这样的ID号的话,有一些分析是进行不下去的,所以需要转化为传统意义上的Gene Symbol。
基因ID转换的工具很多,各个数据库不同的还是在于背景数据库的问题。有时候我们拿到的基因的ID是新的ID号,但是使用的的数据库里面的数据是旧的结果就导致很多ID没办法转换为基因名。我们就介绍几个进行ID转换的工具吧!
对于ID转换的工具而言,其实操作都差不多,我们要做的其实就三步:
提交我们要转换的ID号
选择这个ID号属于什么数据库
选择我们想要转换成什么ID号
DAVID(https://david.ncifcrf.gov/home.jsp),因为很多生信的文章富集分析使用的是这个数据库,所以就导致这个数据库很出名。这个数据库除了可以做富集也是可以做ID的转换的。
我们需要做的就是在ID转换的里面,在填写数据的左边,按照下图当中的操作填入具体的相对应的ID。
点击submit之后,在右边栏当中选择想要转换的ID号,然后点击submit即可。
之前我们在介绍富集分析软件的时候,提到过一个多ID的富集分析软件g:GOST。具体的数据库介绍,可以查看推送的第二条。在这个数据库里面有一个g:Convert(https://biit.cs.ut.ee/gprofiler/convert)的工具,这个工具可以让我们进行ID的转换。
在这个数据库进行ID转换的话,我们不需要选择输入的是什么ID,只需要选择输出什么ID就行。然后就得到想要结果。
另外,这个数据库对于转换的结果,默认的都会添加gene symbol的。所以在输出选择里面是没有gene symbol这个选项的。
另外这个由于这个数据库做富集的时候支持多种不同形式的ID来进行富集。所以在基因转换的时候也是支持的。例如我们输入这些混合的ID,就可以得到所有和这些ID有关的基因名了。
之前在某一个帖子里面提到过id转换的话推荐使用biomart,这次就介绍一下biomart这个数据库。这个数据库是ensembl数据库里面进行id转换的一个工具,数据库的网址是:https://m.ensembl.org/biomart/martview/
我们进入数据库之后第一步是选择我们要转换的物种。
选择完物种之后的话,我们就需要制定输入和输出了。
我们点击Filters就可以就可以选择我们输入什么类型的ID,这个数据库支持这么多类型的输入。
其中第二个GENE里面可以输入多个数据库ID。这里我们可以选择我们输入的ID是什么,在每个数据库参考ID的后面,都有实例让我们来看是不是这样的ID号。
选择好输入好之后的话,我们点击Attributes来指定我们想要导出的ID类型。例如我们选择输出:基因名、染色体位置、基因的起始位置和中止位置。
在选择好之后,我们点击Results就可以获得转换后的结果了。
以上是我们介绍的三个ID转换的数据库。网络版本的转换工具有一个不好的地方在于如果我们转换的ID过多的话,有可能卡,或者说就查过它的最大限制了。这个时候往往使用一些代码行的工具可能刚好用一些。代码行的话,biomart也是有相对于的R包的。有兴趣的可以学习一下。
那么这几个数据库到底哪个更好一些的呢?我们明天利用一些数据来进行实验检测一下吧。