TCGA数据库 ID转换问题

写在前面

我们在使用TCGA数据库的时候,从TCGA数据库下载到的数据,使用的原始数据ID是ENS ID。对于这样的ID号,我们一方面不认识他们是什么,另外如果要做下有分析的话,很多数据库也不接受这样的输入,所以就需要转换为gene symbol。

前几天我们也实验过,如果使用很多ID 转换工具的话,很多基因是转换不过来的。尤其是TCGA这种ENSID+version的就更加不容易转换了,那么怎么才能全部的转换这些ID成为基因名呢?今天我们就来简单的介绍一下。

二代测序分析的简单过程

在解释怎么转换之前,首先还是要知道这样的ID是怎么来的。这个就简单的介绍一下二代测序分析的过程。

我们在进行基因测序的时候,获得的原始数据只有fastq的文件,这个文件只是一段一段的基因序列。

我们在获得这些的时候,并不知道我们测出来的这些序列是来自于哪个基因,所以就需要对这些序列进行比对(mapping),但是机器也不知道要往哪里比对,所以我们就需要给计算机提供一个参考基因组。这个基因组是一个人类所有基因的基因ID+相关序列的fasta的文件。经过比对,我们就知道了我们测序出来的那些序列是来自于什么基因了。

通过以上的简单介绍,我们只需要知道TCGA使用的是什么数据库的参考基因组,那么一般来说都能找到相对应的ENSID—基因名的数据的。

经过查询,我们发现,TCGA的数据库使用的是Gencode数据库的参考基因组。

genecode数据库

关于gencode (https://www.gencodegenes.org/)数据库,我们来做一下简单的介绍。这个数据库别的不干,主要的工作就是来更新人和小鼠的参考基因组的信息。随着基因组研究的深入,人体的参考基因组会发生不断的变化,而这个数据库就是来实时的更新这些基因组的变化。

每一次数据库版本的变化这个数据库都会按照数字网上叠加。目前基因组变化已经到了gencode v34版本。而通过之前TCGA的图,我们可以看到,TCGA的基因组由于是之前注释的,所以是gencode v22版本。我们可以点击这个数据库当中的Human-Release History就可以看到作用的版本变化了。

由于是22版本,进一步的点击22的就可以看到这个版本的所有相关信息了。

TCGA ID 对照信息下载

以上只是来简单的介绍了一下gencode的数据库,进一步的来了解TCGA是通过哪个数据库来进行比对的。如果大家以后又要比对二代测序的数据的话,就可以在这里下载参考基因组的。但是如果我们要进行基因转换的话,需要在这里下载数据嘛,首先肯定是可以的,但是我们也有更简单的方法,那就是在UCSC XENA的数据库里面,已经把gencode v22的信息整理好了,我们直接下载就行了。

(0)

相关推荐

  • 转录组测序看基因融合事件的临床意义

    通常,基因融合会产生基因融合转录本和嵌合蛋白产物,它们已被用作治疗的靶标.众所周知的例子是靶向BCR-ABL1基因融合的格列卫(Imantinib)和靶向EML4-ALK基因融合的克唑替尼.所以很多癌 ...

  • 不研究肿瘤,就用不了TCGA的测序数据库,那要用啥……

    要分析测序数据,一般都会想到的是TCGA (当然GEO上也有部分的测序数据).但TCGA上只有肿瘤的相关研究,我们如想要研究其他疾病,甚至研究其他物种的测序数据, 其实可以看点别的,比如上EMBL-E ...

  • TCGA转录组差异分析后多种基因功能富集分析:从GO/KEGG到GSEA和GSVA/ssGSEA(含基因ID转换)

    TCGA转录组数据在完成差异分析后,我们通常希望系统地获取这些成百上千的差异基因的功能信息,帮助我们分析下游实验的思路.面对大量的差异基因,逐个查询基因功能是不切实际的.所以我们需要借助基因功能富集分 ...

  • TCGA数据下载与ID转换

    咱公众号也不能只做一个系列,所以经过深思熟虑,打算将来慢慢增加一些内容,主要有以下几个系列 TCGA数据分析系列 GEO数据分析系列 "老板给一个基因,我该怎么办"系列 文献阅读系 ...

  • 基于TCGA数据库肿瘤免疫细胞浸润分析流程

    分析基本思路: 1.首先我们应该要知道什么是肿瘤的免疫细胞浸润模式,通过一些什么样的原理,可以用什么样的软件进行分析. 肿瘤免疫细胞浸润是指免疫细胞从血液中移向肿瘤组织,开始发挥它的作用,可以从肿瘤组 ...

  • 基因ID转换工具比较

    写在前面 昨天我们介绍了三个ID转换的工具: DAVID.g:Convert 以及 biomart,但是这个工具内置的数据怎么样并不清楚,所以今天就来评价一下这几个工具吧. 数据准备 由于我们使用最多 ...

  • 酷我音乐网ID转换MP3网址(歌词)

    <KUWO音乐网ID转换MP3网址(歌词)>能将酷我音乐网的音乐ID转换为可供外链的MP3网址,如该歌曲配有动态歌词,就会转换为LRC歌词.如果转换成功立即播放.显示同步歌词,并可复制转换 ...

  • 利用TCGA数据库选题,毕业稳了

    利用TCGA数据库选题,毕业稳了

  • 免费资源 | 这份TCGA数据库肿瘤微环境课程,一定能帮助自学生信的你~

    让我们一起科研吧~ 小燕子 肿瘤微环境是当前研究的一个热点,无论是国自然还是发SCI,都是比较热的点,那么,数据挖掘也不例外,很多人喜欢追随这样的热点.(肿瘤微环境是指肿瘤的发生.生长及转移与肿瘤细胞 ...

  • ID转换大全

    实际上掌握了编程的思维,任何一门语言都可以做id转换! 对于初学者来说,这个是非常实用的一个,很多人当初就是因为要做这个转换,才慢慢走入了编程的道路. 使用大部分软件的时候,第一步就是文件数据准备,基 ...

  • TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析

    长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的R ...