GEO芯片探针注释

GEO数据库中

https://www.ncbi.nlm.nih.gov/geo/

存储着大量的来源于各种平台(Platforms)的数据:

基于Technology,又可分为以下几大类:

芯片主要以Affymetrix、Agilent、Illumina(对!Illumina不只会测序)这三家为主,而基于不同的使用目的和技术革新,每家又发布了一系列的芯片平台,以Affy为例,在GEO数据库中共有1200+个平台(每个平台在GEO中对应一个GPL*编号):

注:Affymertix检测样本量最多的10个平台,其中HG-U133_Plus_2已达到100000+个样本!

对于GEO中的每套芯片数据(每套数据在GEO中对应一个GSE*编号),其都会对应一个或多个平台,即数据由一个或多个芯片平台产生并放置在同一个GSE*编号下。

以GSE3933为例,该数据集收录由3个平台(GPL2695、GPL3044、GPL3289)检测的共计112个样本的基因表达数据:

虽说是基因表达数据,但是GEO数据库中极少可以直接下载到基因水平的表达数据,基本上都需要经过数据的预处理或是简单的探针对应基因的操作,所以绕不开的步骤就是得到探针与基因的对应关系。当然对于不同公司、不同类别的芯片,其探针命名方式,以及最终与基因的对应关系是有区别的,所以如何得到探针注释将是生信分析前必须要考虑的问题。

小编列举3种方式供大家参考:

1、GEO数据库在线下载:

以上示GPL2695平台为例,其具体信息可以通过如下链接查看:

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL2695

页面下拉可见探针注释信息,如下:

可见共有44160个探针记录,两种方式可下载,View full table:

第一列即探针名,也常为GSE*_series_matrix.txt的第一列,其后则是每个探针的具体注释信息。

而点击Annotation SOFT table会直接下载一个压缩文件

ftp://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL2nnn/GPL2695/annot/GPL2695.annot.gz

解压后可用notepad++等文本编辑软件打开,再拷贝到excel中查看,格式如下:

这款芯片是十几年前的芯片,其实对于大多数芯片来讲,View full table中即可得到探针对应的基因,所以如果View full table中刚好没有,则可以下载Annotation SOFT table文件试试!

实在不行,还可参考将View full table中的GB_LIST转化为Gene Symbol:

https://support.bioconductor.org/p/61827/

此种下载探针注释文件的好处在于,每套数据都会给定探针的注释信息,不用考虑从其他地方苦苦寻找,所以下载GEO数据的时候就可以顺便下载探针注释文件!

2、Bioconductor Annotation Packages

https://bioconductor.org/packages/release/data/annotation/

部分注释包如下:

如上就是比较常见的几款Affy芯片的探针注释包,对于后续用R进行统计分析的小伙伴来说,bioconductor中收集的各种探针注释包是个不错的选择,使用select函数即可从注释包中轻松提取探针对应的基因信息!

3、biomaRt

http://www.bioconductor.org/packages/release/bioc/html/biomaRt.html

基于多种数据库进行数据转换:

所以,biomaRt的全面和强大并不仅仅局限于探针到基因的对应关系,甚至在生信分析过程中你会经常看到或用到它,当然,你所能用它解决的问题取决于你对其了解的程度!

library(biomaRt)

mart = useMart("ensembl", dataset = "hsapiens_gene_ensembl")

查看biomaRt中集成的Affy注释包:

知道了数据的平台就可以做探针-基因提取啦,如affy_hg_u95b:

probes2genes = getBM(attributes = c("affy_hg_u95b", "hgnc_symbol"), filters = "affy_hg_u95b", values = probes, mart = mart)

当然,能做探针注释的工具多如牛毛,比如大名鼎鼎的DAVID,GSEA等工具都集成了ID convert的功能,这些工具的区别在于其所基于的数据库,所以不同工具得到的结果可能会有一些差异,小编在钻了几次牛角尖之后放弃了寻找所谓注释最好最全的方法,还是用的顺手就好!

(0)

相关推荐

  • R语言GEO数据挖掘01-数据下载及提取表达矩阵

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. 这一节的内容包括应用 GEOquery包下载芯片数据,提取表达矩阵,提取m ...

  • 芯片探针序列的基因组注释

    这是我第二次在标题上写重磅!价值一千元的代码,虽然下面的技能或者说代码对我来说是非常简单啦,但是在有需求的粉丝看来真正的价值不可估量. 第一次是:TCGA的28篇教程-风险因子关联图-一个价值1000 ...

  • 第一个万能芯片探针ID注释平台R包

    昨天发布了 GEO数据库中国区镜像横空出世,粉丝们都很happy,因为确实解决了他们的一个拦路虎,以后下载GEO数据再也不用去网吧了.然后开始接近粉丝们的第二个需求,就是探针的ID注释问题.这是一个系 ...

  • 第二个万能芯片探针ID注释平台R包

    整合全部表达芯片平台的soft文件并且提取基因symbol和探针对应关系 前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种biocondu ...

  • 第三个万能芯片探针ID注释平台R包

    下载全部表达芯片平台的探针的碱基序列自主注释到基因ID 前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种bioconductor包的方法, ...

  • 芯片探针序列的基因注释已经无需你自己亲自做了

    第一次是:TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案 第二次是:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 其中第二个教程是纯粹的R代码技巧,怕粉丝看不懂,我 ...

  • 芯片探针ID的基因注释以前很麻烦

    最近在答疑群里收到一个很经典的提问,就是: 请问各位老师,GPL570芯片中应该有部分基因是LncRNA,能否通过基因重注释的方式把有意义的LncRNA筛选出来呢?R语言能否实现呢? 而且学生特别的好 ...

  • (16)芯片探针与基因的对应关系-生信菜鸟团博客2周年精选文章集

    这个我非常喜欢,目录如下: 用R获取芯片探针与基因的对应关系三部曲-bioconductor 用R获取芯片探针与基因的对应关系三部曲-NCBI下载对应关系 gene的各种ID转换终结者-biocond ...

  • 下载所有芯片探针序列并且写成fasta文件

    选择在GEO官网的GPL平台下载 : https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21827 rm(list = ls())  ## 魔 ...

  • 你希望这个探针注释到蛋白编码基因还是miRNA的基因呢

    在全网最系统的表达芯片数据处理教程我没有做过多芯片注释的讲解,不过后期推文倒是很多.实际上,很多时候,策略是没有标准的, 比如最近处理大名鼎鼎的hgu133plus2芯片:library(GEOque ...