GEO芯片探针注释
GEO数据库中
https://www.ncbi.nlm.nih.gov/geo/
存储着大量的来源于各种平台(Platforms)的数据:
基于Technology,又可分为以下几大类:
芯片主要以Affymetrix、Agilent、Illumina(对!Illumina不只会测序)这三家为主,而基于不同的使用目的和技术革新,每家又发布了一系列的芯片平台,以Affy为例,在GEO数据库中共有1200+个平台(每个平台在GEO中对应一个GPL*编号):
注:Affymertix检测样本量最多的10个平台,其中HG-U133_Plus_2已达到100000+个样本!
对于GEO中的每套芯片数据(每套数据在GEO中对应一个GSE*编号),其都会对应一个或多个平台,即数据由一个或多个芯片平台产生并放置在同一个GSE*编号下。
以GSE3933为例,该数据集收录由3个平台(GPL2695、GPL3044、GPL3289)检测的共计112个样本的基因表达数据:
虽说是基因表达数据,但是GEO数据库中极少可以直接下载到基因水平的表达数据,基本上都需要经过数据的预处理或是简单的探针对应基因的操作,所以绕不开的步骤就是得到探针与基因的对应关系。当然对于不同公司、不同类别的芯片,其探针命名方式,以及最终与基因的对应关系是有区别的,所以如何得到探针注释将是生信分析前必须要考虑的问题。
小编列举3种方式供大家参考:
1、GEO数据库在线下载:
以上示GPL2695平台为例,其具体信息可以通过如下链接查看:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL2695
页面下拉可见探针注释信息,如下:
可见共有44160个探针记录,两种方式可下载,View full table:
第一列即探针名,也常为GSE*_series_matrix.txt的第一列,其后则是每个探针的具体注释信息。
而点击Annotation SOFT table会直接下载一个压缩文件
ftp://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL2nnn/GPL2695/annot/GPL2695.annot.gz
解压后可用notepad++等文本编辑软件打开,再拷贝到excel中查看,格式如下:
这款芯片是十几年前的芯片,其实对于大多数芯片来讲,View full table中即可得到探针对应的基因,所以如果View full table中刚好没有,则可以下载Annotation SOFT table文件试试!
实在不行,还可参考将View full table中的GB_LIST转化为Gene Symbol:
https://support.bioconductor.org/p/61827/
此种下载探针注释文件的好处在于,每套数据都会给定探针的注释信息,不用考虑从其他地方苦苦寻找,所以下载GEO数据的时候就可以顺便下载探针注释文件!
2、Bioconductor Annotation Packages
https://bioconductor.org/packages/release/data/annotation/
部分注释包如下:
如上就是比较常见的几款Affy芯片的探针注释包,对于后续用R进行统计分析的小伙伴来说,bioconductor中收集的各种探针注释包是个不错的选择,使用select函数即可从注释包中轻松提取探针对应的基因信息!
3、biomaRt
http://www.bioconductor.org/packages/release/bioc/html/biomaRt.html
基于多种数据库进行数据转换:
所以,biomaRt的全面和强大并不仅仅局限于探针到基因的对应关系,甚至在生信分析过程中你会经常看到或用到它,当然,你所能用它解决的问题取决于你对其了解的程度!
library(biomaRt)
mart = useMart("ensembl", dataset = "hsapiens_gene_ensembl")
查看biomaRt中集成的Affy注释包:
知道了数据的平台就可以做探针-基因提取啦,如affy_hg_u95b:
probes2genes = getBM(attributes = c("affy_hg_u95b", "hgnc_symbol"), filters = "affy_hg_u95b", values = probes, mart = mart)
当然,能做探针注释的工具多如牛毛,比如大名鼎鼎的DAVID,GSEA等工具都集成了ID convert的功能,这些工具的区别在于其所基于的数据库,所以不同工具得到的结果可能会有一些差异,小编在钻了几次牛角尖之后放弃了寻找所谓注释最好最全的方法,还是用的顺手就好!