芯片探针ID的基因注释以前很麻烦

最近在答疑群里收到一个很经典的提问,就是:

  • 请问各位老师,GPL570芯片中应该有部分基因是LncRNA,能否通过基因重注释的方式把有意义的LncRNA筛选出来呢?R语言能否实现呢?

而且学生特别的好学,已经懂得去搜索我们已有的1.3万篇教程,找到了芯片探针序列重新注释的流程,但是我昨天就说到过:芯片探针序列的基因注释已经无需你自己亲自做了, 肯定是学员没有追我们的公众号最新教程,不过这个不能怪他。这个是公众号的弊端,太多冗余信息让大家分心,与我们真正的知识分享初衷背道而驰了。

所以呢,其实使用我们的包,安装方法说到过:芯片探针序列的基因注释已经无需你自己亲自做了, ,使用起来也非常简单:

library(AnnoProbe)
ids=idmap('GPL570',type = 'soft')
head(ids)

仅仅是一句话,就拿到了这个平台的探针的注释信息,如下:

但是呢,我们还是探索一下,因为这个是下载的GPL的soft文件里面的注释信息,所以可以看到是有一些探针居然是对应多个基因,其实是因为这些基因本身坐标就是有overlap,所以呢, 探索的代码就会稍微复杂一点。

ids=ids[nchar(ids[,2])>1,]
ids1=ids[grepl('///',ids[,2]),]
ids2=ids[!grepl('///',ids[,2]),]
# 我觉得下面的函数写的很差,运行太慢
tmp = do.call(rbind,apply(ids1,1,function(x){
  x[1];x[2]
  data.frame(ID=x[1],symbol=strsplit(x[2],' /// ')[[1]])
})
)
ids=rbind(ids2,tmp)
anno=annoGene(ids$symbol,"SYMBOL")
ids=merge(ids,anno,by.x = 'symbol',by.y='SYMBOL',all.x = T)
sort(table(ids$biotypes))

可以看到,五万多个探针里面,真正的蛋白编码基因的探针只有4万,剩余的一万多都是可以进行探索的。

但是呢,这个并不是最佳的选择,因为我们并没有对这个GPL平台的探针的碱基序列进行参考基因组比对后,自己重新注释,而还是使用的GPL里面的soft文件的信息。

我们看看其它芯片文献里面的GPL570探针ID的基因注释信息

比如Published: 12 March 2019的文章:Identification of Key Long Non-Coding RNAs in the Pathology of Alzheimer’s Disease and their Functions Based on Genome-Wide Associations Study, Microarray, and RNA-seq Data

Briefly, we first downloaded the reference sequences of these potentially AD-related lncRNAs in FASTA format from NONCODE database . 
Second, probe sets of the microarrays were aligned to the lncRNA sequences using SeqMap tool, and the lncRNA-specific probe sets were obtained which contain at least four probes uniquely mapped to the lncRNA sequences without mismatch. 

或者

Briefly, probe sets of HG-U133_Plus_2.0 array were aligned to the human genome (GRCh38) and lncRNA gene sequence from GENCODE (release 23) using SeqMap tool with no mismatch [49]. 
Then lncRNA-specific probes were obtained by mapping the genomic locations of probes to the genomic locations of lncRNAs. 
Finally, expression data of 2332 lncRNA were obtained for further analysis.

又或者

we obtained 3215 probes (probe sets) covering 2330 lncRNAs for Affymetrix HG-U133_Plus_2.0 array and 855 probes (probe sets) covering 663 lncRNAs for Affymetrix HG-U133A array, respectively. The expression data of multiple probes (probe sets) mapping to the same lncRNA were integrated by using the arithmetic mean to represent the expression level of single lncRNA.

total of 598 probes corresponding to 452 lncRNAs were obtained for the HG-U133A microarray, while 5,654 probes were matching with 3,793 lncRNAs in the HG-U133 Plus 2.0 microarray. 

又或者

Briefly, the probe sets of Affymetrix HG‐U133 Plus 2.0 were retrieved from the Affymetrix website (http://www.affymetrix.com). We then re‐mapped those probes to the chromosomal positions of the ncRNAs derived from GENCODE (release 24, GRCh38) with no mismatch 14. A total of 2380 probes and 2118 corresponding ncRNA genes were obtained. When multiple probes mapped to the same ncRNA, we used the arithmetic mean of the probe intensities.

参考文献:

  • https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5341997/

  • https://www.ncbi.nlm.nih.gov/pubmed/26183581

  • https://www.ncbi.nlm.nih.gov/pubmed/26362431

  • https://www.ncbi.nlm.nih.gov/pubmed/27105492

  • https://onlinelibrary.wiley.com/doi/full/10.1002/cam4.1047

  • http://dx.doi.org/10.4048/jbc.2018.21.e39

既然每个文献都不一样

而且大部分人是没办法自主注释的,所以我们理论上应该是有一个平台代替大家做全部的芯片探针的碱基序列的重新注释。

我们前面提到的:芯片探针序列的基因注释已经无需你自己亲自做了 里面的AnnoProbe包已经在帮大家一个个的注释啦。

敬请期待全部GPL的重新注释。

(0)

相关推荐

  • R语言GEO数据挖掘01-数据下载及提取表达矩阵

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. 这一节的内容包括应用 GEOquery包下载芯片数据,提取表达矩阵,提取m ...

  • 芯片探针序列的基因注释已经无需你自己亲自做了

    第一次是:TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案 第二次是:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 其中第二个教程是纯粹的R代码技巧,怕粉丝看不懂,我 ...

  • 芯片的探针ID找到基因名-基于R语言-一文就够

    使用bioconductor注释包 如果该芯片平台有对应的bioconductor注释包,只有约90个常用的芯片有! 比如: library(hgu133a.db) ids=toTable(hgu13 ...

  • 第一个万能芯片探针ID注释平台R包

    昨天发布了 GEO数据库中国区镜像横空出世,粉丝们都很happy,因为确实解决了他们的一个拦路虎,以后下载GEO数据再也不用去网吧了.然后开始接近粉丝们的第二个需求,就是探针的ID注释问题.这是一个系 ...

  • 第二个万能芯片探针ID注释平台R包

    整合全部表达芯片平台的soft文件并且提取基因symbol和探针对应关系 前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种biocondu ...

  • 第三个万能芯片探针ID注释平台R包

    下载全部表达芯片平台的探针的碱基序列自主注释到基因ID 前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种bioconductor包的方法, ...

  • 芯片探针序列的基因组注释

    这是我第二次在标题上写重磅!价值一千元的代码,虽然下面的技能或者说代码对我来说是非常简单啦,但是在有需求的粉丝看来真正的价值不可估量. 第一次是:TCGA的28篇教程-风险因子关联图-一个价值1000 ...

  • GEO芯片探针注释

    GEO数据库中 https://www.ncbi.nlm.nih.gov/geo/ 存储着大量的来源于各种平台(Platforms)的数据: 基于Technology,又可分为以下几大类: 芯片主要以 ...

  • (16)芯片探针与基因的对应关系-生信菜鸟团博客2周年精选文章集

    这个我非常喜欢,目录如下: 用R获取芯片探针与基因的对应关系三部曲-bioconductor 用R获取芯片探针与基因的对应关系三部曲-NCBI下载对应关系 gene的各种ID转换终结者-biocond ...

  • lncRNA芯片的探针到底该如何注释到基因组信息呢

    昨天发布了 GEO数据库中国区镜像横空出世,粉丝们都很happy,因为确实解决了他们的一个拦路虎,以后下载GEO数据再也不用去网吧了.但是部分粉丝提出了更过分的要求,说自己没有服务器,我以前的教程:( ...