gpl16699平台的探针注释到基因名(十一月学徒投稿)

  • 1金标准当然是去基因芯片的厂商的官网直接去下载

  • 2一种是直接用bioconductor的包

  • 3一种是从NCBI里面下载文件来解析

我作为11月学徒马上就收益了,也总结一下,分享广大粉丝!

现在我完成作业就遇到了gpl16699平台,它并没有bioconductor的包,所以需要下载gpl平台的soft文件,进行注释,官网https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16699 可以看到信息如下:

image-20191104214410497

现在使用r代码完成这个步骤

方法一:使用GEOquery包

rm(list = ls())  ## 魔幻操作,一键清空~
options(stringsAsFactors = F)
library(GEOquery)
gpl=getGEO("GPL16699",destdir = '.')
names(Meta(gpl))
Table(gpl)[1:10,1:2]
ids=Table(gpl)[,c("NAME","GENE_SYMBOL")]
head(ids)
colnames(ids)=c('probe_id','symbol')
head(ids)

这一个方法需要网速保障,并且确保下载的GPL完整,不然会影响后面的操作。

方法二:下载txt文件

在官网https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL16699 下载txt文件

image-20191104214744842

读取它的代码如下:

rm(list = ls())  ## 魔幻操作,一键清空~
options(stringsAsFactors = F)
gpl=read.table("GPL16699-15607.txt",
               header = TRUE,fill = T,sep = "\t",
               comment.char = "#",
               stringsAsFactors = FALSE,
               quote = "")
head(gpl)
colnames(gpl)
ids=gpl[,c("NAME","GENE_SYMBOL")]
head(ids)
colnames(ids)=c('probe_id','symbol')
head(ids)

这个就是gpl16699的探针ID与基因名

image-20191104214939037

对比一下,方法一里面的getGEO函数下载后使用Table提取到的内容,就是方法二的txt文件,后续处理一致。

大功告成!

后续挖掘见生信技能树B站系列教学视频

需要细读表达芯片的公共数据库挖掘系列推文 ;

然后看B站的GEO数据挖掘技巧,基本上该分享的都在B站和GitHub了,目录如下:

  • 第一讲:GEO,表达芯片与R

  • 第二讲:从GEO下载数据得到表达量矩阵

  • 第三讲:对表达量矩阵用GSEA软件做分析

  • 第四讲:根据分组信息做差异分析

  • 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析

  • 第六讲:指定基因分组boxplot指定基因list画热图

  • 第七讲:根据差异基因list获取string数据库的PPI网络数据

  • 第八讲:PPI网络数据用R或者cytoscape画网络图

  • 第九讲:网络图的子网络获取

  • 第十讲:hug genes如何找

(0)

相关推荐

  • R语言GEO数据挖掘01-数据下载及提取表达矩阵

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. 这一节的内容包括应用 GEOquery包下载芯片数据,提取表达矩阵,提取m ...

  • 芯片的探针ID找到基因名-基于R语言-一文就够

    使用bioconductor注释包 如果该芯片平台有对应的bioconductor注释包,只有约90个常用的芯片有! 比如: library(hgu133a.db) ids=toTable(hgu13 ...

  • 你希望这个探针注释到蛋白编码基因还是miRNA的基因呢

    在全网最系统的表达芯片数据处理教程我没有做过多芯片注释的讲解,不过后期推文倒是很多.实际上,很多时候,策略是没有标准的, 比如最近处理大名鼎鼎的hgu133plus2芯片:library(GEOque ...

  • 芯片探针序列的基因注释已经无需你自己亲自做了

    第一次是:TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案 第二次是:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 其中第二个教程是纯粹的R代码技巧,怕粉丝看不懂,我 ...

  • 芯片探针ID的基因注释以前很麻烦

    最近在答疑群里收到一个很经典的提问,就是: 请问各位老师,GPL570芯片中应该有部分基因是LncRNA,能否通过基因重注释的方式把有意义的LncRNA筛选出来呢?R语言能否实现呢? 而且学生特别的好 ...

  • 从基因名到GO注释一步到位

    大部分的生物学高通量数据处理后都是得到基因集,不管是上调下调表达基因集,还是共表达的模块基因集,都是需要注释到生物学功能数据库来看基因集的意义,最常见的是GO/KEGG数据库啦,还有很多其它在Msig ...

  • GEO的数据注释文件没有基因名肿么破?

    写在前面 我们在处理GEO芯片数据的时候,经常会碰到芯片的数据的注释文件没有提供基因名,只有基因的序列.替代的解决办法就是对所有的注释数据来进行批量的blast,利用注释文件提供的序列来通过blast ...

  • GEO芯片探针注释

    GEO数据库中 https://www.ncbi.nlm.nih.gov/geo/ 存储着大量的来源于各种平台(Platforms)的数据: 基于Technology,又可分为以下几大类: 芯片主要以 ...

  • 带有基因名的火山图

    现在很多文章开始出现这样的一种情况,在绘制火山图中,显示我们所关注的基因,那么如何去显示呢?很多人可能会这么做,在绘制普通的火山图之后,使用AI对图进行修改,添加部分基因,但是现在我要介绍的是如何用R ...

  • 多个探针对应一个基因,取平均值或者最大值

    这么简单的问题,总是有人问,而且总是有人不搜索就到处问,本来我是很生气的,后来想一想,应该是我们没有教会大家搜索,也不能全部怪新手. 以前我都是建议大家取最大表达值探针来作为基因的表达量,其实最大值也 ...