芯片探针序列的基因注释已经无需你自己亲自做了

其中第二个教程是纯粹的R代码技巧,怕粉丝看不懂,我还刻意花了一个星期做铺垫:

有两个弊端

根据粉丝的反馈,是有两个问题的,首先是该R包在Windows平台是无法使用的,然后是大家下载参考基因组总是搞错!

 

还专门有粉丝发邮件求助,问我为什么,他跟着我的教程:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 报错:ERROR: the provided reference sequences include more than 4 billion bases 初步怀疑是电脑配置不够,就升级到了96GB内存,20核心CPU,1.2T硬盘,但是报错依旧!

所以我就让他指明是哪一个步骤代码问题,结果他告诉我下载的1G参考基因组解压后是54G,我的天!

我代码中说的数据库:'Homo_sapiens.GRCh38.dna.toplevel.fa' 因为并没有给出下载的链接,所以导致初学者只能是自己折腾碰壁了,但是正常的生物学背景知识朋友都应该是知道人类参考基因组是3G左右啊!如果你下载的是toplevel版本的基因组:Homo_sapiens.GRCh38.dna.toplevel.fa.gz,文件大小1G,解压后54G!!!实际上用它对应的primary版本就够了:Homo_sapiens.GRCh38.dna.primary_assembly.fa.gzprimary的版本中是不包括haplotype info的,而top level中会包含大量的变异信息,而这部分是很冗余并且一般也用不太到。

其实你可以使用我们的AnnoProbe包

目前仍然是 host 在GitHub上面:https://github.com/jmzeng1314/annoprobe

如果大家觉得有帮助,后续我会考虑抽时间去发布在bioconductor里面,甚至写成SCI文章供大家引用。

以前大家是需要自己下载探针序列进行参考基因组比对后注释,比如我在 (重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 提到的例子;关于

Human LncRNA Expression Array V4.0 AS-LNC-H-V4.0 20,730 mRNAs and 40,173 LncRNAs 8*60K

这个芯片探针的重新注释,一般文献里面的描述是:

  • probe sequences 探针序列下载

  • uniquely mapped to the human genome (hg19) by Bowtie without mismatch. 参考基因组下载及比对

  • chromosomal position of lncRNA genes based on annotations from GENCODE (Release 23)坐标提取,最后使用bedtools进行坐标映射

但是大部分人是没有linux操作能力,无法完成这个流程,使用我们的包可以轻轻松松达到探针注释的目的!

首先下载安装我们的AnnoProbe包

library(devtools)
install_github("jmzeng1314/AnnoProbe")
library(AnnoProbe)

因为这个包里面并没有加入很多数据,所以理论上会比较容易安装,当然,不排除中国大陆少部分地方基本上连GitHub都无法访问。

然后使用AnnoProbe包获取探针注释信息

# GPL21827[Accession] - GEO DataSets Result - NCBI - NIH
# https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21827
gpl='GPL21827'
probe2gene=idmap(gpl,type = 'pipe')
head(probe2gene)

轻轻松松的几行代码,就拿到了探针的注释信息哦

是不是很激动,如果你感兴趣这个R包开发过程,查看前面的教程:

(0)

相关推荐

  • 保姆级参考基因组及其注释下载教程(图文详解)

    目录一.什么是参考基因组和基因组注释?二.参考基因组版本命名1.常用人参考基因组对应表2.常用小鼠参考基因组对应表三.下载1.NCBI2.Ensemble3.GENCODE4.UCSC5.iGenom ...

  • DNA各种序列格式介绍

    DNA各种序列格式介绍

  • 宏基因组:一日一工具之-kneaddata -完成质控加去宿主

    一日一条命令-kneaddata 写在前面 kneaddata是一分结合质控和去除宿主的过程,集合了两个软件Trimmomatic和 Bowtie2,Trimmomatic作为质控软件应用的非常多,但 ...

  • 芯片探针序列的基因组注释

    这是我第二次在标题上写重磅!价值一千元的代码,虽然下面的技能或者说代码对我来说是非常简单啦,但是在有需求的粉丝看来真正的价值不可估量. 第一次是:TCGA的28篇教程-风险因子关联图-一个价值1000 ...

  • 芯片探针ID的基因注释以前很麻烦

    最近在答疑群里收到一个很经典的提问,就是: 请问各位老师,GPL570芯片中应该有部分基因是LncRNA,能否通过基因重注释的方式把有意义的LncRNA筛选出来呢?R语言能否实现呢? 而且学生特别的好 ...

  • 下载所有芯片探针序列并且写成fasta文件

    选择在GEO官网的GPL平台下载 : https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21827 rm(list = ls())  ## 魔 ...

  • GEO芯片探针注释

    GEO数据库中 https://www.ncbi.nlm.nih.gov/geo/ 存储着大量的来源于各种平台(Platforms)的数据: 基于Technology,又可分为以下几大类: 芯片主要以 ...

  • (16)芯片探针与基因的对应关系-生信菜鸟团博客2周年精选文章集

    这个我非常喜欢,目录如下: 用R获取芯片探针与基因的对应关系三部曲-bioconductor 用R获取芯片探针与基因的对应关系三部曲-NCBI下载对应关系 gene的各种ID转换终结者-biocond ...

  • 芯片的探针ID找到基因名-基于R语言-一文就够

    使用bioconductor注释包 如果该芯片平台有对应的bioconductor注释包,只有约90个常用的芯片有! 比如: library(hgu133a.db) ids=toTable(hgu13 ...

  • lncRNA芯片的探针到底该如何注释到基因组信息呢

    昨天发布了 GEO数据库中国区镜像横空出世,粉丝们都很happy,因为确实解决了他们的一个拦路虎,以后下载GEO数据再也不用去网吧了.但是部分粉丝提出了更过分的要求,说自己没有服务器,我以前的教程:( ...

  • 第一个万能芯片探针ID注释平台R包

    昨天发布了 GEO数据库中国区镜像横空出世,粉丝们都很happy,因为确实解决了他们的一个拦路虎,以后下载GEO数据再也不用去网吧了.然后开始接近粉丝们的第二个需求,就是探针的ID注释问题.这是一个系 ...

  • 第二个万能芯片探针ID注释平台R包

    整合全部表达芯片平台的soft文件并且提取基因symbol和探针对应关系 前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种biocondu ...