在R里面对坐标进行基因组区域注释

坐标注释最简单的生物学应用就是peaks区域的注释,通常我们可以使用linux的各种软件加上gtf等格式的基因组注释信息来完成,在R里面当然也是可以轻松完成的啦!

假设有如下格式的坐标:

> head(pos)
    chr     start       end
1 chr10 100505299 100505300
2 chr10 100505299 100505300
3 chr10 104125494 104125495
4 chr10  11320827  11320828
5 chr10 118691247 118691248
6 chr10 119123605 119123606

这里可以使用大名鼎鼎的Y书开发的ChIPseeker包,加上人类的注释信息包TxDb.Hsapiens.UCSC.hg38.knownGene来进行注释,示例代码如下:

pos=data.frame(chr=str_split(dat$id,':',simplify = T)[,1],
                  start=as.numeric(str_split(dat$id,':',simplify = T)[,2]) )
pos$end=pos$start+1 
pos_anno=as.data.frame(peakAnno)
require(ChIPseeker)
library(org.Hs.eg.db)
library(org.Mm.eg.db)
library(GenomicRanges)
peak <- GRanges(seqnames=Rle(pos[,1]),
                ranges=IRanges(pos[,2], pos[,3]), strand=rep(c("*"), nrow(pos)))
peak
library(TxDb.Hsapiens.UCSC.hg38.knownGene)
txdb=TxDb.Hsapiens.UCSC.hg38.knownGene
peakAnno <- annotatePeak(peak, tssRegion=c(-3000, 3000),
                         TxDb=txdb, annoDb="org.Hs.eg.db")
pos_anno=as.data.frame(peakAnno)

是不是很简单呀!

(0)

相关推荐

  • 转录组学习四(参考基因组及gtf注释探究)

    转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标 ...

  • 能一定程度上代替IGV的R包Gviz绘制基因组区域reads覆盖情况

    很久以前我们介绍过Sushi这个R包可以绘制基因组区域reads覆盖情况,这次我们介绍另外一个功能更强大的R包 Gviz: 全称:Plotting data and annotation inform ...

  • 在R里面对坐标进行映射

    比如把自己制作好的bam文件的坐标,跟提取自gtf文件的坐标信息对应起来,使用GenomicRanges包自带的函数即可. ann1 <- data.frame(   GeneID=c(&quo ...

  • 根据坐标在基因组上面拿到碱基序列来设计引物

    做DNA测序的朋友们一般来说,都会拿到突变位点信息,不管是SNV还是INDEL,都是一个基因组上面的坐标而已.而高通量测序的结果通常是需要做一下实验验证,最常见的就是sanger测序啦,需要设计引物来 ...

  • 如何高效而且优雅地比较多物种的不同基因组区域?

    写在前面 高通量测序技术的普及,带来的是遍地的基因组.昨日,OneKP项目又发了一个Paper[因为很久以前他们就发过,数据也早就可以获取].他们再发多少paper,事实上,我并没有太多感触,因为On ...

  • 视频 | 精细,灵活的基因组区域比较分析功能

    五年前,良好的转录分析实验耗费是10万元:而现在只要10万元可以获得大多数物种染色体水平的基因组:如果说五年前是转录组数据分析的高光时刻,那么现在,自然是基因组,尤其是比较基因组分析的高光时刻. 带着 ...

  • 【R绘图】ggplot2---调整绘图区域大小

    熟悉R绘图的朋友肯定知道,在普通绘图中,图片的大小可以直接在png()和pdf()中指定,而绘图区大小则可以用par()中的mar或mai来指定. 但是在ggplot2中,图片大小依然可以在png和p ...

  • 12-跟着science学习宏基因组uproc注释

    [toc] 写在前面 这部分主要用于注释功能,使用的还是之前分组装的结果(spades) ,其实之前已经对这个组装序列进行过多次物种和功能注释,例如megan一站式注释物种和功能.kraken注释物种 ...

  • 保姆级参考基因组及其注释下载教程(图文详解)

    目录一.什么是参考基因组和基因组注释?二.参考基因组版本命名1.常用人参考基因组对应表2.常用小鼠参考基因组对应表三.下载1.NCBI2.Ensemble3.GENCODE4.UCSC5.iGenom ...

  • lncRNA实战项目-第三步-了解参考基因组及注释文件

    响应生信技能树的号召:lncRNA数据分析传送门 , 一起来一个lncRNA数据分析实战! 下载原始测序数据: 在GEO数据库搜索GSE87182, 这里没有直接给出ftp地址,需要先从BioProj ...