IGV-基因组浏览器-改造记录(五)

写在前面

IGV是目前广泛使用的基因组浏览器。但在前述的推文中,我们已经提到过,其并没有较多我们做小RNA数据分析或可视化所需的特性。为此,我们已经介绍了四处我们课题组对IGV修改。我的意思是,我们做了的IGV特性增强,远远不止于此。
今天抽空,摆出一个非常简单,却非常有用的特性。

小RNA测序数据特征

小RNA,长度往往在30bp以下。十年前的读长,足以一次将小RNA成熟体测通。换言之,我们得到的都是sRNA全长转录本。高度重复是小RNA数据固有特征。除去较多重复区域产生的sRNA,剩余的sRNA仍然在数据中表现出高丰度。有可能,在10M数据中,某个micro RNA的丰度是1M+。

小RNA数据快速分析逻辑与不足

基于这一数据特征,我们进行miRNA或者phasiRNA挖掘等分析时,我们常常会先进行数据的collaspe,大体是,如果一个sRNA的丰度是1000,那么我们会合并这个reads,并记录为

>id-1000CGATCGATCAGTGTTGGTTTT

随后再进行读段回帖和下游分析。这是一个非常机智的做法,

  1. 因为对于一套“高重复”的数据,直接比对,我们需要处理10M个reads的比对,而collaspe之后,我们只需要处理可能只有10K个reads的比对。(截图不全,时间数倍,对于更高深度,如目前最建议的30M,那么会有更明显的时间缩短)

  2. collapsed之后,数据将占用更少的硬盘,比对结果文件同样减少许多。(数据量较少,对于更高深度,如目前最建议的30M,那么会有更明显的硬盘空间节省)

一切看起来都没有问题,但当我们想要在IGV上展示时,我们会发现,问题出现了。collasped的reads比对到genome的bam,无法在IGV上正常显示出reads的丰度。
如下,

可以看到Collasped之后,看到的覆盖率,事实上是uniqreads的数目,从左侧,40+,而实际数据应该是 1700+。错误的展示覆盖率,会影响我们做真实的判断。

改造IGV使其实时解析.collasped.fa.bam

解决这个问题,其实一样比较简单,我们可以改造IGV(而事实上,我们已经在之前的版本支持了,只是没有推文)。**改造之后,我们可以直接在IGV导入collasped之后的bam文件,同时可以得到实际数据应该有的覆盖率**。

不止于此!为了加速IGV,事实上,我们需要使用其downsample的特性,然而,使用这一特性意味着,低丰度的reads会被忽略,如左图missing部分。我们可以看到 ,当我们进行实时解析mc.fa的时候,就没有这种问题。因为我们需要的绘图时间。

(0)

相关推荐

  • 在果蝇探索PRC复合物(逆向收费读文献2019-18)

    系列目录 2019-10.预测BRCA基因功能缺陷的HRDetect基因集(逆向收费读文献) 2019-11 BRCA的甲基化信号分型(逆向收费读文献2019-11)赠送一篇文章思路 2019-12  ...

  • 转录组入门(mac 版本)

    软件安装 安装bioconda: 去官网下载和自己电脑系统一样的版本 https://conda.io/miniconda.html 下载完后,双击解压,然后cd 到文件目录,开始安装. # 安装 b ...

  • 【直播】我的基因组22:用IGV查看具体某个位点是否变异

    下载IGV和导入文件的方法我就不多说了,可以直接在windows平台下使用,就跟你操作QQ一样,自己摸索就好了! 著名芬兰运动员Eero Mäntyranta,他拿过七枚奥运奖牌.他的血红细胞远超正常 ...

  • 探究某个基因的外显子覆盖度情况【直播】我的基因组87

    一般情况下,我们得到了测序reads在基因组的比对情况文件bam格式的,里面的信息非常多,如果我想特定的查看某个基因的情况,那么我们可以选择IGV等可视化工具,但它并不是万能的,因为即使是一个基因,它 ...

  • 直播我的基因组(第一阶段)完整目录

    最近的全国巡讲不少人问到我两年前的直播基因组系列教程的完整目录,这里先放出直播我的基因组(第一阶段)完整目录.(悄悄告诉你,后台回复直播可以拿到精排版EXCEL表格!)(然后,点击阅读原文也可以拿到可 ...

  • 看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析

    距离公布要带500个优秀本科生入门生物信息学的活动不到一个月,虽然真正入选不到一百,但是培养成绩喜人,出勤率接近百分之百,大部分人在短短两个星期就完成了R基础知识学习,Linux认知,甚至看完了转录组 ...

  • 修改IGV基因组浏览器源码,做一个自己需要的浏览器

    写在前面 从图片来看,即小RNA的reads展示在染色体上,并用长度做可视化.这个需求,其实拿起任何一门语言,手写一个.svg就可以搞定了.只是读取read alignment数据想想比较辛苦.有比较 ...

  • IGV-基因组浏览器-改造记录(一)

    我一直都相信, 只要有足够长的时间,没有什么事情是我们做不到的. 我也明白, 人的生命是有限的,所以追求的东西应该尽可能少. 我只是没想到, 很多时候,不是你没时间,而是你身边的人,等不了.而事实上, ...

  • IGV-基因组浏览器-改造记录(二)

    写在前面 还有两个小时....似乎还是有点紧张.想想,那就写写微信推文. IGV改造系列,一直会继续,直到或许是我们觉得似乎没有改造的必要. 在前述的改造记录中(https://www.jianshu ...

  • IGV-基因组浏览器-改造记录(三)

    写在前面 前面已经做了两次IGV浏览器的改造.在进行第二次改造后,我们会发现一个明显的需求.即,二级结构上同时附加每个碱基的测序深度(类似表达量),那么将能更好的帮助判断miRNA或者特殊的sRNA二 ...

  • IGV-基因组浏览器-改造记录(四)

    写在前面 前述,我们已经对IGV进行了超过三次改造,同时我也写了三个推送.写IGV改造系列推送的主要原因,事实是作为课题组成员使用改造的IGV时的参考教程. 在上一次RNAfold的窗口上,我们增加了 ...

  • IGV-基因组浏览器-改造记录(六)

    写在前面 经过了前面的五次IGV改造,我以为这个系列可能就到此为止了. 然而在近期的数据分析过程中,我们仍然发现了一个新的需求: 在展示sRNA reads的时候,只看某个长度的reads,比如植物的 ...

  • IGV-基因组浏览器-改造记录(七)

    写在前面 活着的软件,不会停止更新.只是每一个软件更新(对外开放新版本)的频率不同.曾经TBtools平均每天一更,当然现在已经很长时间不更新了,或者确切地说,并不那么频繁地推出新版本了.这或许有两个 ...

  • 改造-基因组浏览器-IGV(九)- 快速[t]BlastN结果

    写在前面 高通量测序技术普及,大量物种基因组被测序.组装质量逐步提高,但基因结构注释的质量则一如既往的让人担心.错误的基因结构注释,可能会使得你得到错误的结果.比如: 不准确的基因结构注释,使得编码蛋 ...

  • IGV-sRNA,改造出一个适合小RNA分析的基因组浏览器

    写在前面 IGV是我认知范围内,得到最广泛使用的基因组浏览器.作为一个强大的软件,其支持 各种测序数据的可视化,但对于小RNA测序数据的支持,却仍然一般.于是,我对其进行了几次小的修改,完成一个相对适 ...