世上至强 植物 phasiRNA 数据分析流程!
写在前面
没错,标题党就是我!
这几天在忙课题的一些东西,其中涉及到一些 PhasiRNA 数据分析。讨论了一下,发现了一些陈年老 bugs。主要原因在于需求变了,所以代码逻辑也事实上需要更新。
更新了逻辑,准确性提高了
估计花了两个多小时,定位到了逻辑可调整的位置,一顿乱改。测试了下来,
水稻大概112套小RNA测序数据,开 60 个线程,不到两分钟,鉴定完出所有PHAS位点。我印象中 30M 的reads,即使是单线程也只是50s左右?逻辑调整,可能还是稍微有点影响。不过没啥关系。
出来的结果,似乎假阳性有一定的降低。当然本身结合下游过滤步骤,假阳性其实 很低。
增加了出图步骤,方便人工校准
前述,海南道明寺和小庭子在夏老师的指导下,对数据库做了一次不错的更新,增加了 PHAS位点的可视化。
感兴趣的可以登录 http://plantsrna.org/ 查看。
事实上,这个非常实用。人工校准,可以说是目前小RNA数据分析绝不可少的步骤。当然,在数据库上,重点就在于用户可以查看。图片是使用 ggplot2 绘制的,数据则是 python 脚本处理的。这个图的绘制方式,其实是文献中常见的PHAS位点可视化方式。项目这段时间不是我的工作重点,所以我前面主要只做了解。其中可以加速的步骤有很多,最简单的包括 py准备数据时可以注意内存损耗和频繁遍历,R绘图的调用要考虑终端调用的成本。
既然流程更新了,很明显,我认为这个可视化确实实用(Emmm,值得进一步加速),于是用 JIGplot 实现了类似的图。
是的,JIGplot 直接可以输出可交互的图片。然而在此处没啥用。不过 JIGplot 其实支持直接出图~~ 测试了下,大概2600+个 PHAS Loci。
单线程的情况下 10分钟搞定!换句话说,如果是开 60个线程,其实...加上开销,我估计 一分钟 搞定,没啥问题。
题外话,IGV-sRNA
还是要提一下,IGV-sRNA,我自认为这个工具应是目前植物小RNA数据分析必备!当然,其人工校正 PHAS 位点的部分可以用通过上线取代。但是他的交互,和多组学数据整合,以及其他专门定制的植物小RNA数据人工探索功能,几乎是无法被取代~~~还是贴一下张图。
说实话,真的流弊,而且有用。之前我做的部分改进已经PR到IGV官方版并被接收啦。
写在最后
这里贴上之前写了一半的推文,我应是不会完善他了。不过希望我的朋友们明白,我一直都会是积极乐观,也非常感谢各位的关注和支持。
Emmm... 最后还是要补充,流程属于sRNAminer的一部分,一个高效(超高速)且跨平台(超顺手)的 植物小RNA 数据分析工具,不过我估计他不会太快面世,毕竟....还有很多其他东西要整。所以感兴趣的,直接给PI: rxia@scau.edu.cn 丢邮件。
当然,如果你有不错的物种或者数据,比如课题组做了某个物种的基因组测序和小RNA测序,那么应该试试 sRNAanno 的小RNA注释服务http://plantsrna.org/。免费且快速,高效而专业。