Hisat2-Align 完成!-Win / Mac, 成功伴随失败。
前两天推了下 Hisat2-build 插件,目前尚未对任何人开放。事实上,同一天,我也完成了 Hisat-Align,也就是,可以直接在 Windows 下跑Hisat2了。最近事情比较多,我抽空试了一下,大体简单提一下几点,后面有时间了,再写写推文吧。
香蕉基因组(~500Mb),建立索引,估计需要不到 1G 内存 - 可以说绝大多数非模式生物,应该都能用,假设你有 8Gb 内存,那么你可能做6Gb以下的基因组索引构建问题不大(猜测)。当然,索引其实可以让别人在服务器给你构建好,那就。。。不在担心。
我开了 4 个线程进行比对,大概花了 5min 完成比对,用不超过 700Mb 的内存 - 说实话,真的有点快,可能是因为我直接在固态硬盘上跑的吧。
在windows下,系统文件类型的限制,尝试了非常非常多种方式和想法,无法解决 fifo 的问题,所以不支持.gz 压缩的读段文件,这意味着fq.gz 必须解压之后再align
尝试修改 hisat2 源码,看了下设计之后,调整并失败。相比于 bowtie (hisat2 复用了大量bowtie源码),hisat2 的抽象程度更高了。
使用 java code,尝试直接排序 hisat2 输出的 sam 文件,花了十几分钟,我觉得对于一个 sam 文件(13Gb),这个时间还是太长。选择舍弃这块。
最后,附上两张图,说明 TBtools 的 Hisat2 部分基本完结。
最后呢,
最近一直在想,TBtools 可能挺适合 课堂教学 演示?
赞 (0)