GTX.Zip--基因领域唯一100%安全无误的企业级压缩大咖!
目前国内约莫有85台illumina的最新版novaseq测序仪,通常可以做到70元/Gbp的单价,一个人重测序标准的30X,也就是(3G X 30)90Gbp,才6300块钱而已。一个人标准的200X外显子测序,也就是(0.05G X 200) 10Gbp的数据,才700块钱而已。但是拿到数据只是噩梦的开始,首先数据在公司需要邮寄或者ftp下载方式才能到达自己手上,人重测序的90Gbp碱基也是2070亿个字母应该占计算机的192.7838G的空间,使用gzip压缩后也还需要耗费70G左右的硬盘空间。而后续的生物信息学流程会多次使用不同的软件产生各种各样的中间文件,不仅耗时,更耗费存储空间。
这一点我在:【直播】我的基因组(四):计算资源的准备 多次强调过。
显而易见,庞大的测序数据量及其所产生的数据拷贝、处理时间、硬盘资源的占用是测序价格和数据服务速度的一道关卡,毕竟——
不过,值得提醒的是,我所公布的价格是基于2018年8月的市场,如果你这个时候拿不到这个测序价格,不妨在生信技能树后台找我聊聊,或许我可以帮你哈!
划重点:在Jimmy大神的挖掘之下,终于找到了打破武林次元壁的宝典——GTX.Zip!
这款压缩率高到可怖的软件出自2016年GCTA风云挑战赛世界纪录创造者Genetalks人和未来团队。生信技能树携手Genetalks于2018-08-23一起开办了“GTX压缩技术秀”直播交流课。
小编作为小白,在仰慕大侠风范之余,体验了一把飞一样的感觉,喜欢的盆友们,可以根据以下操作一起试一试~
1
首先打开公司提供的GTZ github地址:github.com/genetalks/gtz 或 GTZ测试接口:www.gtz.io,找到软件下载链接http://gtz.io/gtz_public_0.2.2k_ubuntu_release.tgz
2
输入以下代码即可
wget http://gtz.io/gtz_public_0.2.2k_ubuntu_release.tgz #常规下载软件
tar zxvf gtz_public_0.2.2k_ubuntu_release.tgz -C ./ #解压
cd gtz_public_0.2.2k_ubuntu_release/ #进入解压文件夹目录
./gtz -h #调出帮助文件
./gtz filenames.fa -o ../filenames.fa.gtz
哇咧,3.0G的hg.19参考基因组竟然只用了1分钟!快一起试试吧!
当然,如果你觉得看文字版演示不过瘾,我还录制了一个gif动画,希望你能喜欢。(下面的gif动画需要网速哦)
请问数据压缩相关技术有技术认证么,类似于网络上的安全认证。
常用的生物信息学数据格式,比如fa,fq,vcf,sam,gtf 哪一种在时候你们的工具来压缩得到的压缩率最高呢?
你们的商业软件和github开源的软件有什么区别吗?
压缩以后的.gz文件还能不能继续压缩呢?这样无限循环是不是可以压缩没掉?