NCBI数据库还让不让人下载了?
似乎这几天我一直在吐槽这数据库,那数据库,这软件和那软件,其实这暗示了生物信息领域的常态。随着测序技术的飞速发展,二代测序变成常态,同时相应的软件也在逐渐跟上,测序的十年实在是发展太快了,宏基因组的分析集大成的生物信息学过程。很好的代表了目前测序技术的一个应用。三年一来宏基因组数据量增加了十倍,从1G到10G,代表了测序通量的飞速提高。考验我们的不仅仅是数据分析,配套的还有硬件环境还有软件资源。开发展越来越多,软件的类别和未成熟的脚本越来越多,有的一直在更新,慢慢走到了今天,而有的却昙花一现。在如今的学习中我们要跟上测序技术的发展,跟上通量同步提高生物信息过程的硬件,软件和数据库资源。
ncbi数据库作为多组学的核心数据库之一在生物信息雪过程中起着重要作用。nr和nt数据库也在逐渐庞大。目前需要用几十或者几百个G来衡量了。面对外国的服务器,我们下载数据库成了巨大的问题。早在10年前就有人提议建立国内镜像。如今到是有几个不成熟的镜像。今天的nr数据库我就在这仅有的镜像里也下不下来。ncbi就更下不下来了。目前51G的nr蛋白库我就没办法啦。也不知道大佬们怎么下载的这些数据库。只是感觉到欲哭无泪。
经历了这么多坑,之前下载的nt数据库,krekan数据库,meta,kegg,humm,以及我常用的基因组及其索引等宏基因组数据库,总量已经接近1T了。看看后面做个备份。短时间不会跟新这些库啦。太难了。
赞 (0)