公开可获取~没有下载不到的测序原始数据！ / 四六文摘

写在前面

课题需要，前述，在TBtools中开放了一个SraExperimentXML2InfoTable的功能。在这个功能的辅助下，我们较快的完成了阶段任务。筛选数据完成了，但是下载数据却出现了问题。
主要遇到的问题是

NCBI的数据，似乎有时候能下载到，有时候却下载不到。或许网速是一个原因，但我更多地开始认为或许NCBI并没有存储所有的短读段测序数据。DDBJ也是一样。相反ENA似乎存储全面，只是传输速度一般。

无论如何，下载数据的第一步是需要获取数据所在链接。
为了让小课题成员快速获得链接并完成各自的任务，我做了两个小事情。

优化原有功能

对SraExperimentXML2InfoTable工具的输出，增加两列，

NCBI FTP link
DDBJ Potential FTP link

如图

总的来说，NCBI FTP link多数时候是可以下载的；而DDBJ存储的数据确实很少，所以link是Potential的，意思就是，数据很可能并不存在。我个人的经验是，NCBI下载不了的时候，从DDBJ的link却常常可以下载。

But，最优秀的终归还是ENA。如前所述，ENA不仅存储了数据的SRA格式的数据，还存储了Fastq格式。在早前NCBI还没发表fasterq-dump时，直接下载fastq.gz文件的整体耗时明显短于下载SRA格式数据之后用fastq-dump转格式。
虽然现在耗时不相上下，不过下载fastq.gz仍然是一个选择，比如，你并没有fasterq-dump的时候，你却一定会有gzip甚至是pgzip.
Anyway，总会有某种情况，我们会需要从ENA下载数据，无论是SRA格式还是DDBJ格式。正如我们本次课题遇到的情况。所以TBtools增加一个功能