公开可获取~没有下载不到的测序原始数据!

写在前面

课题需要,前述,在TBtools中开放了一个SraExperimentXML2InfoTable的功能。在这个功能的辅助下,我们较快的完成了阶段任务。筛选数据完成了,但是下载数据却出现了问题。
主要遇到的问题是

NCBI的数据,似乎有时候能下载到,有时候却下载不到。或许网速是一个原因,但我更多地开始认为或许NCBI并没有存储所有的短读段测序数据。DDBJ也是一样。相反ENA似乎存储全面,只是传输速度一般。

无论如何,下载数据的第一步是需要获取数据所在链接。
为了让小课题成员快速获得链接并完成各自的任务,我做了两个小事情。

优化原有功能

对SraExperimentXML2InfoTable工具的输出,增加两列,

  1. NCBI FTP link

  2. DDBJ Potential FTP link

如图

总的来说,NCBI FTP link多数时候是可以下载的;而DDBJ存储的数据确实很少,所以link是Potential的,意思就是,数据很可能并不存在。我个人的经验是,NCBI下载不了的时候,从DDBJ的link却常常可以下载。

But,最优秀的终归还是ENA。如前所述,ENA不仅存储了数据的SRA格式的数据,还存储了Fastq格式。在早前NCBI还没发表fasterq-dump时,直接下载fastq.gz文件的整体耗时明显短于下载SRA格式数据之后用fastq-dump转格式。
虽然现在耗时不相上下,不过下载fastq.gz仍然是一个选择,比如,你并没有fasterq-dump的时候,你却一定会有gzip甚至是pgzip.
Anyway,总会有某种情况,我们会需要从ENA下载数据,无论是SRA格式还是DDBJ格式。正如我们本次课题遇到的情况。所以TBtools增加一个功能

基于SRRnum获取ENA links信息

ENA存储测序数据,并没有绝对的规律,部分数据有专门的目录,部分数据放在不同深度的目录。故,无法通过像NCBI或者DDBJ一样的操作去拼接链接。而只有两个操作:

  1. 爬虫,解析整个ENA的FTP,获得并保存文件地址

  2. 爬虫,针对给定的SRR获取其对应的信息

第一个操作比较重,很多时候也没必要。于是我采用的是第二个操作。花了大半个小时,顺带打了GUI
打开TBtools,跳转到对应功能

设置输入文件,图中可见,准备一个txt文本文件,每行一个SRR number,保存并用做输入;设置输出文件,注意补齐文件名。

为了避免被ENA封杀IP,操作是大概每个SRRnumber信息获取后等待1~3s,所以输入100个SRRnum可能需要花5min才能将信息获取完毕。

信息获取完毕后会有弹窗提示,所以此时最好去玩一局贪吃蛇。

OK,弹窗时,贪吃蛇是没有暂停的(所以一定会Game Over),用Excel打开结果文件

可以看到,左侧即为fastq.gz文件下载链接(推荐用aria2c或者迅雷,IDM下载),右侧为sra格式文件

写在后面

公开可获取的测序数据下载,到这篇就基本终结了,下一步就是下载,有的人会建议用 aspera ,然而这个在一些网络下并不太稳定。大多数人,其实并不需要下载很多的数据,有了上述三个数据库的链接,那么可以用各式各样的下载工具下载,比如 wget IDM 迅雷 等等....

PS:如果作者就是没上传测序数据,那真的是没办法了,哈哈哈哈哈哈哈哈哈哈。

(0)

相关推荐

  • 文章的最高境界-让人无法重复出来???

    看到2020年2月发表在nature cancer这个新杂志的文章<Single-cell analyses reveal increased intratumoral heterogeneit ...

  • 初步尝试从AWS下载SRA原始数据

    希望所有学员都可以站在生信技能树的舞台上发光发热! 下面是粉丝随机投稿 追随生信技能树的脚步,学习生信已经有半年多了.看了哔哩哔哩上的视频,也跑了健明老师的代码.以为自己起码入门了,但是真正分析感兴趣 ...

  • 看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析

    距离公布要带500个优秀本科生入门生物信息学的活动不到一个月,虽然真正入选不到一百,但是培养成绩喜人,出勤率接近百分之百,大部分人在短短两个星期就完成了R基础知识学习,Linux认知,甚至看完了转录组 ...

  • 使用igblast进行免疫组库分析

    前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB, ...

  • lncRNA实战项目-第三步-了解参考基因组及注释文件

    响应生信技能树的号召:lncRNA数据分析传送门 , 一起来一个lncRNA数据分析实战! 下载原始测序数据: 在GEO数据库搜索GSE87182, 这里没有直接给出ftp地址,需要先从BioProj ...

  • 技术贴 | 宏转录组专题 | DDBJ数据库:宏转录组测序数据下载

    本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读 DDBJ(DNA Data Bank of Japan)是与NCBI的GenBank,EMBL的EBI数据库齐名的世 ...

  • 侠之大者,为老数据接盘

    粉丝来稿 写在前面 在几乎所有模式植物转录组测序技术都做烂的今天,始终有一些植物因为种种原因鲜有问津.例如小麦,就像是开在奢侈品商场的黄焖鸡:有钱的人未必瞧得上,没钱的也压根就不会去光顾.不过这么多年 ...

  • 【数据库】SRA数据库介绍及数据下载

    [数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...

  • 北京基因组所数据库介绍(类似sra和ebi)

    基因组学在生物学科的发展中,具有划时代的意义.同时,很多人在刚进入生物信息学领域时,最先接触的也往往是组装基因组,注释基因组.这在我们生信技能树的公号里有详细的教程,需要者可去公号get资源.前面ji ...

  • 什么,ENA和SRA数据库存放的单细胞转录组测序数据并不一致啊?

    是时候把生信技能树的舞台交给后辈! 粉丝来稿 作者:黑川五郎 写在前面 单细胞转录组以10X公司为主流,单细胞天地公众号详细介绍了cellranger流程,大家可以自行前往学习,如下: 单细胞实战(一 ...