SRA数据库的数据并不一定要在SRA数据库下载

1

导读

听过jimmy老师的视频都知道,在GEO下载测序数据,首先要找到GSE号,然后找到SRR号,最后prefetch就0K了!

但是路走多了什么样的坑都容易遇到,比如下面这个:

2

任务

首先,我需要下载一个数据集SRP058243,我想这还不简单吗,直接就有就顺着思路去找到了每个样本的SRR号

一来就是prefetch, 结果就悲催了,满屏的下载失败。

3

探索一下失败原因

报错怎么办?肯定得搜索呀

经过搜索我就知道了,嘿嘿,原来我们用prefech下载的数据都在https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/可以找到,但是我发现这里面的数据是没有我要下载的SRR,此时想起了,jimmy老师说的“敲命令不是随便乱敲的,它存在我们才写”,其实下载数据同样如此,你下载的数据的地方要有你的数据你才可以下载,数据都没有你下载个啥呢,虽然有的软件很方便像conda,prefetch,但我们同样需要对他们所做的事有所了解,这样才能避免报错的时候,一脸懵逼。

知道了是数据缺失了之后,菜鸟的我自觉得这是一个无法被解决的问题?数据都没了,我能做个啥啊,对吧。

4

求助老师

然后我就发邮件跟jimmy大神汇报这个问题,很快,他就发了我两个地址:SRP058243在DRA,ERA的位置。

5

继续探索

然后我也搜索了一下,这两个应该也是存放数据的地方类似于SRA, 找到地址了,接下来肯定是下载起来啦(大神一句话,菜鸟跑半年,这句话还是有道理的)

有链接地址,还想啥,wget啊,但是看到下面的网速可能你会崩溃

prefetch好像又不行,只剩下ascp啦,接下来就行自己上网搜索ascp如何实现ERA快速下载

一看网速还行,但是我不可能一个一个下吧,四十多个我得做四十多遍,四百多个我不就炸了

这时候jimmy老师经常强调的要善于观察url的规律涌上了心头,那我就复制几个看看

还真有规律,但是你让我用代码把他写出来,可能不太现实,但是笨人总有笨办法(毕竟是能把B站GEO代码,一个字一个字抄下来的傻逼,还怕这个),直接用excel做好,然后写个循环就可以坐等数据了。

6

结语

所以呢,这个问题说简单也简单,但是前提是你对这些数据库有足够的了解。

最后,最后,我是建议如果你初学生信,又没人指导,靠自己自学,我是非常建议你看B站jimmy老师的视频,不管是上游也好下游也罢,最好都要看,其实看个十遍八遍一点都不过分,因为jimmy老师讲的时候除了知识,还有如何解决问题的办法,甚至于对待学习的态度,例如,“为什么我会知道呢,只有学习,不断学习",这是我最喜欢的一句话之一。

(0)

相关推荐