NODE高通量数据库基础介绍及其页面规律
1. 简介
National Omics Data Encyclopedia,NODE,国家组学数据百科全书(也太霸气了),是由中科院上海营养与健康研究所及中科院计算生物所PICB 建立的,致力于:
1)全方位的大数据服务,存储、分析、处理和分析;2)建立生物医学数据资源应用的技术架构;3)加速大数据在生物医学应用的进程。
数据库链接:https://www.biosino.org/node/
目前和NCBI 的SRA 数据库,中国的CBCB 等一样,也存储了很多的序列数据。
如之前上海单位疫情中在nature 上发表的这篇文章,就将结果也共享在了node 上:
2. 注册
令人惊讶的是,我直接用商业邮箱(foxmail)就注册成功了:
ps:因为它说我的学生邮箱不合法,哈哈哈
甚至还会可视化你的访问记录,有点酷:
3. 高通量数据获取
可以直接通过搜索文章中的OEP 编号获取,比如OEP000155:
https://www.biosino.org/node/search
如果显示public 则可以直接访问。
可以直接点击里面的数据进行访问:
也可以下载它们:
甚至还提供了作者的分析的数据,比如突变和拷贝数数据,以及表达矩阵:
都是一些比较必要的数据,比如md5。
但是,我目前还没有发现网站批量下载的接口,仅仅是提供了一个html 和ftp 的下载方式:
https://www.biosino.org/download/node/data/public/OED063528
从批量下载和下载时间上,感觉还是原始了一些。
目前该数据库收录的数据还不是很多,应该也在蓬勃发展吧:
4. 分析工具
除了存储的功能,该网站还提供很多的其他的数据库:
以及在线分析功能:
希望它可以蓬勃发展吧!
不过值得吐槽的是,虽然是中国人做的,但网站竟然没有中文界面!!
node数据库页面规律
以前jimmy老师分享过 SRA和GEO数据库的规律,见:
和geo以及SRA 数据库一样,node 数据有没有存放规律呢?
通常NODE 中的高通量项目数据分为五类:
参考页面:https://www.biosino.org/node/project/detail/OEP000155
Project ID,OEP000155,OEP 开头,为项目ID; Experiment ID,OEX001583,OEX 开头,为实验ID,对应实验类型,如rna-seq、microarray、wes等; Sample ID,OES014891,OES 开头,为样本ID,对应临床样本,是和实验使用的临床样本中记录的名称对应的; Run ID,OER028237,OER 开头,为具体的样本在某实验的数据,如测序数据、芯片数据等。 Data ID,OED065488,OED 开头,为具体数据的下载ID,我们可以通过该ID 直接下载数据,如https://www.biosino.org/download/node/data/public/OED064632 Analysis ID,OEZ000398,OEZ 开头,为作者提供的一些额外的分析文件,如FPKM 矩阵、拷贝数或变异位点的分析结果,同样也是对应一个或多个OED(如一个FPKM 对应log2 前后的矩阵)。
一篇文章一般对应一个OEP 项目,而一个OEP 项目由多个OEX 实验,而每个OEX 实验中包含了全部参与该实验sample 的OER 信息,而OES 的样本中也可以获取该临床样本所参与的全部OEX 实验中的OER 信息。而一个OER 数据可能包含一个或多个下载数据(如双端测序fq文件,则该OER 下对应R1 和R2 的OED 信息)。
令人难过的是,我发现OED 的排列和前面的其他数据排列并没有任何的规律:
OEP000155 OEX001584 OES014455 OER026801 OED064632
OEP000155 OEX001583 OES014428 OER026252 OED063807
OEP000077 OEX000085 OES002007 OER008964 OED006656
OEP000077 OEX000085 OES002015 OER008965 OED006634
比如上面来自不同项目的数据,是完全没有规律的。
但是node 数据库提供了一个导出所有元数据的接口:
通过该接口,我们可以将所选的类型下数据的元数据下载下来,比如我选择了外显子的OEX 数据:
包含关于OEX 的全部RUN:
可以通过正上方的按钮获取元数据:
其中包括:
project_id experiment_id sample_id run_id data_id security fileName url MD5
OEP000155 OEX001583 OES014483 OER026249 OED063528 Public FUSCCTNBC001.TT_WES_R1.fastq.gz https://www.biosino.org/download/node/data/public/OED063528 d8681c1944d882f5d86ac7f22867f95c
OEP000155 OEX001583 OES014483 OER026249 OED063804 Public FUSCCTNBC001.TT_WES_R2.fastq.gz https://www.biosino.org/download/node/data/public/OED063804 6d01270fa509f2af6b457253cb35e02f
OEP000155 OEX001583 OES014784 OER026250 OED063529 Public FUSCCTNBC002.TT_WES_R1.fastq.gz https://www.biosino.org/download/node/data/public/OED063529 e020d2b79d165c18ea921cd85f66861e
OEP000155 OEX001583 OES014784 OER026250 OED063805 Public FUSCCTNBC002.TT_WES_R2.fastq.gz https://www.biosino.org/download/node/data/public/OED063805 498830f375f72a414c26fbc7241b15e2
OEP000155 OEX001583 OES014467 OER026251 OED063530 Public FUSCCTNBC005.TT_WES_R1.fastq.gz https://www.biosino.org/download/node/data/public/OED063530 fc91b5c36a62f5e93b39d2a95aab9868
OEP000155 OEX001583 OES014467 OER026251 OED063806 Public FUSCCTNBC005.TT_WES_R2.fastq.gz https://www.biosino.org/download/node/data/public/OED063806 bf37bc65c624877b0c8df9a348ba6ea7
OEP000155 OEX001583 OES014428 OER026252 OED063531 Public FUSCCTNBC006.TT_WES_R1.fastq.gz https://www.biosino.org/download/node/data/public/OED063531 42a6d73596f908f68a87532660bf3535
OEP000155 OEX001583 OES014428 OER026252 OED063807 Public FUSCCTNBC006.TT_WES_R2.fastq.gz https://www.biosino.org/download/node/data/public/OED063807 99ae023111d64b50ffafb3e27cfaa917
OEP000155 OEX001583 OES014628 OER026253 OED063532 Public FUSCCTNBC007.TT_WES_R1.fastq.gz https://www.biosino.org/download/node/data/public/OED063532 d3dbd153b524eebae6aa04c90145b017
这里我截取了一部分的内容。
这时候如果你会linux 的话,就可以尝试直接获取一下上面的下载链接来使用wget 的方式批量下载了,先提取一下下载链接:
$ cat download.txt | cut -f8 | sed '1d' | head -3
https://www.biosino.org/download/node/data/public/OED063528
https://www.biosino.org/download/node/data/public/OED063804
https://www.biosino.org/download/node/data/public/OED063529
这里我只选择了三个,用wget:
nohup cat dl_link | xargs wget &
速度还是很快的,i了i了:
OED063528 2%[ ] 146.23M 16.9MB/s eta 4m 29s
-rw-rw-r-- 1 yzpeng yzpeng 5.1G 1月 18 11:22 OED063528
-rw-rw-r-- 1 yzpeng yzpeng 5.3G 1月 18 11:32 OED063529
-rw-rw-r-- 1 yzpeng yzpeng 5.5G 1月 18 11:27 OED063804
因为OED 只是一串ID,接着我们还需要获取OED 和对应fileName 的文件,将下载的OED 名称修改为对应的fq 文件名:
$ cat download.txt | cut -f5,7 | sed '1d' | head -3
OED063528 FUSCCTNBC001.TT_WES_R1.fastq.gz
OED063804 FUSCCTNBC001.TT_WES_R2.fastq.gz
OED063529 FUSCCTNBC002.TT_WES_R1.fastq.gz
批量修改一下:
cat download.txt | cut -f5,7 | sed '1d' | head -3 > oed2fq_name
我linux 还是能力有限,尝试R 修改一下:
> var = read.table(file = 'oed2fq_name', header = F)
> var
V1 V2
1 OED063528 FUSCCTNBC001.TT_WES_R1.fastq.gz
2 OED063804 FUSCCTNBC001.TT_WES_R2.fastq.gz
3 OED063529 FUSCCTNBC002.TT_WES_R1.fastq.gz
> for (i in 1:nrow(var)){ file.rename(var[i,1], var[i,2]) }
$ ls *.fastq.gz
FUSCCTNBC001.TT_WES_R1.fastq.gz FUSCCTNBC002.TT_WES_R1.fastq.gz
FUSCCTNBC001.TT_WES_R2.fastq.gz
我们还可以获取一下元数据中的md5 信息,进行下载后的文件完整性验证:
$ cat download.txt | awk '{print $9,$7}' | tr '\t' ' ' | sed 's/[ ]/ /' | sed '1d'
d8681c1944d882f5d86ac7f22867f95c FUSCCTNBC001.TT_WES_R1.fastq.gz
6d01270fa509f2af6b457253cb35e02f FUSCCTNBC001.TT_WES_R2.fastq.gz
e020d2b79d165c18ea921cd85f66861e FUSCCTNBC002.TT_WES_R1.fastq.gz
验证一下:
$ cat download.txt | awk '{print $9,$7}' | tr '\t' ' ' | sed 's/[ ]/ /' | sed '1d' > md5.txt
$ md5sum -c md5.txt
FUSCCTNBC001.TT_WES_R1.fastq.gz: OK
FUSCCTNBC001.TT_WES_R2.fastq.gz: OK
我们也可以和我们从EBI 上下载的数据验证一下md5,查阅一下FUSCCTNBC001 对应的SRR 号为SRR8517928:
它们的md5sum 竟然是不同的。
$ md5sum FUSCCTNBC001.TT_WES_R1.fastq.gz
d8681c1944d882f5d86ac7f22867f95c FUSCCTNBC001.TT_WES_R1.fastq.gz
$ md5sum /home/data/tnbc/public_data/FUSCCTNBC/SRR8517928_1.fastq.gz
c6b7aa4eaeb0d9ac31ed90759076d638 /home/data/tnbc/public_data/FUSCCTNBC/SRR8517928_1.fastq.gz
大小也不同:
-rw-r--r-- 1 tnbc tnbc 5.2G 12月 29 10:18 SRR8517928_1.fastq.gz
-rw-rw-r-- 1 yzpeng yzpeng 5.1G 1月 18 11:22 FUSCCTNBC001.TT_WES_R1.fastq.gz
node 下载的数据要偏小一些。
会不会两个数据是分别存放的是肿瘤和正常对照的样本呢?
看了一下前面几行:
$ zcat FUSCCTNBC001.TT_WES_R1.fastq.gz | head
@ST-E00167:149:HLFWNCCXX:3:1101:5477:1625 1:N:0:CAGATCTG
NATATACTCAAAAGAACTGAAAGCAATGCAGGCTGGCTGTGGTAGCTCACACCTGTAATCCTAGCATGTTGGGAGGCTGAGGAGGGTAGATCGGAAGAGCACACGTCTGAACTCCAGTCACCAGATCTGATCTCGTATGCCGTCTTCTGC
+
#AAFFAKFK<FFKKKKKFKKKFKKKK,FA<KFA<<<(,AKK<F,FKAAFAKK,7<7KK7FKFKKKKKKKAFKKFKFA<,AKKA7F7,A7K7FAFFK7FF,FAKFKF,7FAFKFK7FFAFFKKFKKA<7AK7,,,AFKKF,,AA(,,7,,A
$ zcat /home/data/tnbc/public_data/FUSCCTNBC/SRR8517928_1.fastq.gz | head
@SRR8517928.1 1/1
NATATACTCAAAAGAACTGAAAGCAATGCAGGCTGGCTGTGGTAGCTCACACCTGTAATCCTAGCATGTTGGGAGGCTGAGGAGGGTAGATCGGAAGAGCACACGTCTGAACTCCAGTCACCAGATCTGATCTCGTATGCCGTCTTCTGC
+
#AAFFAKFK<FFKKKKKFKKKFKKKK,FA<KFA<<<(,AKK<F,FKAAFAKK,7<7KK7FKFKKKKKKKAFKKFKFA<,AKKA7F7,A7K7FAFFK7FF,FAKFKF,7FAFKFK7FFAFFKKFKKA<7AK7,,,AFKKF,,AA(,,7,,A
再看看最后一段:
@SRR8517928.73046074 73046074/1
CCNGGGCTCGGACGAGACCGACTTAATCCTCCTAGTTTGGCAAGTGGTTGAGCCGCGGAGCCGCCAGGTAGGGTGGAAAAGAGGCGGTGAGGTCCCCAGGGAGCTTCCGGGGTCGAGGGGCGCGGCTNATCGGTTTCCCNCGCCGCTCAC
+
AA#FFKKKKKKKKKKKKKKKKKFKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKFKKKKKKKKKKKKKKKKK(FFKKKKFKKKKKKKKKKKKAKKKKKKKKKKKKKKKKKKKKF#KFKFKKKKKKK#K<KKFKFKKK
@ST-E00167:149:HLFWNCCXX:3:2224:24515:73036 1:N:0:CAGATCTG
CCNGGGCTCGGACGAGACCGACTTAATCCTCCTAGTTTGGCAAGTGGTTGAGCCGCGGAGCCGCCAGGTAGGGTGGAAAAGAGGCGGTGAGGTCCCCAGGGAGCTTCCGGGGTCGAGGGGCGCGGCTNATCGGTTTCCCNCGCCGCTCAC
+
AA#FFKKKKKKKKKKKKKKKKKFKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKFKKKKKKKKKKKKKKKKK(FFKKKKFKKKKKKKKKKKKAKKKKKKKKKKKKKKKKKKKKF#KFKFKKKKKKK#K<KKFKFKKK
数据是一模一样的。可能真的只是第一行记录的read 标识符不同造成的差别吧。
总的来说,感觉node 的使用体验还是真不戳的。
需要注意的是,虽然大部分上传的NGS 数据都是打着public 的招牌:
可是有很多的内容还是需要获取作者的许可的: