北京基因组所数据库介绍(类似sra和ebi)

基因组学在生物学科的发展中,具有划时代的意义。同时,很多人在刚进入生物信息学领域时,最先接触的也往往是组装基因组,注释基因组。这在我们生信技能树的公号里有详细的教程,需要者可去公号get资源。前面jimmy老师介绍了sra和ebi这两个高通量测序数据存放中心:

其实在中国也有类似sra和ebi的数据库资源存放中心,下面让我们去了解下如何从中科院北京基因组所下载数据。

首先,当你进入中科院北京基因组所的官网时,会看到各种介绍,最先看到的是对GSA数据的介绍。为确保与国际同类数据库系统的兼容性,GSA遵循INSDC联盟的数据标准,GSA元数据类别主要包括:项目信息(BioProject)、样本信息(BioSample)、实验信息(Experiment)、以及测序反应(Run)信息。

顾名思义,项目信息是用来描述所开展研究的目的、涉及物种、数据类型、研究思路等信息;样本信息是指本研究涉及的生物样本描述,如样本类型、样本属性等;实验信息包括实验目的、文库构建方式、测序类型等信息;测序反应信息包括测序文件和对应的校验信息。,详(想)看下图所示:

至于元数据的组织关系,一个Run里放一对paired-end测序数据文件。网站使用三株菌株的比较基因组数据做了详细介绍,想看的同志可以移步https://bigd.big.ac.cn/gsa/documents。不同的是,GSA的数据库将生物学重复作为不同的Biosample,技术性重复作为不同的experiments。

下面进入正题(开始blablabla)…

Question 1
如何从下载data捏?

way1:

第一步:从官网进入,需要注册登录BIG Sub系统,在GSA数据库列表中,找到Operation有个“Share”控件。又要拿图说话了(图真好用!):

第二步:点击“Share”,会生成如下图所示的分享链接,复制该链接并提供给编审,其即可以查看数据。Again,如图所示:

Way2

通过FTP传输数据,相当高效叻,想学的同志们,要注意听讲了哈!

单刀直入数据下载界面https://bigd.big.ac.cn/gsa/

点进去啊!同志们!选择自己需要下载的数据,比如我需要的数据网站是ftp://download.big.ac.cn/gsa/CRA000167

那么,问题来了,下载子文件夹中的一个很好下载,如果下载thousands of GSA data 肿么办呢?

憋慌,姐姐已经提前给你解决这个问题了。你们表太幸福啊。

Solution1:使用FTP传输软件进行下载,举个栗子哈,filezilla(不管你是苹果还是Windows,都好用到哭啊)或者winSCP。

Solution2: 使用wget啊,这可是入门生信的同志们最先接触的命令啊(想当年我也用wget下载第一个软件时可是兴奋得不要不要滴呀)BUT,光用wget 也只能一次下载一个数据文件,别慌,加参数啊 还记得Linux里面常用的迭代吗?-r 好用到飞起来啊。Wget -r

ftp://download.big.ac.cn/gsa/CRA000167

就可以批量下载数据啦(我太快乐了)关键是 还能按照网站存放数据那样,一个一个的文件夹分层次,真棒!当然,你也可以用循环,譬如我刚学的while 循环啦 for 循环了,也是相当好用。至于如何使用循环语句批量下载GSA的FTP数据,且听下回分解啦哈哈。最后,咱也是与时俱进的银耳啊,在如今Python盛行的era,可不能忘了他。使用Python的scrapy也是阔以爬数据滴,至于怎么使用爬虫爬取数据,且听下下回分解哈。

Question 2
如何向网站提交数据呢?

这个只能按照人家网站的规矩来咯!

账户注册完成后,您可遵循以下原则进行数据信息录入:

1) 进入GSA数据库创建GSA

2) 如果您之前没有创建项目(BioProject)和样本(BioSample)请分别进入BioProject数据库和BioSample数据库完成创建,详见GSA使用说明。

3) 完成GSA数据集中Experiment和Run的元数据信息录入——实现与BioProject、BioSample和数据文件的相互关联。

4) 通过FTP完成数据文件上传。

如果你有很多很多的数据需要批量提交的话呢?也肯定可以的了。

第一步,通过BIG Sub数据统一汇交入口,进入GSA数据库

第二步,点击“Batch Submission”进入“批量上传表格”下载页面,请根据提示信息下载相应的表格模板与例子,填好后请发送至gsa@big.ac.cn。

最后,还是要重磅推荐FTP传输tools啊,没办法,谁让人家办事能力强捏。

请使用 FTP客户端软件(比如FileZilla Client)登录 FTP 服务器。请采用二进制模式上传,如果是用FTP软件上传,请参考软件说明进行设置;如果是用FTP指令上传,请在“mput”指令前,先运行“binary”指令。

FTP服务器地址:ftp://submit.big.ac.cn

用户账号与BIG sub账号一致。

注意:用户登录自己的FTP路径后,先cd 到 /GSA目录下再上传文件。

数据上传完毕后,GSA后台系统需要进行相应的审核,请耐心等待并密切关注系统和邮箱的情况反馈。

Question 3
什么是md5码?怎么算?

Well,人网站也给介绍了呢。

MD5码主要是用来校验递交的数据在网络传输过程中是否损坏或丢包,它是由数字和英文字母组成的长度为32的定长字符串。

♦ Linux用户请使用$md5sum命令计算;

♦ Mac用户请使用$md5命令计算;

♦ Windows用户请使用第三方工具进行计算,例如winmd5free。

介绍到这,你应该会从北京基因组所中心下载和提交数据了叭,给你一个任务:

上面截图里面的数据来源于百度李彦宏的食管癌文章的508个病人的全基因组测序,你试试看能不能申请下载它!

如果你要是想问能提交什么类型的数据,网站是酱紫说滴:推荐提交FASTQ或BAM格式的测序文件。其中,FASTQ格式数据只接收GZIP和BZIP2两种压缩格式的文件(不接收7-ZIP、RAR、TAR格式)。

文末友情宣传

强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI,帮助他们多一点数据认知,让科研更上一个台阶:
推荐阅读

(0)

相关推荐

  • 用这个重磅数据库升级你的思路和论文,IF up up up

    解螺旋公众号·陪伴你科研的第2513天 又一神级数据库. 染色质可及性是识别调控元件过程中有高度信息量的一种结构特征,它提供了大量关于转录活性和基因调控机制的信息. 随着测序成本的降低,加上大家都关注 ...

  • 【数据库】SRA数据库介绍及数据下载

    [数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...

  • 肿瘤相关基因组检测公共数据库介绍: MSKCC

    之前在一篇NC的文献(如何利用公共数据发NC)当中,提到过一个公开的测序数据(MSK-IMPACT).所以今天就来简单的介绍一下这个数据集.这样,在进行公共数据挖掘的时候,除了TCGA.同时也可以考虑 ...

  • 基因组CRISPR筛选数据库介绍

    前段时间一个汇总了多个基因组 CRISPR 数据的数据库:[[BioGRID ORCS-CRISPR筛选数据库]].同时之前也介绍了一个肿瘤细胞系相关的 CRISPR 数据库 [[DepMap Por ...

  • SEO建站入门篇域名、空间、服务器、程序、数据库介绍

    锦绣大地SEO培训基地,拥有大量黑白帽SEO项目实战管理经验,擅长整站优化权重提升.在SEO内页排名技术.单页面优化.渗透劫持.发包技术.快排技术.整站优化技术.长尾词策略等上有打破常规的秘籍. 知识 ...

  • [数据库介绍]一站式表达谱数据分析

    表达谱数据分析的时候,经常包括各种各样的分析.比如差异表达分析,富集分析,GSEA,蛋白相互作用分析等等等等.NetwordAnalyst(https://www.networkanalyst.ca/ ...

  • 第75天: Python 操作 Redis 数据库介绍

    Redis 作为常用的 NoSql 数据库,主要用于缓存数据,提高数据读取效率,那在 Python 中应该如果连接和操作 Redis 呢?今天就为大概简单介绍下,在 Python 中操作 Redis ...

  • 第78天: Python 操作 MongoDB 数据库介绍

    MongoDB 是一款面向文档型的 NoSQL 数据库,是一个基于分布式文件存储的开源的非关系型数据库系统,其内容是以 K/V 形式存储,结构不固定,它的字段值可以包含其他文档.数组和文档数组等.其采 ...

  • 疫苗设计数据库介绍

    随着疫情的发展,目前对于新冠疫苗相信很多人都有一定了认识.当然在新冠之前也就存在其他疾病的疫苗了.疫苗的接种可以有效的防止我们受到其他物种感染的影响.之前常见的还有天花疫苗,HPV疫苗这类.因此对于很 ...

  • 北京的公墓都有哪些?北京知名公墓的介绍

    合法陵园众多,每个陵园都有自己的特色,环境也都不尽相同.但是,就跟买房一样,整个小区的位置和环境都非常好,并不代表每层和每家的家居风水都是好的.墓地也是一样.下面介绍在全国百强公墓排名中,北京陵园公墓 ...