16S扩增子数据提交GSA实操手册—发表文章前必备技能

GSA简介

GSA是Genome Sequence Archive的缩写,即基因组序列存档,由中科院基因组所主办。

网址:http://gsa.big.ac.cn/

之前介绍过NCBI提交测序数据,- 原始数据极速上传NCBI SRA教程,还有中国核酸数据库GSA数据提交指南。

今天为大家推荐由中科院基因组所创办的国内大数据中心GSA的扩增子数据提交实例。

网址:http://gsa.big.ac.cn/

全中文界面,被Nature、Science和Cell等顶级杂志全面认可。可实现全自动化数据提交,无人值守,有问题邮箱和QQ群技术支持

联系方式:gsa@big.ac.cn;QQ群:548170081

开始前准备:注册/登陆

访问:http://gsa.big.ac.cn/ ,第一次使用请先点击菜单栏右侧的 Register ,按提示注册一个新用户。

一定要记清楚你的 用户名 和 密码,成功后重新访问主页 点击 Login 登陆。

登陆成功,右上角会显示 Welcome, XXX

新建BioProject

主页 http://gsa.big.ac.cn/

点击主页面中的“提交”——访问 http://gsa.big.ac.cn/ ,使用组内账号登陆 Login,点击提交可看到历史提供GSA记录。新项目要建新BioProect。

http://bigd.big.ac.cn/gsub/submit/bioproject/list

必须的信息主要是提交者个人基本信息,还有项目的名称、基金和简介等。

如下为一个示例的项目信息供参考:

项目标题: Arabidopsis root associated microbiome

涉及领域: Agricultural

项目说明: Arabidopsis root microbiota survey by 16S rDNA amplicon. And using gene mutation and over-express line to identfy key gene regulate microbiota.

数据类型:Metagenome 和 Metagenomic assembly

样品范围:Enviroment

一般提交后马上可获得项目编号,如PRJCA00xxxx这种格式,请记录好,马上要用,文章里也要写。

注:一篇文章中一般有一个项目号,但一个项目可以有多种类型、多批次的数据,即可以包括下次不同批次的GSA。

数据上传

使用Filezilla登陆 submit.big.ac.cn ,账号和密码同网站注册账号,登陆

Filezill新建站点填写内容:主机、账号和密码

登陆成功后,上传数据至GSA目录中(最好每批数据建一个子目录,再把左侧数据选中后右键上传或托入右侧)

批量提交样本信息

主页 http://gsa.big.ac.cn/

提交 —— 新建GSA批量提交

01 提交者信息

默认会自动填写你注册时预留的信息,可直接点击保存并进入下一项

02 基本信息

发布日期默认选择 审核通过后即可发布(推荐)

阅读下方声明请后,选择I accept it.

填写样本标题和描述,如下示例

标题:A simple 16S amplicon project for pipeline test

描述:Plant (Arabidopsis thaliana) root associated microbiota. Three groups are different genotypes, including wild-type, gene knock out and over-experssion. Each group has 6 replicates.

项目编号可以选择你之前创建的BioProject。

点击保存并进入下一项

03 样本类型

选择Metagenome,有人类肠道(human-gut)、土壤(soil)和水(water)三大类。

示例数据是植物相关微生物组,属于其它,我们选择Metagenome/Environmental Sample (GSC MIMS unsupported)

点击保存并进入下一项

04 样本属性

下载 BioSample批量提交模板文件
Metagenome_or_environmental.cn.xlsx
,也有示例文件
e.g.Metagenome_or_environmental.cn.xlsx
供参考(注:示例文件来自我之前参与的文章,详见 Plant Com:定量检测宿主微生物组的HA-QAP技术)。

注:模板经常更新,请以官网为准,本次提供的文件仅供参考。

主要填写的字段介绍,详见
e.g.Metagenome_or_environmental.cn.xlsx
表格中的Description页面有比较详细的中文简介:

下面是一些我的个人经验

  • *sample_name: 样品名,推荐字母开头,字母和数据组合的名称,且必须唯一,详见 样品命名 注意事项 实例教程。

  • *public_description:填写样本的详细描述,重点突出你的实验分组信息,比如我们实验是分3组,分组有6个重复,这些分类和重复名是样本描述的重点。如“Wild-type replicate 1”

  • *project_accession填写;即本项目注册的项目编号 PRJCA00xxxx

  • *sample title;可以是样本名的全称描述,也可以与样本名相同

  • *organism:物种,单一物种要填拉丁名,我们16S研究多物种,以细菌和古菌为主,填写Microbiota

  • host:宿主来源,添宿主的拉丁名,如拟南芥填写Arabidopsis thaliana

  • isolation_source:分离来源,即取样部分的描述,如拟南芥根Arabidopsis root

  • *collection_date:采样时间,年月日格式,如2017/6/30

  • *geographic_location:采样地点,国家:省/市,如China: Beijing

  • *latitude_longitude:经纬度,最好采样的时间用手机指南指定位下,格式到小数点后两位分,如:40.00 N 116.22 E

  • 其它非必须选项可如实填写即可,没有可不填

  • description:可以补充重要信息,如我们的材料均为Col-0为背景,并且生长30天。描述为Col-0 30 days

填写完的示例格式

填写并保存好Excel样本信息后,点击请选择文件选择样本信息文件,然后点上传,然后再点击校验。没问题会提示Checked OK

上传并校验成功。

校验失败,请参考error.txt报告和参考的模板修改,直到通过校验。

点击保存并进入下一项

05 元数据信息

下载 元数据 提交模板文件 GSA_Template.cn.xlsx,也有示例文件e.g.GSA_Template.cn.xlsx供参考(不过这个示例是m6A测序数据,不是扩增子或宏基因组,参考意义不大)

包括Experiment(实验样品)和Run(测序样品,一个实验样品可能有多个测序样品)两页:

实验样品信息

下面是官方描述可以读一下实验样本信息的填写说明。再往下有我的填写经验指南:

  • *ID:E1, E2, …,不够的按顺序补,多余的删除

  • *Experiment title:如果你的实验和样本是一一对应,此处可以填写上面样品的public_description(样本描述),或者进一步技术简介,如“16S rDNA amplicon of knock-out replicate 1”

  • *BioProject accession: 同上 project_accession

  • *BioSample name:同上 sample_name

  • BioSample accession:不填

  • *Platform:选择测序平台,有几十种可选,扩增子PE250测序常用 Illumina HiSeq 2500,NovaSeq 6000 或 MiSeq三种平台。这里我们填写最广泛使用的 Illumina HiSeq 2500 (因为这是3年前测的,目前NovaSeq 6000最常用)

  • *Library Construction / Experimental Design:简介你的测序前实验,如DNA提交、扩增引物、建库方法等,示例 “DNA for each sample was extracted with FastDNA SPIN Kit (MP Biomedicals), then V5-V7(799F-1193R) of 16S rDNA was amplified by two-step PCR. Finally, the amplicons were sequenced on Illumina HiSeq 2500 platform in pair-end 250 bp mode.”

  • Library name:文库名称,样本来源的文库ID,可用于研究批次效应,可不填

  • *Strategy:建库类型,选择“AMPLICON”

  • *Source:实验材料来源类型,选择“METAGENOMIC”

  • *Selection:片段的富集或选择方法,扩增子选“PCR”

  • *Layout:测序模式,这里选“PAIRED”

  • *Read length for mate1(bp):填写 250。MiSeq平台产出数据可能为300

  • Read Insert size (bp)length for mate 2(bp):填写 250,同上

  • Insert size (bp):填写441,是要一个确定的值,为你测序片段长度估计的中值、均值都可以,一般350-450之间的长度较适合PE250测序,即可以测通,又由足够的精度信息。由你选择的引物决定扩增的片段大小。计算方法为(引物名称相减+引物长+barcode长),如此次为 1193-799+18+19+10=441。因为我们测序PE250最长才500,而且要有50 bp的重叠,一般测序长度要 < 450 bp才能保证大多数据序列测通。

实验信息填写的结果预览。

测序样品信息

填写说明,请阅读:

下有是我的填写经验:

  • ID: R1, R2, …,不够的按顺序补,多余的删除

  • *Run title:与Experiment title 一致。注:存在一个Experiemnt有多个Run的情况,在宏基因组中很常见,如一个样本需要300GB的数据,可能需要几个文库分别建库测序才能获得目标数据量。

  • *BioProject accession: 同上project_accession

  • *Experiment accession,复制自Experiment页第一列

  • *Run data file type: 选择 fastq

  • *File name 1: 如 ls|grep '_1.'获得左端序列文件名,并复制填入表(默认按字母顺序,需要确定样本已经按名称排序才能对应)

  • MD5 checksum 1: 在命令行用md5sum *_1.fq.gz

    计算左端数据md5值,并按Alt矩形选择数据粘贴入表格即可

  • File name 2: 如 ls|grep '_2.'获得右端序列文件名,并复制填入表(默认按字母顺序,需要确定样本已经按名称排序才能对应)

  • MD5 checksum 2: 在命令行用md5sum *_2.fq.gz计算端数据md5值,并按Alt矩形选择数据粘贴入表格即可

获取文件名列表 和 计算md5sum值和过程

测序文件信息填写的结果预览。

填写并保存好Excel样本信息后,点击请选择文件选择样本信息文件,然后点上传,校验。没问题会提示Checked OK

点击保存并进入下一项

06 文件上传

我们之前已经通过Filezilla的FTP方式上传了文件,此处什么也不用操作。

点击保存并进入下一项即可。

如果提示 “离开此网站”,点击“离开”即可。

07概况信息

展示提交项目的基本信息,最后阅读确定。有问题可以点击上方的各步数字按扭跳转修改。

下面是每个样本的信息,没问题点击 提交

大功告成。一般要等1-2后,等待数据检查,成功后才会分配GSA编号。

注:文件校验需要时间,上TB级别的数据,可能校验需要几周。

常见问题

数据上传速度

我使用GSA上传数据,推荐使用Filezilla的FTP模式,支持断点续传,速度非常快。最快可达40 MB/S,即一般千兆网速的速度(代宽是由你的网络供应商决定的),和移动硬盘往电脑上复制飞一般的感觉。

如果你的数据特别多,而且传输速度也不快,可以联系GSA的邮箱或QQ(见主页),应该可以邮寄硬盘的。在北京,离基因组所不远可以京自去。

扩增子数据格式,单端或双端,是否包含引物和接头

关于这个问题,答案是都可以。最好上传双端的原始数据,别人以此为基础可以处理成任何想要的格式。

如果是双端合并后的单端也不错,这样最好也把barcode和引物去掉,即clean amplicon数据,即扩增子的目标序列,可以不用操心你的实验设计,直接分析和物种注释,使用更方便。

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组 宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

(0)

相关推荐