16S扩增子数据提交GSA实操手册—发表文章前必备技能

2026-03-05 22:41:58

GSA简介

GSA是Genome Sequence Archive的缩写，即基因组序列存档，由中科院基因组所主办。

网址：http://gsa.big.ac.cn/

之前介绍过NCBI提交测序数据，- 原始数据极速上传NCBI SRA教程，还有中国核酸数据库GSA数据提交指南。

今天为大家推荐由中科院基因组所创办的国内大数据中心GSA的扩增子数据提交实例。

网址：http://gsa.big.ac.cn/

全中文界面，被Nature、Science和Cell等顶级杂志全面认可。可实现全自动化数据提交，无人值守，有问题邮箱和QQ群技术支持。

联系方式：gsa@big.ac.cn；QQ群：548170081

开始前准备：注册/登陆

访问：http://gsa.big.ac.cn/ ，第一次使用请先点击菜单栏右侧的 Register ，按提示注册一个新用户。

一定要记清楚你的用户名和密码，成功后重新访问主页点击 Login 登陆。

登陆成功，右上角会显示 Welcome, XXX

新建BioProject

主页 http://gsa.big.ac.cn/

点击主页面中的“提交”——访问 http://gsa.big.ac.cn/ ，使用组内账号登陆 Login，点击提交可看到历史提供GSA记录。新项目要建新BioProect。

http://bigd.big.ac.cn/gsub/submit/bioproject/list

必须的信息主要是提交者个人基本信息，还有项目的名称、基金和简介等。

如下为一个示例的项目信息供参考：

项目标题: Arabidopsis root associated microbiome

涉及领域: Agricultural

项目说明: Arabidopsis root microbiota survey by 16S rDNA amplicon. And using gene mutation and over-express line to identfy key gene regulate microbiota.

数据类型：Metagenome 和 Metagenomic assembly

样品范围：Enviroment

一般提交后马上可获得项目编号，如PRJCA00xxxx这种格式，请记录好，马上要用，文章里也要写。

注：一篇文章中一般有一个项目号，但一个项目可以有多种类型、多批次的数据，即可以包括下次不同批次的GSA。

数据上传

使用Filezilla登陆 submit.big.ac.cn ，账号和密码同网站注册账号，登陆

Filezill新建站点填写内容：主机、账号和密码

登陆成功后，上传数据至GSA目录中(最好每批数据建一个子目录，再把左侧数据选中后右键上传或托入右侧)

批量提交样本信息

主页 http://gsa.big.ac.cn/

提交 —— 新建GSA批量提交

01 提交者信息

默认会自动填写你注册时预留的信息，可直接点击保存并进入下一项

02 基本信息

发布日期默认选择 审核通过后即可发布（推荐）

阅读下方声明请后，选择I accept it.

填写样本标题和描述，如下示例

标题：A simple 16S amplicon project for pipeline test

描述：Plant (Arabidopsis thaliana) root associated microbiota. Three groups are different genotypes, including wild-type, gene knock out and over-experssion. Each group has 6 replicates.

项目编号可以选择你之前创建的BioProject。

点击保存并进入下一项

03 样本类型

选择Metagenome，有人类肠道（human-gut）、土壤（soil）和水（water）三大类。

示例数据是植物相关微生物组，属于其它，我们选择Metagenome/Environmental Sample (GSC MIMS unsupported)

点击保存并进入下一项

04 样本属性

下载 BioSample批量提交模板文件 Metagenome_or_environmental.cn.xlsx，也有示例文件e.g.Metagenome_or_environmental.cn.xlsx供参考(注：示例文件来自我之前参与的文章，详见 Plant Com：定量检测宿主微生物组的HA-QAP技术)。

注：模板经常更新，请以官网为准，本次提供的文件仅供参考。

主要填写的字段介绍，详见e.g.Metagenome_or_environmental.cn.xlsx表格中的Description页面有比较详细的中文简介：

下面是一些我的个人经验

*sample_name: 样品名，推荐字母开头，字母和数据组合的名称，且必须唯一，详见样品命名注意事项实例教程。
*public_description：填写样本的详细描述，重点突出你的实验分组信息，比如我们实验是分3组，分组有6个重复，这些分类和重复名是样本描述的重点。如“Wild-type replicate 1”
*project_accession填写；即本项目注册的项目编号 PRJCA00xxxx
*sample title；可以是样本名的全称描述，也可以与样本名相同
*organism：物种，单一物种要填拉丁名，我们16S研究多物种，以细菌和古菌为主，填写Microbiota
host：宿主来源，添宿主的拉丁名，如拟南芥填写Arabidopsis thaliana
isolation_source：分离来源，即取样部分的描述，如拟南芥根Arabidopsis root
*collection_date：采样时间，年月日格式，如2017/6/30
*geographic_location：采样地点，国家：省/市，如China: Beijing
*latitude_longitude：经纬度，最好采样的时间用手机指南指定位下，格式到小数点后两位分，如：40.00 N 116.22 E
其它非必须选项可如实填写即可，没有可不填
description：可以补充重要信息，如我们的材料均为Col-0为背景，并且生长30天。描述为Col-0 30 days

填写完的示例格式

填写并保存好Excel样本信息后，点击请选择文件选择样本信息文件，然后点上传，然后再点击校验。没问题会提示Checked OK

上传并校验成功。

校验失败，请参考error.txt报告和参考的模板修改，直到通过校验。

点击保存并进入下一项

05 元数据信息

下载元数据提交模板文件 GSA_Template.cn.xlsx，也有示例文件e.g.GSA_Template.cn.xlsx供参考(不过这个示例是m6A测序数据，不是扩增子或宏基因组，参考意义不大)

包括Experiment(实验样品)和Run(测序样品，一个实验样品可能有多个测序样品)两页：

实验样品信息

下面是官方描述可以读一下实验样本信息的填写说明。再往下有我的填写经验指南：

*ID：E1, E2, …，不够的按顺序补，多余的删除
*Experiment title：如果你的实验和样本是一一对应，此处可以填写上面样品的public_description(样本描述)，或者进一步技术简介，如“16S rDNA amplicon of knock-out replicate 1”
*BioProject accession: 同上 project_accession
*BioSample name：同上 sample_name
BioSample accession：不填
*Platform：选择测序平台，有几十种可选，扩增子PE250测序常用 Illumina HiSeq 2500，NovaSeq 6000 或 MiSeq三种平台。这里我们填写最广泛使用的 Illumina HiSeq 2500 (因为这是3年前测的，目前NovaSeq 6000最常用)
*Library Construction / Experimental Design：简介你的测序前实验，如DNA提交、扩增引物、建库方法等，示例 “DNA for each sample was extracted with FastDNA SPIN Kit (MP Biomedicals), then V5-V7(799F-1193R) of 16S rDNA was amplified by two-step PCR. Finally, the amplicons were sequenced on Illumina HiSeq 2500 platform in pair-end 250 bp mode.”
Library name：文库名称，样本来源的文库ID，可用于研究批次效应，可不填
*Strategy：建库类型，选择“AMPLICON”
*Source：实验材料来源类型，选择“METAGENOMIC”
*Selection：片段的富集或选择方法，扩增子选“PCR”
*Layout：测序模式，这里选“PAIRED”
*Read length for mate1(bp)：填写 250。MiSeq平台产出数据可能为300
Read Insert size (bp)length for mate 2(bp)：填写 250，同上
Insert size (bp)：填写441，是要一个确定的值，为你测序片段长度估计的中值、均值都可以，一般350-450之间的长度较适合PE250测序，即可以测通，又由足够的精度信息。由你选择的引物决定扩增的片段大小。计算方法为(引物名称相减+引物长+barcode长)，如此次为 1193-799+18+19+10=441。因为我们测序PE250最长才500，而且要有50 bp的重叠，一般测序长度要 < 450 bp才能保证大多数据序列测通。

实验信息填写的结果预览。

测序样品信息

填写说明，请阅读：

下有是我的填写经验：

ID: R1, R2, …，不够的按顺序补，多余的删除
*Run title：与Experiment title 一致。注：存在一个Experiemnt有多个Run的情况，在宏基因组中很常见，如一个样本需要300GB的数据，可能需要几个文库分别建库测序才能获得目标数据量。
*BioProject accession: 同上project_accession
*Experiment accession，复制自Experiment页第一列
*Run data file type: 选择 fastq
*File name 1: 如 ls|grep '_1.'获得左端序列文件名，并复制填入表(默认按字母顺序，需要确定样本已经按名称排序才能对应)
MD5 checksum 1: 在命令行用md5sum *_1.fq.gz

计算左端数据md5值，并按Alt矩形选择数据粘贴入表格即可
File name 2: 如 ls|grep '_2.'获得右端序列文件名，并复制填入表(默认按字母顺序，需要确定样本已经按名称排序才能对应)
MD5 checksum 2: 在命令行用md5sum *_2.fq.gz计算端数据md5值，并按Alt矩形选择数据粘贴入表格即可

获取文件名列表和计算md5sum值和过程

测序文件信息填写的结果预览。

填写并保存好Excel样本信息后，点击请选择文件选择样本信息文件，然后点上传，校验。没问题会提示Checked OK

点击保存并进入下一项

06 文件上传

我们之前已经通过Filezilla的FTP方式上传了文件，此处什么也不用操作。

点击保存并进入下一项即可。

如果提示 “离开此网站”，点击“离开”即可。

07概况信息

展示提交项目的基本信息，最后阅读确定。有问题可以点击上方的各步数字按扭跳转修改。

下面是每个样本的信息，没问题点击 提交。

大功告成。一般要等1-2后，等待数据检查，成功后才会分配GSA编号。

注：文件校验需要时间，上TB级别的数据，可能校验需要几周。

常见问题

数据上传速度

我使用GSA上传数据，推荐使用Filezilla的FTP模式，支持断点续传，速度非常快。最快可达40 MB/S，即一般千兆网速的速度(代宽是由你的网络供应商决定的)，和移动硬盘往电脑上复制飞一般的感觉。

如果你的数据特别多，而且传输速度也不快，可以联系GSA的邮箱或QQ（见主页），应该可以邮寄硬盘的。在北京，离基因组所不远可以京自去。

扩增子数据格式，单端或双端，是否包含引物和接头

关于这个问题，答案是都可以。最好上传双端的原始数据，别人以此为基础可以处理成任何想要的格式。

如果是双端合并后的单端也不错，这样最好也把barcode和引物去掉，即clean amplicon数据，即扩增子的目标序列，可以不用操心你的实验设计，直接分析和物种注释，使用更方便。

10000+：菌群分析宝宝与猫狗梅毒狂想曲提DNA发Nature Cell专刊肠道指挥大脑

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

科研 | Microbiome：微生物组驱动甜菜采后病害的微生物指标

编译:沐秋,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读贮藏腐烂造成的糖损失对制糖工业有着重大的经济影响.腐生真菌如镰刀菌和青霉在甜菜中的持续传播严重威胁到了甜菜的采后加工.检测甜菜微生物群 ...
扩增子数据是否应该抽平？还是标准化？

写在前面做扩增子数据分析经常遇到一个问题?我们是否应该抽平数据呢?还是只需要做标准化就可以了?在微生信生物群中有许多人都问过这样的问题.这里我也将这个答案分享给大家. 抽平实际上,抽平被许多数据分 ...
MPB：青岛大学苏晓泉组-使用Meta-Apo对16S扩增子的微生物组功能信息进行校正

为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...
技术贴 | 16S专题 | 初学者如何深入解读16S rDNA扩增子测序数据，从而选择自己的分析步骤（满满干货～）

导读网络上有很多16S rDNA扩增子测序数据的详细分析流程.但是很多初学者在拿到测序公司给的测序数据时,仍然不知道从何下手.究其原因,我们从测序公司拿到的数据是五花八门的,网上的分析流程虽然详 ...
划重点！NGS中DNA建库方法全面解析 ——NGS上机前的样本处理方法，你选对了吗？

来源:翌圣生物科技(上海)股份有限公司 2019-8-11 HB181122 划重点!NGS中DNA建库方法全面解析 --NGS上机前的样本处理方法,你选对了吗? 高通量测序技术的飞速发展,测序 ...
2021高考志愿填报实操手册（一）

高考志愿填报的难点在于对各个学校和专业的把控,哪些学校可以去,哪些学校不可以去,每个学校的优势是什么,从学业规划的角度来考虑,学生在不同的省份.不同的家庭,适合学什么样的专业,在志愿填报过程中,最理想 ...
脚手架施工实操手册上线

来源: 网络分享脚手架是建筑工程施工中必不可少的设施,脚手架坍塌及坠落事故也是近年来建筑行业多发性事故之一.造成事故的原因是多方面的,像脚手架架设不规范,施工作业中脚手架上的荷载超重.随意拆除拉结 ...
关于“利害关系人”的证明材料之实操手册 ——异议、无效宣告程序

<商标法>第三十三条.第四十五条规定的"在先权利人或者利害关系人"是对以在先权利提起异议.无效宣告案件的申请人主体资格的要求.其中,在先权利人指包括商标权在内的应受法律 ...
股权架构设计实操手册目录

股权架构设计实操手册目录
人手一份：建设工程项目实操手册（项目前期手续审批流程）

提示:本流程根据国家发改委.城建等部门及北京市相关文件规定,结合项目实际操作经验整理. 一.工程建设项目前期手续审批流程本流程根据国家发改委.国土局.规委.建设等主管部门和北京相关文件规定,结合 ...
【东方学霸】行业研究方法实操手册<第十七讲>猪周期框架·上篇

00 发现指标异常.依据难以自洽,是不是能实锤这家公司造假了?1.事实上,我们永远无法(也不应该)得多于上市公司的内部信息来证实造假:数据异常还可能是新的商业模式?带估计空间的会计处理?未披露的内部明 ...
【东方学霸】行业研究方法实操手册<第一讲>带你实战行业研究

"感兴趣的话题或疑问,可直接公众号对话框消息发送给我们哟 (ง ·̀_·́)ง"--学霸产品经理卫昱衡申明原创300字我来了!年度重磅产品全新上线!行业研究方法实操手册,和你一起 ...
技术贴 | 16S专题 |基于QIIME2 dada2插件的16S扩增子测序数据的分析流程详解（下）

本文由Bayegy根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读明明测了100000条序列,为什么我用dada2得到的OTU丰度只有8000?是人性的扭曲还是道德的沦丧? ...
ampvis2 一个用于分析和可视化16S rRNA扩增子数据的R包

ampvis2: an R package to analyse and visualise 16S rRNA amplicon data View ORCID ProfileKasper S. An ...

16S扩增子数据提交GSA实操手册—发表文章前必备技能

GSA简介

开始前准备：注册/登陆

新建BioProject

数据上传

批量提交样本信息

01 提交者信息

02 基本信息

03 样本类型

04 样本属性

05 元数据信息

实验样品信息

测序样品信息

06 文件上传

07概况信息

常见问题

数据上传速度

扩增子数据格式，单端或双端，是否包含引物和接头

相关推荐