NAR:gcMeta——全球微生物组数据存储和标准化分析平台

gcMeta全球微生物组数据存储和标准分析平台

gcMeta: a Global Catalogue of Metagenomics platform to support the archiving, standardization and analysis of microbiome data

Nucleic Acids Research, [11.561], Article, 2018-10-31

原文链接:
http://dx.doi.org/10.1093/nar/gky1008

第一作者:Wenyu Shi(史文聿), Heyuan Qi(亓合媛)

通讯作者:Linhuan Wu(吴林寰),Juncai Ma(马俊才)

主要单位:中国科学院微生物所

其它作者:Qinglan Sun,Guomei Fan,Shuangjiang Liu,Jun Wang,Baoli Zhu,Hongwei Liu,Fangqing Zhao,Xiaochen Wang,Xiaoxuan Hu,Wei Li,Jia Liu,Ye Tian

导读

gcMeta提供微生物组及微生物基因组的数据存储、分析到发布一站式服务;

目前存储了公共或私有的12万样本,120TB数据,并为用户提供项目数据管理系统;

平台基于Docker部署了90款生信软件,可实现宏基因组拼接和注释、16S扩增子物种注释、有参扩增子分析、单菌基因组拼接和注释、转录组分析五大常用流程;

样本可提供发表专用的PID,并自动追踪引用;

作为CAS-CMI计划的一部分,有助于推进我国微生物组数据资源的系统管理和高效利用。

摘要

在微生物群体结构和功能研究中,正在增加多组学的方法。环境和不同栖息地的大规模合作项目的研究正在进行,为满足当今大项目的数据维护和数据分析的要求。全球宏基因组集(gcMeta)是中科院微生物组计划的部分,关注人类和环境微生物组研究,存储样本、菌株和数据,提升国际合作。为提供数千人类和环境微生物组样本的后勤,gcMeta是一个数据存档、管理和发布系统。基于Docker整合了90多个数据库的分析工具,可以使用不同操作系统。本平台基于CAS-CMI项目和其它项目快速发展。总结,本平台提供用户友好的界面服务于全球宏组学研究。

正文

图1.用户数据管理、分析及发布流程

gcMeta主要分为三部分,数据管理、数据分析和数据发表。用户使用自己的账号提交原始数据,可以使用预安装的工具和流程。数据结果可以下载进一步分析。每个PID将在发表前分配给数据。如果被引用,会自动追踪。

图2.数据库结构

不同表的属性和之间的关系

表1.平台内置工具

工具分为序列预处理、序列组装、基因组结果分析、数据库注释、群体组成和序列比对,分别标红、蓝、紫、橙和黄。没有正式发表文章的软件引用相关网址:BBtools

software suite (http://jgi.doe.gov/data-and-tools/bbtools/), FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/), fastp (https://github.com/

OpenGene/fastp/), Trim Galore (http://www.bioinformatics.babraham.ac.uk/projects/trim galore/), minced (https://github.com/ctSkennerton/minced/tree/

master) and RepeatMasker (http://ftp.genome.washington.edu/cgi-bin/RepeatMasker)

图3.用户界面展示

A. gcMeta主页。统计数字是公开和末发表研究、样本、实验和测序文件数量。

B. 数据提交网页。每个提交可以保密或公开。

C. 数据库浏览器截图。检索界面,可按实验类型、样本类型和数据来源分析。

图4.gcMeta的工作流程

本工具主要分为6大模块(宏基因组Binning、物种注释和下游分析标为绿色)。不同功能组连接行成不同的工作流。6个主要流覆盖了不同目的地分析。

图5.数据分析及可视化系统

A, B. 平均核酸相似度(ANI, average nucleotide identity)、数据DNA-DNA杂交计算(dDDH)对末注册用户开放。(A) 任务提交界面截图,包括上传模块和必须的参数设计。(B) 任务运行结果。(C-F) 宏基因组16S扩增子测序物种分类流程。(C) 流程图。(D) 输入、输出和参数设置;E. 流程的结果;F. 分析的结果,示例为基于ggplot绘制的PCoA图。

图6.系统结构

平台使用数据库管理系统和Docker整合了存储集群和计算集群,使用户方便数据的存储、发表和分析。

中科院微生物所新闻稿

10月26日,《核酸研究》(SCI影响因子11.561)(Nucleic Acids Research)在线发表中科院微生物研究所微生物资源与大数据中心、世界微生物数据中心马俊才团队题为“gcMeta: a Global Catalogueof Metagenomics platform to support the archiving, standardization and analysisof microbiome data”的研究论文。gcMeta平台是一个微生物基因组及微生物组数据的管理、分析和发布平台,为国内外用户提供一站式的从数据存储、数据分析到数据发布的服务,目前已经整合了来自中国科学院微生物组计划及国内外多个重要项目的数据。该平台的发布将有效支撑我国微生物组研究并为未来我国国家微生物组计划的实施提供重要的支持。

近年来,美国、欧盟都陆续启动了微生物组相关的研究项目。但微生物组大数据的收集、存储、功能挖掘和开发利用一直是制约微生物组发展的核心问题。我国目前在微生物组数据管理中存在着标准不统一、缺乏跨领域的数据整合、高质量的参考数据库和数据的深度挖掘技术等问题。2017年,中国科学院启动了“中国微生物组计划”项目,项目旨在进一步强化我院在微生物组研究和开发利用等方面的共性技术和平台优势,聚焦“人体健康和环境”微生物组,开发相应的微生物组学新方法、新技术;通过研究其结构与功能、群体间的竞争与合作,微生物组与人体等宿主和环境相互作用、及与宿主的寄生共生健康发育等关系,发现微生物与人类和环境共同演化的科学规律。同时,也将在微生物组数据标准化的基础上,建立微生物组大数据计算、存储和共享平台,开发微生物组大数据挖掘的新方法,实现我国微生物组数据资源的系统管理和高效利用。

gcMeta建立了一个微生物基因组、元基因组和转录组管理、数据在线分析、可视化及数据发布的一站式系统。目前已经整合来自国际相关平台(NCBI、EBI、MG-RAST等)及重要项目(HMP、Tara等)超过12万样本数据,来自我国科学家的超过2000余个样本数据,总数据量超过120TB。平台为用户提供了多级的数据管理和权限控制体系,可用于各研究组管理未发表数据,并在研究组内共享,也可以将内部管理数据进行在线发布与公开。平台为所有公开数据提供基于Persistent Identifier (PID) (
http://www.pidconsortium.eu/)系统的唯一PID号,用于在学术期刊的公开发表及后续数据引用及分析。此外,平台还整合了超过90个在线数据分析工具,提供针对扩增子序列、全基因组序列等4套分析工作流,所有的分析工具和工作流都是以web方式使用,方便微生物领域用户快速掌握及使用。用户可以通过该平台方便地实现数据管理、数据分析、结果展示和数据发布等一系列服务,平台也将为用户提供全过程的使用支持,欢迎国内外用户使用该平台。

微生物资源与大数据中心史文聿、亓合媛为本文共同第一作者,微生物资源与大数据中心及世界微生物数据中心主任马俊才及中心吴林寰博士为本文共同通讯作者。本研究得到中国科学院重点部署项目《人体与环境健康的微生物组共性技术研究》、国家重点研发计划《益生菌健康功能与基于肠道微生物组学的食品营养代谢机理研究》、中国科学院A类先导专项《地球大数据》、中国科学院信息化专项微生物领域云等项目的支持。

原文链接:
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gky1008/5144955

《核酸研究》发表中国微生物组数据平台
https://mp.weixin.qq.com/s/tgVTGOrlm9Ydv7Juskw7jg

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组 宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

(0)

相关推荐