NBT:可重复交互式的微生物组分析平台QIIME 2(2021.4发布)
QIIME 2021.4版本发布:https://docs.qiime2.org/2021.4/
本文是软件介绍,接下来将更新软件中文使用教程
2010年发表于Nature Methods的QIIME[发音同chime]是微生物组领域最广泛使用的扩增子数据分析流程,截止2021年3月14日,Google Scholar统计引用23,878次。
随着近年来测序通量的提高和超大规模研究的开展,其软件架构己法满足未来微生物组大数据和可重复分析的要求。
为满足大数据和可重复分析的需求,由QIIME项目第一作者Gregory Caporaso教授领衔于2016年开始编写全新的微生物组分析平台——QIIME 2,于2018年正式接档QIIME。文章2018年10月24日发布于Peer J预印本服务器,2019年7月24日正式发表于Nature Biotechnology杂志。目前被引近2400+次。
可重复、可交互、适用范围广和可扩展的微生物组数据科学——QIIME 2
Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2
Nature Biotechnology [IF: 36.558]
Published online: 24 July 2019
DOI: https://doi.org/10.1038/s41587-019-0209-9
第一作者:Evan Bolyen1,80, Jai Ram Rideout1,80, Matthew R. Dillon1,80, Nicholas A. Bokulich1,80
通讯作者:J. Gregory Caporaso1,20* greg.caporaso@nau.edu
作者名单
注:本文共有112位作者,79家单位标注,除第一作者(含共同)、通讯作者和Rob Knight除外,其他作者按姓氏字母顺序排列。
Bolyen, Evan1,80
Rideout, Jai Ram1,80
Dillon, Matthew R.1,80
Bokulich, Nicholas A.1,80
Abnet, Christian C.2
Al-Ghalith, Gabriel A.1,80
Alexander, Harriet
Alm, Eric J.
Arumugam, Manimozhiyan
Asnicar, Francesco
Bai, Yang (白洋)10,11,12
Bisanz, Jordan E.
Bittinger, Kyle
Brejnrod, Asker
Brislawn, Colin J.
Brown, C. Titus
Callahan, Benjamin J.
Caraballo-Rodríguez, Andrés Mauricio
Chase, John
Cope, Emily K.
Da Silva, Ricardo
Diener, Christian
Dorrestein, Pieter C.
Douglas, Gavin M.
Durall, Daniel M.
Duvallet, Claire
Edwardson, Christian F.
Ernst, Madeleine
Estaki, Mehrbod
Fouquier, Jennifer
Gauglitz, Julia M.
Gibbons, Sean M.
Gibson, Deanna L.
Gonzalez, Antonio
Gorlick, Kestrel
Guo, Jiarong33
Hillmann, Benjamin
Holmes, Susan35
Holste, Hannes
Huttenhower, Curtis37,38
Huttley, Gavin A.
Janssen, Stefan
Jarmusch, Alan K.
Jiang, Lingjing41
Kaehler, Benjamin D.
Kang, Kyo Bin
Keefe, Christopher R.
Keim, Paul
Kelley, Scott T.
Knights, Dan34,45
Koester, Irina
Kosciolek, Tomasz
Kreps, Jorden
Langille, Morgan G. I.48
Lee, Joslynn
Ley, Ruth50,51
Liu, Yong-Xin (刘永鑫)10,11
Loftfield, Erikka
Lozupone, Catherine28
Maher, Massoud
Marotz, Clarisse
Martin, Bryan D.
McDonald, Daniel
McIver, Lauren J.
Melnik, Alexey V.
Metcalf, Jessica L.54
Morgan, Sydney C.
Morton, Jamie T.
Naimey, Ahmad Turan
Navas-Molina, Jose A.
Nothias, Louis Felix
Orchanian, Stephanie B.
Pearson, Talima
Peoples, Samuel L.
Petras, Daniel
Preuss, Mary Lai
Pruesse, Elmar
Rasmussen, Lasse Buur
Rivers, Adam
Robeson, Michael S.
Rosenthal, Patrick
Segata, Nicola
Shaffer, Michael
Shiffer, Arron
Sinha, Rashmi
Song, Se Jin
Spear, John R.
Swafford, Austin D.
Thompson, Luke R.
Torres, Pedro J.
Trinh, Pauline
Tripathi, Anupriya
Turnbaugh, Peter J.
Ul-Hasan, Sabah
van der Hooft, Justin J. J.
Vargas, Fernando
Vázquez-Baeza, Yoshiki
Vogtmann, Emily
von Hippel, Max
Walters, William
Wan, Yunhu2
Wang, Mingxun19
Warren, Jonathan
Weber, Kyle C.
Williamson, Charles H. D.
Willis, Amy D.
Xu, Zhenjiang Zech(徐振江,现南昌大学教授)32
Zaneveld, Jesse R.
Zhang, Yilong78
Zhu, Qiyun32
Knight, Rob32,57,79
Caporaso, J. Gregory1,20*
作者单位
共有79家单位标注,包括美国(59)、加拿大(7)、中国(3)、澳大利亚(2)、丹麦(2)、德国(2)、韩国(1)、荷兰(1)、意大利(1)和英国(1),共10个国家参与。
Center for Applied Microbiome Science, Pathogen and Microbiome Institute, Northern Arizona University, Flagstaff, AZ, USA (美国亚利桑那州弗拉格斯塔夫,北亚利桑那大学,病原体和微生物组研究所,应用微生物组科学中心)
Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, John Chase, Emily K. Cope, Kestrel Gorlick, Christopher R. Keefe, Paul Keim, Jorden Kreps, Ahmad Turan Naimey, Talima Pearson, Arron Shiffer & J. Gregory Caporaso
Metabolic Epidemiology Branch, National Cancer Institute, Rockville, MD, USA (美国马里兰州罗克维尔国家癌症研究所代谢流行病学分会)
Christian C. Abnet, Erikka Loftfield, Rashmi Sinha, Emily Vogtmann & Yunhu Wan
Department of Computer Science and Engineering, University of Minnesota, Minneapolis, MN, USA (美国明尼苏达州明尼苏达大学计算机科学与工程系)
Gabriel A. Al-Ghalith
Biology Department, Woods Hole Oceanographic Institution, Woods Hole, MA, USA (美国马萨诸塞州伍兹霍尔,伍兹霍尔海洋研究所生物系)
Harriet Alexander
Department of Population Health and Reproduction, University of California, Davis, Davis, CA, USA(美国加州大学戴维斯分校人口健康与生殖系)
Harriet Alexander & C. Titus Brown
Department of Biological Engineering, Massachusetts Institute of Technology, Cambridge, MA, USA(美国麻省理工学院生物工程系)
Eric J. Alm & Claire Duvallet
Center for Microbiome Informatics and Therapeutics, Massachusetts Institute of Technology, Cambridge, MA, USA(美国麻省理工学院微生物组信息学和治疗中心)
Eric J. Alm
Novo Nordisk Foundation Center for Basic Metabolic Research, Faculty of Health and Medical Sciences, University of Copenhagen, Copenhagen, Denmark(丹麦哥本哈根哥本哈根大学健康与医学科学学院,诺和诺德基金会基础代谢研究中心)
Manimozhiyan Arumugam, Asker Brejnrod & Lasse Buur Rasmussen
Centre for Integrative Biology, University of Trento, Trento, Italy(意大利特伦托特兰托大学整合生物学中心)
Francesco Asnicar & Nicola Segata
State Key Laboratory of Plant Genomics, Institute of Genetics and Developmental Biology, Chinese Academy of Sciences, Beijing, China (中国科学院遗传与发育生物学研究所植物基因组学国家重点实验室)
Yang Bai & Yong-Xin Liu
Centre of Excellence for Plant and Microbial Sciences (CEPAMS), Institute of Genetics and Developmental Biology, Chinese Academy of Sciences & John Innes Centre, Beijing, China(中国科学院遗传与发育生物学研究所,中国科学院-英国约翰英纳斯中心植物和微生物科学联合研究中心)
Yang Bai & Yong-Xin Liu
University of Chinese Academy of Sciences, Beijing, China(中国科学院大学)
Yang Bai
Department of Microbiology and Immunology, University of California, San Francisco, San Francisco, CA, USA(美国加州大学旧金山分校微生物学和免疫学系)
Jordan E. Bisanz
Division of Gastroenterology and Nutrition, Children’s Hospital of Philadelphia, Philadelphia, PA, USA (美国宾夕法尼亚州费城儿童医院消化内科和营养科)
Kyle Bittinger
Hepatology, Children’s Hospital of Philadelphia, Philadelphia, PA, USA(美国宾夕法尼亚州费城,费城儿童医院,肝病学)
Kyle Bittinger
Earth and Biological Sciences Directorate, Pacific Northwest National Laboratory, Richland, WA, USA(美国华盛顿州,太平洋西北地区国家实验室,地球和生物科学理事会)
Colin J. Brislawn
Department of Population Health & Pathobiology, North Carolina State University, Raleigh, NC, USA(美国北卡罗来纳州立大学人口健康与病理学系)
Benjamin J. Callahan
Bioinformatics Research Center, North Carolina State University, Raleigh, NC, USA(美国北卡罗来纳州立大学生物信息学研究中心)
Benjamin J. Callahan
Collaborative Mass Spectrometry Innovation Center, Skaggs School of Pharmacy and Pharmaceutical Sciences, University of California San Diego, San Diego, CA, USA(美国加利福尼亚州圣地亚哥,圣地亚哥分校Skaggs药学与药物科学学院协同质谱创新中心)
Andrés Mauricio Caraballo-Rodríguez, Ricardo Da Silva, Pieter C. Dorrestein, Madeleine Ernst, Julia M. Gauglitz, Alan K. Jarmusch, Kyo Bin Kang, Irina Koester, Alexey V. Melnik, Louis Felix Nothias, Daniel Petras, Anupriya Tripathi & Mingxun Wang
Department of Biological Sciences, Northern Arizona University, Flagstaff, AZ, USA(美国北亚利桑那大学生物科学系)
Emily K. Cope & J. Gregory Caporaso
Institute for Systems Biology, Seattle, WA, USA(美国华盛顿州西雅图系统生物学研究所)
Christian Diener & Sean M. Gibbons
Department of Microbiology and Immunology, Dalhousie University, Halifax, Nova Scotia, Canada(加拿大新斯科舍省哈利法克斯,达尔豪斯大学微生物学和免疫学系)
Gavin M. Douglas
Irving K. Barber School of Arts and Sciences, University of British Columbia, Kelowna, British Columbia, Canada(加拿大不列颠哥伦比亚省基洛纳市不列颠哥伦比亚大学欧文K. Barber艺术与科学学院)
Daniel M. Durall
A. Watson Armour III Center for Animal Health and Welfare, Aquarium Microbiome Project, John G. Shedd Aquarium, Chicago, IL, USA(美国伊利诺伊州芝加哥市,John G. Shedd水族馆,水族馆微生物组计划,A. Watson Armour III动物健康与福利中心)
Christian F. Edwardson
Department of Congenital Disorders, Statens Serum Institut, Copenhagen, Denmark(丹麦哥本哈根Statens血清研究所先天性疾病系)
Madeleine Ernst
Department of Biology, University of British Columbia Okanagan, Okanagan, British Columbia, Canada(加拿大英属哥伦比亚大学生物系奥肯那根)
Mehrbod Estaki
Computational Bioscience Program, University of Colorado Anschutz Medical Campus, Aurora, CO, USA(美国科罗拉多大学安舒茨医学校区,计算生物科学计划)
Jennifer Fouquier & Michael Shaffer
Department of Medicine, Division of Biomedical Informatics and Personalized Medicine, University of Colorado Anschutz Medical Campus, Aurora, CO, USA(美国科罗拉多州奥罗拉市,科罗拉多大学Anschutz医学院,医学系生物医学信息学和个性化,医学系)
Jennifer Fouquier, Catherine Lozupone, Elmar Pruesse & Michael Shaffer
eScience Institute, University of Washington, Seattle, WA, USA(美国华盛顿州西雅图市,华盛顿大学电子科学研究所)
Sean M. Gibbons
Irving K. Barber School of Arts and Sciences, Department of Biology, University of British Columbia, Kelowna, British Columbia, Canada(加拿大不列颠哥伦比亚省基洛纳,不列颠哥伦比亚大学生物系,Irving K. Barber艺术与科学学院)
Deanna L. Gibson
Department of Medicine, University of British Columbia, Kelowna, British Columbia, Canada(加拿大不列颠哥伦比亚省基洛纳,不列颠哥伦比亚大学医学系)
Deanna L. Gibson
Department of Pediatrics, University of California San Diego, La Jolla, CA, USA(美国加州大学圣地亚哥分校儿科)
Antonio Gonzalez, Hannes Holste, Clarisse Marotz, Daniel McDonald, Jamie T. Morton, Jose A. Navas-Molina, Se Jin Song, Anupriya Tripathi, Yoshiki Vázquez-Baeza, Zhenjiang Zech Xu, Qiyun Zhu & Rob Knight
Center for Microbial Ecology, Michigan State University, East Lansing, MI, USA(美国密歇根州东兰辛,密歇根州立大学微生物生态中心)
Jiarong Guo
Department of Computer Science and Engineering, University of Minnesota, Minneapolis, MN, USA(美国明尼苏达州,明尼苏达大学计算机科学与工程系)
Benjamin Hillmann & Dan Knights
Statistics Department, Stanford University, Palo Alto, CA, USA(美国加利福尼亚州帕洛阿尔托,斯坦福大学统计系)
Susan Holmes
Department of Computer Science and Engineering, University of California San Diego, La Jolla, CA, USA(美国加州大学圣地亚哥分校计算机科学与工程系)
Hannes Holste
Department of Biostatistics, Harvard T.H. Chan School of Public Health, Boston, MA, USA(美国哈佛T.H. Chan公共卫生学院,生物统计学系)
Curtis Huttenhower & Lauren J. McIver
Broad Institute of MIT and Harvard, Cambridge, MA, USA(美国麻省理工学院和哈佛大学博德研究所)
Curtis Huttenhower & Lauren J. McIver
Research School of Biology, The Australian National University, Canberra, Australian Capital Territory, Australia(澳大利亚首都地区堪培拉,澳大利亚国立大学,生物研究学院)
Gavin A. Huttley & Benjamin D. Kaehler
Department of Pediatric Oncology, Hematology and Clinical Immunology, Heinrich-Heine University Dusseldorf, Dusseldorf, Germany(德国,杜塞尔多夫Heinrich-Heine大学,儿科肿瘤学,血液学和临床免疫学系)
Stefan Janssen
Department of Family Medicine and Public Health, University of California San Diego, La Jolla, CA, USA(美国加州大学圣地亚哥分校,家庭医学与公共卫生系)
Lingjing Jiang
School of Science, University of New South Wales, Canberra, Australian Capital Territory, Australia(澳大利亚首都直辖区堪培拉,新南威尔士大学,科学学院)
Benjamin D. Kaehler
College of Pharmacy, Sookmyung Women’s University, Seoul, Republic of Korea(韩国首尔淑明女子大学药学院)
Kyo Bin Kang
Department of Biology, San Diego State University, San Diego, CA, USA(美国圣地亚哥州立大学生物系)
Scott T. Kelley
Biotechnology Institute, University of Minnesota, Saint Paul, MN, USA(美国明尼苏达州圣保罗市,明尼苏达大学生物技术研究所)
Dan Knights
Scripps Institution of Oceanography, University of California San Diego, La Jolla, CA, USA(美国加利福尼亚州拉霍亚,斯克里普斯海洋研究所,加州大学圣地亚哥分校)
Irina Koester
Department of Pediatrics, University of California San Diego, La Jolla, California, USA(美国加州大学圣地亚哥分校儿科)
Tomasz Kosciolek
Department of Pharmacology, Dalhousie University, Halifax, Nova Scotia, Canada(加拿大新斯科舍省哈利法克斯,达尔豪斯大学药理学系)
Morgan G. I. Langille
Science Education, Howard Hughes Medical Institute, Ashburn, VA, USA(美国弗吉尼亚州阿什本,霍华德休斯医学研究所,科学教育)
Joslynn Lee
Department of Microbiome Science, Max Planck Institute for Developmental Biology, Tübingen, Germany(德国蒂宾根,马克斯普朗克发育生物学研究所,微生物组科学系)
Ruth Ley & William Walters
Department of Molecular Biology and Genetics, Cornell University, Ithaca, NY, USA(美国康奈尔大学分子生物学和遗传学系,美国纽约州伊萨卡市)
Ruth Ley
Department of Computer Science & Engineering, University of California San Diego, La Jolla, CA, USA(美国加州大学圣地亚哥分校计算机科学与工程系)
Massoud Maher, Jamie T. Morton & Jose A. Navas-Molina
Department of Statistics, University of Washington, Seattle, WA, USA(美国华盛顿州西雅图市,华盛顿大学统计系)
Bryan D. Martin
Department of Animal Science, Colorado State University, Fort Collins, CO, USA(美国科罗拉多州科林斯堡,科罗拉多州立大学动物科学系)
Jessica L. Metcalf
Irving K. Barber School of Arts and Sciences, Unit 2 (Biology), University of British Columbia, Kelowna, British Columbia, Canada(加拿大不列颠哥伦比亚省,基洛纳,不列颠哥伦比亚大学欧文K. Barber艺术与科学学院,2单元(生物学))
Sydney C. Morgan
Google LLC, Mountain View, CA, USA (美国加州,山景城,谷歌有限责任公司)
Jose A. Navas-Molina
Center for Microbiome Innovation, University of California San Diego, La Jolla, CA, USA(美国加利福尼亚州拉霍亚加州大学圣地亚哥分校微生物组创新中心)
Stephanie B. Orchanian, Austin D. Swafford & Rob Knight
School of Information Studies, Syracuse University, Syracuse, NY, USA(美国纽约州,锡拉丘兹大学信息研究学院)
Samuel L. Peoples
School of STEM, University of Washington Bothell, Bothell, WA, USA(美国华盛顿大学博塞尔分校STEM学院)
Samuel L. Peoples
Department of Biological Sciences, Webster University, St. Louis, MO, USA(美国密苏里州圣路易斯韦伯斯特大学生物科学系)
Mary Lai Preuss & Patrick Rosenthal
Agricultural Research Service, Genomics and Bioinformatics Research Unit, United States Department of Agriculture, Gainesville, FL, USA(美国佛罗里达州盖恩斯维尔,美国农业部,农业研究服务,基因组学和生物信息学研究中心)
Adam Rivers & Kyle C. Weber
College of Medicine, Department of Biomedical Informatics, University of Arkansas for Medical Sciences, Little Rock, AR, USA(美国阿肯色州小石城,阿肯色大学医学院生物医学信息学系医学院)
Michael S. Robeson II
Department of Civil and Environmental Engineering, Colorado School of Mines, Golden, CO, USA(美国科罗拉多州戈尔登市,科罗拉多矿业学院土木与环境工程系)
John R. Spear
Department of Biological Sciences and Northern Gulf Institute, University of Southern Mississippi, Hattiesburg, MS, USA(美国,南密西西比大学生物科学系和北海湾研究所)
Luke R. Thompson
Ocean Chemistry and Ecosystems Division, Atlantic Oceanographic and Meteorological Laboratory, National Oceanic and Atmospheric Administration, La Jolla, CA, USA(美国加利福尼亚州拉霍亚国家海洋和大气管理局,大西洋海洋学和气象实验室,海洋化学和生态系统司)
Luke R. Thompson
Department of Biology, San Diego State University, San Diego, CA, USA(美国圣地亚哥州立大学生物系)
Pedro J. Torres
Department of Environmental and Occupational Health Sciences, University of Washington, Seattle, WA, USA(美国华盛顿州西雅图市,华盛顿大学,环境与职业健康科学系)
Pauline Trinh
Division of Biological Sciences, University of California San Diego, San Diego, CA, USA(美国加州大学圣地亚哥分校生物科学系)
Anupriya Tripathi & Fernando Vargas
Department of Microbiology and Immunology, University of California San Francisco, San Francisco, CA, USA(美国加州大学旧金山分校微生物学和免疫学系)
Peter J. Turnbaugh
Quantitative and Systems Biology Graduate Program, University of California Merced, Merced, CA, USA(美国加州,默塞德大学定量与系统生物学研究生计划)
Sabah Ul-Hasan
Bioinformatics Group, Wageningen University, Wageningen, the Netherlands(荷兰瓦赫宁根大学,生物信息学中心)
Justin J. J. van der Hooft
Department of Mathematics, University of Arizona, Tucson, AZ, USA(美国亚利桑那州图森市,亚利桑那大学数学系)
Max von Hippel
National Laboratory Service, Environment Agency, Starcross, UK(英国,环境局,国家实验室服务中心)
Jonathan Warren
College of Agriculture and Life Sciences, University of Florida, Gainesville, FL, USA(美国佛罗里达大学农业与生命科学学院)
Kyle C. Weber
Pathogen and Microbiome Institute, Northern Arizona University, Flagstaff, AZ, USA(美国亚利桑那州弗拉格斯塔夫,北亚利桑那大学,病原体和微生物组研究所)
Charles H. D. Williamson
Department of Biostatistics, University of Washington, Seattle, WA, USA(美国华盛顿州西雅图市,华盛顿大学生物统计学系)
Amy D. Willis
School of STEM, Division of Biological Sciences, University of Washington Bothell, Bothell, WA, USA(美国华盛顿州博塞尔,华盛顿大学博塞尔分校生物科学部STEM学院)
Jesse R. Zaneveld
Merck & Co. Inc., Kenilworth, NJ, USA(美国新泽西州凯尼尔沃思,默克公司)
Yilong Zhang
Department of Computer Science and Engineering, University of California San Diego, La Jolla, CA, USA(美国加州大学圣地亚哥分校计算机科学与工程系)
Rob Knight
热心肠导读
中文标题:使用QIIME 2实现可重复、交互和可扩展的微生物组数据分析
分享标题:全新微生物组分析平台QIIME 2在Nature Biotechnology正式发表
我们推出了开源的微生物组数据科学平台——QIIME 2,适用于微生物生态领域研究人员的科学家、工程师,以及临床医生和决策者。QIIME 2的新特征将会推动微生物研究进入新的阶段。主要包括时间和空间分析和可视化工具,支持代谢组和宏基因组数据分析,自动化数据来源追溯确保数据的可重复,微生物组数据科学透明。
发表于2010年的QIIME是基于Python2开发的微生物组领域高引分析流程,但在可重复、大数据方面无法满足当今需求;
为解决以上问题,由QIIME一作Gregory Caporaso发起的QIIIME2基于Python3全新编写了可重复、可扩展的微生物分析平台——QIIME 2,由来自10个国家的79家单位共112人参与;
目前平台支持扩增子、宏基因组和代谢组数据分析,未来将支持宏转录组、蛋白组;
平台分析过程可追溯、图表可交互、结果查看和分享方便,满足未来可重复分析和多人合作的要求。
编者评语:引用2.3万多次的微生物组分析流程QIIME发布已11年,无法满足当今大数据和可重复分析的要求。2016年发起的全新项目QIIME 2,基于Python3编写,集合了10个国家79家单位的112位作者共同参与,于2019年7月24日在生物技术顶级期刊Nature Biotechnology正式发表。该项目发表不是项目结束,而是刚刚开始,将会以每季度的速度进行大版本更新优化和增加新功能,而且也希望更多的国际同行加入,打造微生物组领域最强大的分析平台和知识库。该项目在发表前已经非正式引用近千次,现在大家可以优雅的引用它了。
正文
在过去的二十年里,测序技术和生物信息工具的发展改变了人们对微生物世界的认识。如增长了对微生物多样性的理解;微生物群和微生物组在疾病和药物治疗中的影响;微生物如何影响健康;以及微生物组技术在药学、法医学、环境和农业中的初步尝试。大多数的工作采用标记基因调查(marker-gene survey,如细菌/古菌的16S rRNA基因,真菌的转录间隔区ITS和真核的18S rRNA基因),可以获得物种的特异性和进化信息。这一领域正在向整合其它数据过渡,如代谢组、宏蛋白组和宏转录组。
QIIME 1微生物组生物信息分析平台支持了许多微生物组学研究(截止此文发表时,Google统计引用15831次),获得了广泛的用户和社区人员参与开发。通过在线论坛与QIIME 1用户的交流,研究会,以及直接的合作,软件在学术、政府以及工业领域中有多种应用。这里,我们推出全新工程化设计和重写的系统——QIIME 2,设计为方便可重复和分子分析微生物数据的下一次微生物组科学分析平台。
QIIME2开发基于插件的架构(附图1),允许第三方开发新功能(https://library.qiime2.org)。QIIME 2插件提供了支持不同测序平台的新一代的序列质量控制工具DADA2和Deblur,物种分类、系统发育插值等工具,比QIIME 1和其它工具可以定量更优的结果。插件也支持一些新的分析方法,如成对样本比较、时间序列分析(研究处理对微生物组的影响至关重要),和机器学习。训练的机器学习模型可以保存并应用于新数据,以鉴定重要的微生物组特征。最近新发表的插件q2-cscs, q2-metabolomics, q2-shogun, q2-metaphlan2和q2-picrust2为分析宏代谢组和宏基因组提供了初步的支持。我们也正努力 开发生信工具处理宏转录组和宏蛋白组数据,将很快与大家见面。此外,许多现存的下游分析工具,如q2-sample-classifier可以单独或与其它软件配合处理特征表。因此,QIIME 2的潜力不仅可用于处理标记基因分析,也是一个多维度、强大的数据科学平台,可以快速发展为适应多种微生物组数据特征的平台。
附图1. QIIME 2系统的示意图
Figure S1. Schematic diagram of the QIIME 2 system.
接口(interfaces)定义用户与系统交互的方式; 插件(plugins)定义所有特定模块的功能; 框架(framework)调解插件和接口之间的通信,并执行核心功能,如起源跟踪。箭头表示依赖关系。接口仅与qiime2.sdk
子模块交互,而插件仅与qiime2.plugin
子模块交互。这种设计使得第三方插件和界面开发人员可以轻松扩展该系统。
Interfaces define how users interact with the system; plugins define all domain-specific functionality; and the framework mediates communication between plugins and interfaces, and performs core functionality such as provenance tracking. Arrows indicate dependencies. Interfaces interact only with the
qiime2.sdk
submodule, while plugins interact only with theqiime2.plugin
submodule. This design has led to a system that is readily extended by third-party plugin and interface developers.
QIIME 2提供多种新交互可视化工具,加速数据的探索和结果的报告可读性。图1中展示了4个交互可视化结果的静态版本,可以使用QIIME 2查看器在线查看,无需安装任何软件,方便结果共享。可视化结果呈现在图1中,交互文件在补充文件1中方便读者自己体验交互式操作和结果解读。这些分析的对应代码见补充方法部分。
图1. QIIME 2提供多种交互式可视化工具
Fig. 1 | QIIME 2 provides many interactive visualization tools.
QIIME2提供了众多的交互式可视化工具。本图展示了4个示例,这些屏幕截图的交互版本详见 文章补充文件1压缩包中的文件,或访问 https://github.com/qiime2/paper1 下载。这些图绘制的详细代码、描述详见补充方法部分。
The products of four worked examples are presented here, and interactive versions of these screen captures are available in Supplementary File 1 and at https://github.com/qiime2/paper1. Detailed descriptions and methods, including the commands used to generate each of these visualizations, are provided in Supplementary Methods.
a. 基于37,680个样本的无权重UniFrac PCoA图,表明QIIME 2的大样本量处理能力(scalable)。按地球微生物组的本体论分类着色。
a, Unweighted UniFrac principal coordinate analysis plot containing 37,680 samples, illustrating the scalability of QIIME 2. Colors indicate sample type, as described by the Earth Microbiome Project ontology (EMPO).
b. 交互式柱状图展示黄石公园热泉不同温度梯度下物种组成。更多可交互式的可控条件,极大的减少了分析工作量。
b, Interactive taxonomic composition bar plot illustrating the phylum-level composition of microbial-mat samples collected along a temperature gradient in Yellowstone National Park Hot Spring outflow channels (Steep Cone Geyser). The many interactive controls available in this plot vastly decrease the burden of exploratory analysis over QIIME 1.
c. 波动图(volatility plot)展示母乳和奶粉喂养婴儿双歧杆菌丰度随时间的变化。此可视化方法可用于交互挖掘时空特异的特征,按特征的重要性排序,并展示对应的平均相对丰度,轻松挖掘关注的候选菌。
c, Feature volatility plot (https://msystems.asm.org/content/3/6/e00219-18) illustrating the change in Bifidobacterium abundance over time in breast-fed and formula-fed infants. Temporally interesting features can be interactively discovered with this visualization. Bar charts rank the importance (predictive power for time point) and mean abundance of all microbial features. These bar charts provide an interface for visualizing volatility plots (line plots) of individual features in the context of their importance and abundance; clicking on a bar will display the volatility plot of that feature and highlight in blue that feature’s importance and abundance in the bar charts below.
d. 人类皮肤表面的分子地图。着色的点代表小分子化妆品硫酸月桂酸钠在人体皮肤上的丰度。样本数据可以在3D模型上交互式可视化,支持空间模式的发现。
d, Molecular cartography of the human skin surface. Colored spots represent the abundance of the small-molecule cosmetic ingredient sodium laureth sulfate on the human skin. Sample data can be interactively visualized in three-dimensional models, thus supporting the discovery of spatial patterns.
QIIME 2设计的原则是可重复、透明和清淅的微生物组数据科学。为实现这一目标,QIIME 2包括一个去中心的数据来源追溯系统:所有分析的详细步骤以及参考文献都自动保存于结果中。用户可以准确回顾这些结果的精确产生过程(图2展示了图1c数据来源的追溯图)。QIIME 2也可以检测到结果损坏,即结果不再有可靠的可重复来源信息。图1中的来源可查看补充文件1中的结果。QIIME 2的结果也是语义类型的(图2),动作(actions)代表可接收的输入类型,清楚数据可应用的动作,可以使用复杂的工作流程减少错误。复杂的工作流程可以采用Jupyter笔记、通用工作流语言(Common Workflow Language,CWL)创建和共享,对其它工作流程的支持正在开发中。
图2. 迭代记录数据来源确保分析可重复
Fig. 2 | QIIME 2 iteratively records data provenance, ensuring bioinformatics reproducibility.
简化的示意图展示创建图1b中物种组成柱状图分析过程的可追溯图。QIIME 2结果(圆形)构成的网络展示数据存储的追溯。动作(平等四边行)应用于QIIME 2的结果并产生新的结果。箭头表示通过方法操作的QIIME 2结果流。TaxonomicClassifier
和FeatureData [Sequence]
输入包含独立的出处(分别为红色和蓝色),并提供给分类动作(黄色),分类注释序列。分类操作的结果是FeatureData [Taxonomy]
结果,它将两个输入的出处与分类操作相结合。然后使用FeatureTable [Frequency]
输入将该结果提供给barplot
动作,该输入与FeatureData [Sequence]
输入共享一些起源,因为它们是从相同的上游分析生成的。最终的可视化(图1b)具有完整的数据来源,并正确识别输入的共享处理。为了说明的目的,这个简化的表示是从完整的起源图中手动创建的。可以通过补充文件1访问该起源图的交互式完整版本。其它图的可追溯过程见附图1。
This simplified diagram illustrates the automatically tracked information regarding the creation of the taxonomy bar plot presented in Fig. 1b. QIIME 2 results (circles) contain network diagrams illustrating the data provenance stored in the result. Actions (quadrilaterals) are applied to QIIME 2 results and generate new results. Arrows indicate the flow of QIIME 2 results through actions. TaxonomicClassifier and FeatureData[Sequence] inputs contain independent provenance (red and blue, respectively) and are provided to a classify action (yellow), which taxonomically annotates sequences. The result of the classify action, a FeatureData[Taxonomy] result, integrates the provenance of both inputs with the classify action. This result is then provided to the barplot action with a FeatureTable[Frequency] input, which shares some provenance with the FeatureData[Sequence] input, because they were generated from the same upstream analysis. The resulting visualization (Fig. 1c) has the complete data provenance and correctly identifies shared processing of inputs. This simplified representation was created manually from the complete provenance graph for the purpose of illustration. An interactive and complete version of this provenance graph (as well as those for other Fig. 1 panels) can be accessed through Supplementary File 1.
最终,QIIME 2提供了软件开发工具箱(https://dev.qiime2.org),可以整合其它系统如Qiita或BaseSpace中的数据,开发面向不同熟练程度的用户可用的功能(**附图2**)。QIIME 2也提供了QIIME 2 Studio的图形界面工作环境,QIIME 2 View用于终端生物学家、临床和政策制定者零专业基础使用;QIIME 2应用的可编程界面为实现自动化流程采用可交互的Jupyter Notebooks环境中实现;q2cli和q2cwl提供了命令行界面,CWL可支持专业的高性能计算。在目前,计算开支较大的步骤支持并行计算,如去噪、物种分类等。目前正在开发深度整合并行策略,可用的第三方工作流程引擎,目前并行采用CWL方式。
附图2. QIIME2的各种使用界面
Figure S2. QIIME 2 is interface agnostic.
QIIME 2提供多种使用界面,方便不同计算水平人员使用。
a. 网页QIIME 2 View查看数据或结果工具,用户无需安装软件;这一设计方便团队负责人、医生、决策者探索其他人分析的交互式可视化结果;
b. 喜欢图形界面的用户可使用原生的图型界面QIIME 2 Studio,,无需命令行或编程技巧;
c. 对于熟悉Linux命令行,计算集群使用的用户,推荐使用命令行界面——q2cli;
d. 使用Jupyter Notebooks、对自运化工作流程感兴趣的数据科学家,可使用Python 3接口的artifact API
The full suite of QIIME 2 functionality is useful to and usable by researchers ranging widely in their computational sophistication, a major advantage over technologies such as QIIME 1 that provide a single interface. (a) Users wanting to view QIIME 2 results or data provenance can use QIIME 2 View without installing QIIME 2, which is convenient for lead investigators, clinicians, or policy makers who may want to explore interactive visualizations generated by others. (b) Researchers who prefer graphical interfaces can use QIIME 2 Studio, our prototype graphical interface. This is convenient for users without command line or programming skills. (c) Power users (e.g., who are comfortable with the Linux command line and/or regularly work on institutional computer clusters), can use QIIME 2 through the command line interface, q2cli. (d) “Data scientists” (e.g., users who are programmers, who work in Jupyter Notebooks, or who are interested in automating QIIME 2 workflows), can use QIIME 2 through the Python 3 “artifact API”.
目前也有一些开源且强大的微生物组数据科学软件工具,如mothur, phyloseq以及其它在Bioconductor上的R包和biobakery suite。微生物组分析平台mothur经常与QIIME 1和QIIME2比对,主要的不同是交互式可视化:QIIME 2提供许多种交互可视化工具,详见图1,而mothur只专注于产生数据,方便其它工具读取和可视化。phyloseq工具善长微生物组数据的统计分析,可产生出版级的可视化结果,但它是从特征表起始,上游分析依赖其它流程,在Bioconductor上还有其它类似的工具。biobakery suite目前对QIIME 2的功能有互补,我们也与其沟通并将其开发为QIIME 2的插件版,可以在QIIME 2平台中可用,如q2-metaphlan2
实现在QIIME 2中运行MetaPhlAn2。QIIME 2是一个基于Python的微生物组数据科学平台,支持来源追溯、多组学分析、多种界面操作方式、可扩展和配套开发工具。在补充方法中有用户对QIIME 2的评价。
上以分析结果均由插件生成,文件格式采用多语言通用环境,如Jupyter Notebooks、BIOM格式被主流工具支持。多样化的可交互操作软件生态系统对该领域大有益处,因为它允许有经验的用户获得他们数据的多角度视角,并允许新手生物信息学家在他们最熟悉的编程环境中工作(例如,phyloseq允许用户使用R语言环境,而QIIME 2允许用户使用Python环境)。我们计划继续与这些工具的开发人员以及基因组学标准联盟等组织合作,提供插件和标准,以确保相互可操作性,以及开发自动从微生物数据共享平台(如Qiita)、 欧洲生物信息学研究所(EBI)欧洲阅读档案(ERA)和国家生物技术信息中心(NCBI)序列阅读档案(SRA)导入数据的工具。
微生物组研究的进展有望改善健康和世界的许多方面,QIIME 2将通过实现易用的、社区支持的微生物组数据科学平台来帮助推动这些领域的进步。
数据可用
图1a的数据自自EMP项目 ftp://ftp.microbio.me/emp/release1 , 和下载自Qiita的美国人肠道项目 (AGP) (http://qiita.microbio.
me) study ID 10317。图1b也下载自Qiita,study ID 10249或EBI访问号ERP016173。图1c的数据下载自Qiita编号study ID 925 或EBI 访问号ERP022167。图1d的数据保存于GitHub https://github.
com/biocore/q2-ili 。图1的可交互版本文件位于 https://github.com/qiime2/paper1
代码可用
QIIME 2对所有用户可用,包括商业用途,源代码见 https://github.com/qiime2 。帮助文件可访问论坛 https://forum.qiime2.org
额外信息
补充信息,见文章主页 https://doi.org/10.1038/s41587-019-0209-9
附图3. QIIME2文档类型qza/qzv和结构
Figure S3. Anatomy of a QIIME 2 Archive (i.e., .qza or .qzv file).
QIIME2存储的数据采用目录结构化结果,称为存档。这些存档为压缩格式,方便数据移动。目录结构有唯一的根目录,并有UUID作为标识。
QIIME 2 stores data in a directory structure called an Archive . These archives are zipped to make moving data convenient. The directory structure has a single root directory named with a UUID which serves as the identity of the archive.
在线方法
我们建立一个qiime2的目录对本流程进行初步了解
wd=~/test/qiime2
mkdir $wd
cd $wd
详细用法将在本月底软件更新后,推出中文版教程。
提取QIIME2的存档内容
很多QIIME 2新用户困惑的是结果为特殊格式,不可直接查看,使用不方便。
其实,qza和qzv格式就是zip的压缩包,可使用unzip直接解压
# 下载代表性序列(OTU)
wget https://docs.qiime2.org/2018.8/data/tutorials/moving-pictures/rep-seqs.qza
# 解压
unzip rep-seqs.qza
# 查看序列文件前4行
head -4 8dc793b8-7284-462a-8578-6370ffccebdc/data/dna-sequences.fasta
是不是觉得QIIME 2的结果很熟悉了,让我们开始全新的可重复计算新时代吧!
>f352c1f1efecf483511c2270aabd0ae6
TACGTAGGGTGCGAGCGTTAATCGGAATTACTGGGCGTAAAGCGTGCGCAGGCGGTTTTGTAAGACAGAGGTGAAATCCCCGGGCTCAACCTGGGAACTGCCTTTGTGACTGCAAGGCTG
>82e72255267397b777a1afd44ea22755
TACGGAGGATCCAAGCGTTATCCGGAATCATTGGGTTTAAAGGGTCCGTAGGCGGTTTAGTAAGTCAGTGGTGAAAGCCCATCGCTCAACGGTGGAACGGCCATTGATACTGCTAGACTT
Reference
Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019. doi:10.1038/s41587-019-0209-9