技术贴 | 微生太宏基因组报告解读(开篇)
本文由阿童木根据实践经验而整理,希望对大家有帮助。
原创微文,欢迎转发转载。
微生物世界是分子多样性最大的天然资源库,基于菌株水平的传统分离培养技术为人们认识微生物多样性提供了可能,但是据估计自然界中超过99%的微生物不能通过传统的分离培养技术获得其纯培养,从而导致环境微生物中的多样性基因资源难以被发现。许多重要的微生物我们还不能识别,随着微生物活性产物的广泛研究和深入开发利用,从环境微生物中筛选到新活性物质的几率将逐步下降。而如何开拓利用环境微生物新资源是微生物研究的重要课题。为此研究者们开发了多种以特定环境微生物为研究对象的高通量测序方法——宏基因组。
宏基因组概念
宏基因组学(Metagenomics),是一种直接对微生物群体中包含的全部基因组信息进行研究的手段。宏基因组学绕过对微生物个体进行分离培养,应用基因组学技术对自然环境中的微生物群落进行研究的一门学科。它规避了对样品中的微生物进行分离培养,提供了一种对不可分离培养的微生物进行研究的途径,更真实的反应样本中微生物组成、互作情况,同时在分子水平对其代谢通路、基因功能进行研究。
近年来,随着测序技术和信息技术的快速发展,利用新一代测序技术(Next Generation Sequencing)研究 Metagenomics,能快速准确的得到大量微生物基因数据和丰富的微生物研究信息,从而成为研究微生物多样性和群落特征的重要手段。细菌基因组相对较小,通常仅有一条环状DNA和质粒,通过高通量测序,可以了解其全部遗传信息。这也已经成为微生物研究的重要手段之一,为细菌的遗传进化、疾病预防与治疗、疫苗与抗生素的开发等提供重要的信息。
致力于研究微生物与人类疾病健康关系的人体微生物组计划(HMP, Human Microbiome Project, http://www.hmpdacc.org/ ),研究全球微生物组成和分布的全球微生物组计划(EMP, Earth Microbiome Project, http://www.earthmicrobiome.org/ )都主要利用高通量测序技术进行研究。HMP,iHMP,EMP,MetaHIT等这些国际知名的,集中了大量人力、物力、财力的微生物组计划已经为宏基因组研究打开了大门,铺好了道路,为以后的宏基因组研究提供了理论、知识和经验。下面简单介绍一下开展宏基因组研究项目的思路:从样本收集到文章攥写,需要完成哪些事情。
宏基因组项目思路
宏基因组分析流程
(1)数据质控:
测序得到的原始数据会存在一定比例的低质量数据,为了保证后续信息分析结果的准确可靠,首先要对原始数据进行质控及宿主过滤,得到有效数据。分析中将使用Cutadapt彻底清除原始数据中的Illumina接头序列,再用PrinSEQ去除低质量的序列片段和个别序列。质控前和质控后,会用FastQC来检测质控的合理性和效果。
(2) 去除宿主:
质控处理后的数据通过bowtie2比对到宿主的基因组,没有比对到的序列被保留下来做后续分析。
(3)物种注释:
使用Kraken2和自建的微生物数据库(从Kraken官网下载各个微生物数据库(细菌,真菌,古菌,病毒),合并后再加入哥伦比亚大学实验室研究中新发现的一些细菌基因组数据)来鉴别样本中所含有的物种,再用Bracken来对样本中物种的实际相对丰度进行预测。相较于基于组装的物种注释,基于序列的宏基因组物种注释方法更加全面和准确。
(4)常用功能数据库注释:
从质控以及去除宿主基因的reads出发,使用HUMAnN2软件(基于DIAMOND),将各个样本的reads比对到数据库(UniRef90),根据UniRef90 ID 和各个数据库的对应关系,得到各个功能数据库的注释信息和相对丰度表。
(5)抗性基因注释:
从去除宿主基因的clean reads出发,使用FMAP软件将各个样本的质控以及去除宿主基因的reads与抗生素抗性基因数据库CARD进行比对注释,可以获得抗性基因丰度分布情况。
(6)初级统计分析:
基于物种丰度表和功能丰度表,可以进行丰度聚类分析,PCoA和NMDS降维分析(仅物种),样品聚类分析;当有分组信息时,可以进行LEfSe biomarker挖掘分析以及代谢通路比较分析,挖掘样品之间的物种组成和功能组成差异。
(7)高级统计分析:
另外,还可以基于标准分析结果,进行一系列高级信息分析(如 肠型分析,分箱分析,病原与宿主互作数据库(PHI)注释,分泌蛋白预测,III型分泌系统效应蛋白预测,细菌致病菌毒力因子(VFDB)注释,转移元件分析(MGE)等,更多详细信息请查看微生太宏基因组高级信息分析说明);同时,结合环境因子、病理指标或特殊表型进行深入关联研究,能够为进一步深入研究和利用样品的物种和功能提供理论依据。
以上是宏基因组由来、概念、宏基因组项目思路的简介,以及微生太宏基因组分析的整体概括。以后会继续推出微生太宏基因组样本收集、物种注释、基因注释、功能注释、统计分析、文章写作等系列内容。
你可能还喜欢
1 初学者如何深入解读16S rDNA扩增子测序数据,从而选择自己的分析步骤