宏基因组专题 | 宏基因组分析流程,基于reads VS 基于组装?
本文由Bayegy根据实践经验而整理,希望对大家有帮助。
原创微文,欢迎转发转载。
所谓宏基因组学 (或元基因组学, metagenomics) 就是一种以环境样品中的微生物群体基因组为研究对象, 以功能基因筛选和/或测序分析为研究手段, 以微生物多样性、 种群结构、 进化关系、 功能活性、 相互协作关系及与环境之间的关系为研究目的的微生物研究方法。随着测序技术的不断发展,宏基因组研究也越来越多。然而,在分析流程上,基于reads还是基于组装,两者有何缺点和优点?很多研究者难以抉择。本文以此为题,详细为大家讲解。
宏基因组基于reads和基于组装的分析流程比较
1.基于reads的宏基因组分析流程
1.1 分析流程主要步骤(如图1):
(1) 数据质控:测序得到的原始数据会存在一定比例的低质量数据,为了保证后续信息分析结果的准确可靠,首先要对原始数据进行质控及宿主过滤,得到有效数据。分析中将使用Cutadapt彻底清除原始数据中的Illumina接头序列,再用PrinSEQ去除低质量的序列片段和个别序列。质控前和质控后,会用FastQC来检测质控的合理性和效果。
(2) 去除宿主:质控处理后的数据通过bowtie2比对到宿主的基因组,没有比对到的序列被保留下来做后续分析。
(3) 物种注释:使用Kraken2和自建的微生物数据库[合并从Kraken官网下载各个微生物数据库(细菌,真菌,古菌,病毒)]来鉴别样本中所含有的物种,再用Bracken来对样本中物种的实际相对丰度进行预测。相较于基于组装的物种注释,基于序列的宏基因组物种注释方法更加全面和准确。
(4) 常用功能数据库注释:从质控以及去除宿主基因的reads出发,使用HUMAnN2软件(基于DIAMOND),将各个样本的reads比对到数据库(UniRef90),根据UniRef90 ID 和各个数据库的对应关系,得到各个功能数据库的注释信息和相对丰度表。
(5) 基于物种丰度表和功能丰度表,可以进行丰度聚类分析,PCoA和NMDS降维分析(仅物种),样品聚类分析;当有分组信息时,可以进行LEfSe biomarker挖掘分析以及代谢通路比较分析,挖掘样品之间的物种组成和功能组成差异。
(6) 抗性基因注释:从去除宿主基因的clean reads出发,使用FMAP软件将各个样本的质控以及去除宿主基因的reads与抗生素抗性基因数据库CARD进行比对注释,可以获得抗性基因丰度分布情况。
1.2 优缺点
优点:
(1) 分析软件(humann2)由世界顶尖团队研发,文章发表在Nature,引用量数千,是目前前沿的权威的宏基因组分析软件。
(2) 能够用比较科学的方法鉴定功能的物种来源,既能研究功能组成,也能研究每个功能都是来自哪些物种。
(3) 分析速度稍快。
缺点:
分析基于已有数据库,没法检测样品中的新基因(不存在于数据库中的基因)。但实际上在宏基因组的研究中,新基因的鉴定争议很大,宏基因组中的新基因的研究价值并不大。
2.基于组装的宏基因组分析流程
2.1 分析流程主要步骤
(1) 数据质控:测序得到的原始数据会存在一定比例的低质量数据,为了保证后续信息分析结果的准确可靠,首先要对原始数据进行质控及宿主过滤,得到有效数据。分析中将使用Cutadapt彻底清除原始数据中的Illumina接头序列,再用PrinSEQ去除低质量的序列片段和个别序列。质控前和质控后,会用FastQC来检测质控的合理性和效果。
(2) 去除宿主:质控处理后的数据通过bowtie2比对到宿主的基因组,没有比对到的序列被保留下来做后续分析。
(3) 物种注释:使用Kraken2和自建的微生物数据库[合并从Kraken官网下载各个微生物数据库(细菌,真菌,古菌,病毒)]来鉴别样本中所含有的物种,再用Bracken来对样本中物种的实际相对丰度进行预测。相较于基于组装的物种注释,基于序列的宏基因组物种注释方法更加全面和准确。
(4) 组装:运用megahit软件,将所有样本去宿主基因后的clean reads进行组装(megahit默认组装参数),得到contigs;
(5) 基因预测:运用prodigal软件,预测contigs中的基因序列;
(6) 基因去冗余:用cd-hit软件,对得到的基因进行去冗余,得到去冗余基因;
(7) 基因定量:使用salmon软件,对去冗余基因进行定量;
(8) 常规功能注释:使用eggnog-mapper, diamond软件,对去冗余基因进行各个数据库的注释。统计各个数据库的基因相对丰度表。
(9) 抗性基因注释:运用diamond软件,将去冗余基因比对到CARD数据库,得到CARD数据库的抗性基因注释信息,根据去冗余基因的丰度信息,统计抗性基因的相对丰度表。
2.2 优缺点
优点:
可以预测所有基因,包括数据库中没有的基因,但这部分基因的功能是未知的。一般来说,目前的数据库已经非常全面了,如果一个基因和数据库没比对上,它也可能是由测序,软件分析的误差造成的。
缺点:
(1) 没有成熟的分析软件,没有标准的分析过程。
(2) 目前没有成熟的软件来鉴定基因的物种来源。
(3) 分析速度稍慢。
3.常见误区
部分科研人员觉得组装得到的contigs比reads长,所以基于组装的流程在功能分析时会更加准确。如果您研究的是单个基因功能,不需要知道丰度信息,那这种说法没错。就宏基因组来说,要对功能(基因)进行定量,无论是基于reads还是基于组装,都需要把reads和基因进行比对,只不过基于reads分析,是把reads和数据库中的基因进行比对定量,而基于组装,是把reads和样本中预测得到的基因进行比对定量。所以就准确性来说,两者并没有太大区别,甚至可以说,成熟的humann2的结果更加值得信任。基于组装的流程,为了得到基因丰度,需要比对两次,第一次是reads和预测基因比对,第二次是预测基因和数据库基因比对,比基于reads的分析流程多了一步,实际上增加了犯错误的概率。
4.如何选择
如果您的目的是发现宏基因组中的新基因,研究新基因的功能,丰富已有数据库,那可以选择基于组装的分析流程。如果您想基于已有数据库,研究样本中的功能,以及功能的物种来源,应该选择基于reads的分析流程。基于组装的分析流程在过去比较流行,因为那时数据库还不太全面。就目前来说,我们建议优先选择基于reads的分析流程,除非您的样品来自于一个极端的环境条件,无法在数据库中找到基因功能,而您想为数据库贡献一些基因序列。
感谢您的阅读~