宏基因组分析专题(5):从宏基因组数据中得到高质量的基因组数据- MetaBAT的安装和使用

生科云网址:https://www.bioincloud.tech


本文由微科盟phage根据实践经验而整理,希望对大家有帮助。

微科盟原创微文,欢迎转发转载,转载须注明来源《微生态》公众号。

写在前面

宏基因组分箱(Binning)是将宏基因组测序得到的混合了不同微生物的序列reads或序列组装得到的contigs或scaffolds按物种分开归类的过程。这些分开归类的序列被称为宏基因组组装基因组(metagenome-assembled genomes,MAGs)。
在宏基因组分析中,往往需要在宏基因组数据中重建某个单个的生物的基因组来进行进一步研究,其中代表性的分箱工具为Maxbin和MetaBAT。一般来说宏基因组分箱的基本原理是通过四核苷酸频率(tetranucleotide frequency),GC含量和必需的单拷贝基因等的不同来区分不同的基因组。具体的算法参照以下网址:MetaBAT(https://peerj.com/articles/7359/),Maxbin(https://academic.oup.com/bioinformatics/article-abstract/32/4/605/1744462)。
两款软件都是宏基因组分箱权威软件,本文将重点介绍MetaBAT的安装和使用。下图为MetaBAT的pepline,首先将不同来源的基因组,在二代测序后并进行组装,将测序的reads比对到组装的contigs上,通过MetaBAT软件计算contig的四核苷酸频率(TDP),计算所有样本的丰度距离概率 (ADP),组合每个contigs的TDP和ADP,对这些contigs结果距离形成一个距离矩阵,通过在距离矩阵中迭代和穷举来得到每一个bin。MetaBAT2 在MetaBAT的基础上使用了全新的算法,提高了分箱的准确度。
图1

安装和使用

一、MetaBAT的安装和使用

参考官方文档:

https://bitbucket.org/berkeleylab/metabat/issues?status=new&status=open

1.1 安装前准备

要保证自己的linux系统相关的软件版本达到安装要求

gcc/g++ >= 4.9

boost >= 1.53

cmake >= 3.8.2

make >= 4.1

可以输入conda update –all 升级所有的软件包。

1.2 开始安装

git clone https://bitbucket.org/berkeleylab/metabat.git  #下载安装包

cd metabat

mkdir build

cd build

cmake -DCMAKE_INSTALL_PREFIX=$HOME/metabat ..

make   #编译

make install

cd ..

rm -rf build

1.3 报错解决

笔者在软件编译 (make) 这一步的时候出现了这样一个报错

图2

可以看到报错信息为antoheader没有找到,解决方法如下:

sudo apt-get install autoconf

我们在解决安装报错的时候一定要认真看系统反馈的报错信息才能更好的解决,当编译到100%的时候及编译成功。

图3

1.4 将MetaBAT加入到环境变量中

当安装成功时候,首先得把软件加入到环境变量中

export PATH=$PATH:$pwd #把当前目录加到环境变量中这只是临时的生效,永久生效请修改bashrc文件

二、运行MetaBAT

2.1 数据准备

使用SRR1976948_1.fastq.gz,SRR1976948_2.fastq.gz 以及在上节通过megahit拼接的contig.fa文件

ln -s /mnt/f/微生态/*.gz #把文件软链接到我的当前工作文件夹

2.2 依赖软件安装

MetaBAT的运行依赖bowtie2 Samtools 等软件

conda Install bowtie2

conda install samtools

2.3 使用bowtie建立索引文件

bowtie2-build -f contigs.fa contig --threads 2

2.4 建立比对

bowtie2 -1 SRR1976948_1.fastq.gz -2 SRR1976948_2.fastq.gz -p 2 -x

final -S contig.sam

2.5 将sam文件转换成bam文件

samtools view -@ 2 -b -S contig.sam -o contig.bam

2.6 对bam文件进行排序

samtools sort -@ 2 -l 9 -O BAM contig.bam -o contig.sorted.bam

2.7 计算contig的深度

jgi_summarize_bam_contig_depths --outputDepth contig.depth.txt contig.sorted.bam

2.8 开始分箱

metabat2 -m 1500 -t 2 -i contigs.fa -a contig.depth.txt -o all -v

三、在线的宏基因组分析网站

由于MetaBAT运行时间比较长,且笔者的笔记本电脑性能太差了,因此笔者这里就不展示用虚拟机跑出来的结果了,这里可以再安利两个在线的可以做宏基因组分析的网站:一个是国内的国家微生物科学中心(https://nmdc.cn,图4),另一个是国外的Kbase网站(https://narrative.kbase.us/,图5)。在这两个网站注册后就可以进行宏基因组一些基本的分析,对没有Linux基础的和没有服务器的同学可以做一些简单的分析。

图4

图5

3.1 在kbase上进行宏基因组分析
下面来简单介绍下kbase里面的Metabat的使用。Kbase的使用非常简单,找到MetaBAT2后有三个需要填写的选项,第一个选择你组装的contigs,第二个选择你的原始测序的fastq文件,第三个填写下输出文件的名称,点击左上角的run即可运行。

图6

这是通过kbase网站得到的结果可以看到共分出8个bins

图7
四、写在最后
在本节中,通过MetaBAT对宏基因组进行了分箱操作,虽然得到了很多了bins,但是这些分箱得到的bins的质量还是未知的。在下一节中将会介绍使用CheckM对宏基因组分箱的bins进行质量评估。

本文来源于微科盟原创作者phage,仅用于学术分享,如有侵权,请联系删除!


(0)

相关推荐