16s分析之Qiime序列拼接(图文版)
摘要:
下面开始运行,提取我们需要的文件:
cp -r ~/Desktop/Shared_Folder/gzhcs/ ~/Desktop/
进入工作目录,查看文件(我随便找了两个测序文件,两组每组三个重复,当然不可能只做三个重复):
cd ~/Desktop/gzhcs/
ls
cd ..#退到上级目录
下面先解释一下拼接命令:
join_paired_ends.py:该命令默认调用fastq-join,因此可以不用设置-m选项,若选用SeqPrep则需要设定-m选项
-m调用方法fastq-join, SeqPrep这两种方法,有人表示:fastq-join方法速度更快,但是SeqPrep拼接结果更好;
若想详细了解这两种参数,请参照:
fastq-join:
http://code.google.com/p/ea-utils
SeqPrep:
https://github.com/jstjohn/SeqPrep
如果采用fastq-join这种方法拼接,则设置参数如下:
-p:最多容忍overlap错配最高百分比,该选项只有选用fastq-join方法是才设定,从1到100的整数,一般设定10就差不多了
-j :最小overlap的长度,一般10个差不多,根据自己的样品
如果采用SeqPrep这种方法拼接,则设置参数如下:
-n:最小匹配率,一般设置成0.9;参数值在0-1之间
-g:最大允许错配率;参数值在0-1之间
命令:
l multiple_join_paired_ends.py-i input_files -o output_folder -pjoin.txt --include_input_dir_path
multiple_前缀为多个将测序文件按照样品编号分解后,来进行分别操作的命令前缀,
--include_input_dir_path该选项为将输出目录文件名命名为输入文件名
-p,是参数文件的设置,fastq-join这种方法参数文件设置:
perc_max_diff:10#-p的全称,在全英文输入法状态输入冒号,并且加空格
min_overlap:10#-j的全称
每个参数使用一行,编写完成后,保存为txt文件;
如果采用SeqPrep这种方法参数文件设置:
min_frac_match: 0.9#-n最小匹配率,一般设置成0.9;参数值在0-1之间。
max_good_mismatch: 0.1#-g最大允许错配率;参数值在0-1之间。
每个参数使用一行,编写完成后,保存为txt文件;
每个输出文件一共有三个:
fastq-join方法输出:
“*.join”: 拼接好的
“*.un1”: 未匹配上的
“*.un2”: 未匹配上的
SeqPrep方法输出:
“*_assembled.gz”: 拼接好的
“*_unassembled_R1.gz”: 未匹配上的
“*_unassembled_R2.gz”: 未匹配上的
开始拼接:
这是我编写的参数文件,就选择了一下调用方法,如果自己有需求,可以在下面加上:
multiple_join_paired_ends.py -i gzhcs -ogzhcs_join -p mel_join_p.txt --include_input_dir_path
结果文件:
这是截图:
改名字:
mvgzhcs_join/gzhcsBC1_S158_L001_R1_001/fastqjoin.join.fastq gzhcs_join2/BC1.fq
全部改完文件名:
参考文献:
http://qiime.org/scripts/join_paired_ends.html