16s分析之Qiime序列拼接(图文版)

摘要:

下面开始运行,提取我们需要的文件:

  • cp -r ~/Desktop/Shared_Folder/gzhcs/ ~/Desktop/

进入工作目录,查看文件(我随便找了两个测序文件,两组每组三个重复,当然不可能只做三个重复):

  • cd ~/Desktop/gzhcs/

  • ls

  • cd ..#退到上级目录

下面先解释一下拼接命令:

join_paired_ends.py:该命令默认调用fastq-join,因此可以不用设置-m选项,若选用SeqPrep则需要设定-m选项

  • -m调用方法fastq-join, SeqPrep这两种方法,有人表示:fastq-join方法速度更快,但是SeqPrep拼接结果更好;

若想详细了解这两种参数,请参照:

  • fastq-join:

http://code.google.com/p/ea-utils

  • SeqPrep:

https://github.com/jstjohn/SeqPrep

如果采用fastq-join这种方法拼接,则设置参数如下:

  • -p最多容忍overlap错配最高百分比,该选项只有选用fastq-join方法是才设定,从1100的整数,一般设定10就差不多了

  • -j :最小overlap的长度,一般10个差不多,根据自己的样品

如果采用SeqPrep这种方法拼接,则设置参数如下:

  • -n:最小匹配率,一般设置成0.9参数值在0-1之间

  • -g:最大允许错配率;参数值在0-1之间

命令:

l  multiple_join_paired_ends.py-i input_files -o output_folder -pjoin.txt --include_input_dir_path

multiple_前缀为多个将测序文件按照样品编号分解后,来进行分别操作的命令前缀,

  • --include_input_dir_path该选项为将输出目录文件名命名为输入文件名

  • -p,是参数文件的设置,fastq-join这种方法参数文件设置:

  • perc_max_diff:10#-p的全称,在全英文输入法状态输入冒号,并且加空格

  • min_overlap:10#-j的全称

每个参数使用一行,编写完成后,保存为txt文件;

如果采用SeqPrep这种方法参数文件设置:

  • min_frac_match: 0.9#-n最小匹配率,一般设置成0.9参数值在0-1之间。

  • max_good_mismatch 0.1#-g最大允许错配率;参数值在0-1之间。

每个参数使用一行,编写完成后,保存为txt文件;

每个输出文件一共有三个:

fastq-join方法输出:

“*.join”: 拼接好的

“*.un1”: 未匹配上的

“*.un2”: 未匹配上的

SeqPrep方法输出:

“*_assembled.gz”: 拼接好的

“*_unassembled_R1.gz”: 未匹配上的

“*_unassembled_R2.gz”: 未匹配上的

开始拼接:

这是我编写的参数文件,就选择了一下调用方法,如果自己有需求,可以在下面加上:

  • multiple_join_paired_ends.py -i gzhcs -ogzhcs_join -p mel_join_p.txt --include_input_dir_path

结果文件:

这是截图:

改名字:

  • mvgzhcs_join/gzhcsBC1_S158_L001_R1_001/fastqjoin.join.fastq gzhcs_join2/BC1.fq

全部改完文件名:

  • 参考文献:

    http://qiime.org/scripts/join_paired_ends.html

(0)

相关推荐