lncRNA组装流程的软件介绍之trim-galore

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

Trim Galore是对FastQC和Cutadapt的包装。适用于所有高通量测序,包括RRBS(Reduced Representation Bisulfite-Seq ), Illumina、Nextera 和smallRNA测序平台的双端和单端数据。主要功能包括两步:首先去除低质量碱基,然后去除3' 末端的adapter, 如果没有指定具体的adapter,程序会自动检测前1million的序列,然后对比前12-13bp的序列是否符合以下类型的adapter

一、软件安装

使用conda安装

conda install trim-galore

二、trim-galore的用法

安装完成以后,可以使用trim_galore -help来查看软件的帮助文档。

1. 软件用法:

2. 常用参数:

--quality:设定Phred quality score阈值,默认为20。分析时可改成25,稍微严格一些。

--phred33::选择-phred33或者-phred64,表示测序平台使用的Phred quality score。具体怎么选择,看你用什么测序平台;例如:-phred33对应(Sanger/Illumina 1.9+ encoding),-phred64对应(Illumina 1.5 encoding)

--adapter:输入adapter序列。也可以不输入,Trim Galore!会自动寻找可能性最高的平台对应的adapter。自动搜选的平台三个,也直接显式输入这三种平台,即--illumina、--nextera和--small_rna。

--stringency:设定可以忍受的前后adapter重叠的碱基数,默认为1(非常苛刻)。可以适度放宽,因为后一个adapter几乎不可能被测序仪读到。

--length:设定输出reads长度阈值,小于设定值会被抛弃。

--paired:对于双端测序结果,一对reads中,如果有一个被剔除,那么另一个会被同样抛弃,而不管是否达到标准。

--retain_unpaired:对于双端测序结果,一对reads中,如果一个read达到标准,但是对应的另一个要被抛弃,达到标准的read会被单独保存为一个文件。

--gzip和--dont_gzip:清洗后的数据zip打包或者不打包。

--output_dir:输入目录。需要提前建立目录,否则运行会报错。

--trim-n : 移除read一端的reads

三、软件运行命令

##双端数据要指定 --paired
nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ./ $fq1 $fq2 &

批量运行脚本

cd 03.trim
ls /home/data/lihe/lncRNA_project/01.raw_data/*_1.fastq.gz > 1
ls /home/data/lihe/lncRNA_project/01.raw_data/*_2.fastq.gz > 2
paste 1 2 > config

cat > 03.trim.sh
config=$1
number1=$2
number2=$3
cat $1 | while read id
do
    if((i%$number1==$number2))
    then
    arr=(${id})
    fq1=${arr[0]}
    fq2=${arr[1]}
    trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ./  $fq1 $fq2
    fi    ## end for number1
    i=$((i+1))
done

for i  in {0..9}
do 
(nohup bash 03.trim.sh  config 10 $i 1>log.$i.txt 2>&1 & )
done 

命令参数解读:

-q 25 # 设定Phred quality score阈值是25

-phred33 # 指定使用phred33碱基质量值体系

--length 35 # 输出reads长度阈值,小于35bp的reads会被抛弃

--stringency 3 # 可以忍受的前后adapter重叠的碱基数为3

--paired # 对于双端测序结果,一对reads中,如果有一个被剔除,那么另一个会被同样抛弃,而不管是否达到标准。

./ $fq1 $fq2 输入文件

四、输出文件解读

fq.gz格式文件是处理后得到的数据,txt格式文件是样品处理的结果报告,也包括软件运行的参数信息。下面是其中一个的结果。
SUMMARISING RUN PARAMETERS
==========================
Input filename: /home/lihe/lncrna/raw/SRR10744251_1.fastq.gz
Trimming mode: paired-end
Trim Galore version: 0.6.6
Cutadapt version: 3.2
Number of cores used for trimming: 1
Quality Phred score cutoff: 25
Quality encoding type selected: ASCII+33
Using Illumina adapter for trimming (count: 11117). Second best hit was smallRNA (count: 13)
Adapter sequence: 'AGATCGGAAGAGC' (Illumina TruSeq, Sanger iPCR; auto-detected)
Maximum trimming error rate: 0.1 (default)
Minimum required adapter overlap (stringency): 4 bp
Minimum required sequence length for both reads before a sequence pair gets removed: 35 bp
Output file will be GZIP compressed

This is cutadapt 3.2 with Python 3.8.5
Command line parameters: -j 1 -e 0.1 -q 25 -O 4 -a AGATCGGAAGAGC /home/lihe/lncrna/raw/SRR10744251_1.fastq.gz
Processing reads on 1 core in single-end mode ...
Finished in 1503.33 s (26 ?s/read; 2.31 M reads/minute).

=== Summary ===

Total reads processed:              57,950,521
Reads with adapters:                 1,303,446 (2.2%)
Reads written (passing filters):    57,950,521 (100.0%)

Total basepairs processed: 8,692,578,150 bp
Quality-trimmed:              42,494,919 bp (0.5%)
Total written (filtered):  8,627,614,520 bp (99.3%)

=== Adapter 1 ===

Sequence: AGATCGGAAGAGC; Type: regular 3'; Length: 13; Trimmed: 1303446 times

No. of allowed errors:
1-9 bp: 0; 10-13 bp: 1

Bases preceding removed adapters:
  A: 18.4%
  C: 32.3%
  G: 34.4%
  T: 14.9%
  none/other: 0.0%

Overview of removed sequences
length  count   expect  max.err error counts
4       281681  226369.2        0       281681
5       88526   56592.3 0       88526
6       45429   14148.1 0       45429
7       40879   3537.0  0       40879
8       38695   884.3   0       38695
9       37360   221.1   0       36428 932

RUN STATISTICS FOR INPUT FILE: /home/lihe/lncrna/raw/SRR10744251_1.fastq.gz
=============================================
57950521 sequences processed in total

文末友情推荐

与十万人一起学生信,你值得拥有下面的学习班:

(0)

相关推荐

  • 1-跟着science学习宏基因组-联合数据质控

    数据质控 本小节数据已更新:https://github.com/taowenmicro/Megagenome_learing. 准备conda虚拟环境 我们创建一个虚拟环境,这里python环境为2 ...

  • 使用bowtie2去除宿主序列

    在研究组织或者肠道微生物时,常常需要去除宿主的DNA序列,以防止宿主的序列干扰研究.去宿主序列的主要研究方法是通过将质控后的序列与宿主基因组进行比对,将比对上的序列进行去除.比对软件通常有bowtie ...

  • NGS数据格式梳理01-FASTQ和FASTA格式详解

    本系列想详细的梳理NGS数据分析中常用的几种数据格式,目前打算见下图: 正文分割线 FASTQ和FASTA是存储DNA序列及对应质量信息最常使用的文本文件,本文介绍Illumina平台下机数据FAST ...

  • lncRNA组装流程的软件介绍之MultiQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之aspera

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之FastQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之diamond

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之CPC2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之featureCounts

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍软件推荐之DEseq2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之PLEK

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之gffcompare

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...