lncRNA组装流程的软件介绍之MultiQC

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

NGS技术的进步催生了新的实验设计、分析类型和极高通量测序数据的生成。对于这些数据的质量评估,每一步分析结果的评估是后续结果可信度的衡量和保障。不少生信工具都可以给样品生成一个评估结果,如FastqcQualimapRSeQC等。但是这时又出现了一个难题,那就是几乎所有的质控工具都是针对单个样本生成一个报告,这就要求用户自己去逐一查找各个QC结果,这无疑是个十分耗时、重复又复杂的事,而且还不能快速看出所有样本的异同。

但现在有了MultiQC,基于Python的小工具很好地解决了这个繁琐的事情,其强大的功能主要体现在以下三个方面:

  1. 能将测序数据的多个QC结果整合成一个HTLM网页交互式报告,同时也能导出pdf文件;
  2. 支持多种分析类型的质控结果查看,如:RNAseqWhole-Genome SeqBisulfite SeqHi-CMultiQC_NGI
  3. 支持整合68种软件分析的结果,而且支持的软件还在持续增加,也可以自己写作一个插件;

一、软件安装

使用conda安装

conda install multiqc

二、multiqc的用法

安装完成以后,可以使用multiqc -h来查看命令帮助文档。

1. 软件用法:

multiqc * -o ./ -n file

2. 常用参数:

-n/--name # 更改输出文件的名称,默认输出文件名:multiqc_data、multiqc_report.html

-o/-outdir # 指定输出目录

三、软件运行命令

nohup multiqc ./*.zip -o ./ &

命令参数解读:

./*.zip # 输入文件,例如fastqc生成报告的.zip文件

-o ./ #输出目录

四、MultiQC报告解读(以fastqc数据为例)

1. General Statistics

每一个样本reads数量、比对层面的质量评估整合统计表,点击Configure Columns可以选择显示或不显示某些项。点击Plot可以绘图。

点击Configure Columns选择展示哪些项

点击Plot可以对任意两种属性的评估结果做交互式二维图,若各样本均一性好,散点会比较集中,反之会出现某些离散的点,这样方便查看某些指标异常的离群样本。

2.Sequence Counts:序列计数

这里可以看到重复reads,我们可以看到一下样品中重复unique reads和Dupliaccte reads各站约50%

3.Sequence Quality Histograms :每个read各位置碱基的平均测序质量

绿色区间——质量很好
橙色区间——质量合理
红色区间——质量不好
可以看出这几个样品序列的整体测序质量还是很不错,所有的都在绿色区域

4.Per Sequence Quality Scores 具有平均质量分数的reads的数量

绿色区间——质量很好、橙色区间——质量合理、红色区间——质量不好

5.Per Base Sequence Content :每个read各位置碱基ATCG的比列

结果显示除了开头几bp序列ATCG比例差别大,其他的序列ATCG比例均衡

6.Per Sequence GC Content :reads的平均GC含量

从图中可以看出,大部分reads GC含量在44%左右,呈正态曲线,表明GC含量正常

7.Per Base N Content :每条reads各位置N碱基含量比例

说明测序仪器能辨别这四个序列中每条reads的每个位置的碱基

8.Sequence Length Distribution 序列长度分布

9.Sequence Duplication Levels:每个序列的相对重复水平

10.Overrepresented sequences:文库中过表达序列的比例

当有某个序列大量出现时,超过总reads数的0.1%时报WARN,超过1%时报FAIL。

11.Adapter Content 接头含量

12.Status Checks

五、multiqc 可视化featureCounts结果

运行命令

multiqc all.name.txt.summary -o ./

五、multiqc 可视化hisat2结果

multiqc hisat2.log -o ./

(0)

相关推荐

  • NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC

    NGS数据分析实践:05. 测序数据的基本质控 [2] - MultiQC 目录 2. MultiQC 2.1 帮助信息及运行代码 2.2 报告解读 2.3 小结 文接上篇:NGS数据分析实践:05. ...

  • 转录组学习三(数据质控)

    对原始测序fq文件数据进行质量控制 任务 了解fastq测序数据 需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量! 作业,理解测 ...

  • footprintDB:查转录因子、靶基因,我都OK

    导语 转录因子(Transcription factors)是一群能与基因特定序列专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子.转录因子通过识别特定的DNA序列来控制染色 ...

  • NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC

    NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC 目录 前言 1. FastQC 1.1 帮助信息及运行代码 1.2 报告解读 1.3 小结 文接上篇:NGS数据分析实践:04 ...

  • 二代测序基础知识

    二代测序基础知识 二代测序基础概念 (这个是与二代测序相关每个部门都要掌握的) FQ数据格式 高通量测序(如Illumina HiSeqTM/MiseqTM)得到的原始图像数据文件经CASAVA碱基识 ...

  • lncRNA组装流程的软件介绍之aspera

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之trim-galore

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之FastQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之diamond

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之CPC2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之featureCounts

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍软件推荐之DEseq2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之PLEK

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之gffcompare

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...