NGS数据格式梳理01-FASTQ和FASTA格式详解
本系列想详细的梳理NGS数据分析中常用的几种数据格式,目前打算见下图:
正文分割线
FASTQ文件命名规则
Samplexx_S53_L002_R1_001.fastq.gz####详细解释###Samplexx:样本名,与上机时在sampleSheet中填写的一致;S53:S后跟的数字与样本在sampleSheet中的顺序一致,从1开始;L002:L00*,lane编号;R1:R*,R1表示read1,R2表示read2。R1和R2为paired end reads。同一个样本的配对的FASTQ,只有这个地方不同;001:001,通常为001;
-----------------------------------------------------------------------------
FASTQ格式详解
总共四行,如下例子:
@SIM:1:FCX:1:15:6329:1045:GATTACT+GTCTTAAC 1:N:0:ATCCGATCGCACTCAACGCCCTGCATATGACAAGACAGAATC+<>;##=><9=AAAAAAAAAA9#:<#<;<<<????#=
详细介绍各行
第一行,Sequence identifier
@SIM:1:FCX:1:15:6329:1045:GATTACT+GTCTTAAC 1:N:0:ATCCGA
@SIM,测序仪的ID号1,run number,一张flowcell是一个runFCX,flow cell的ID号1,lane号15,tile号(tile为flow cell上最小单位,测序时每测一个碱基,照相一次)6329,flow cell中簇位置的X坐标1045,flow cell中簇位置的Y坐标GATTACT+GTCTTAAC 1,当sampleSheet存在UMI(Unique Molecular indentifier,用于提高测序的准确性)时该项存在;为Read1的UMI序列+Read2的UMI序列信息,下图为文库中UMI的位置1,1 表示 single read 2 表示 paired endN,是否过滤,Y表示被过滤,否则为N0,0表示十进制?否则是一个偶数ATCCGA,index序列
官网给的格式解释如下:
@<instrument>:<run number>:<flowcell ID>:<lane>:<tile>:<x-pos>:<y-pos>:<UMI> <read>:<is filtered>:<control number>:<index>
第二行,Sequence
TCGCACTCAACGCCCTGCATATGACAAGACAGAATC
第三行,Quality score identifier line (consisting only of a +)
+
第四行,Quality score,测序质量值
<>;##=><9=AAAAAAAAAA9#:<#<;<<<????#=
质量值详解
该行ASCII码怎么来的?
质量体系值怎么来的,怎么选?
为何FASTQ中该列不直接使用Q值表示质量值?
为何要用质量值加上质量体系值?
----------------------------------------------------------------------------------
FASTQ传输完整性校验
批量生成md5文件md5_check.txt
for i in `ls -d *fq.gz`;do md5sum $i>>md5_check.txt;done
校验传递完整性
md5sum -c ./md5_check.txt
----------------------------------------------------------------------------------
FASTA格式
参考资料[2]
>ENSMUSG00000020122|ENSMUST00000138518CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGTTATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGTTCATCAAAACAGTTCATTGCCCAAAATGTTCTCAGCTGCAGCTTTCATGAGGTAACTCCAGGGCCCACCTGTTCTCTGGT
第一行:序列描述信息
>ENSMUSG00000020122|ENSMUST00000138518
>ENSMUSG00000020122|ENSMUST00000125984> ENSMUSG00000020122|ENSMUST00000125984>ENSMUSG00000020122|ENSMUST00000125984|epidermal growth factor receptor>ENSMUSG00000020122|ENSMUST00000125984|Egfr>ENSMUSG00000020122|ENSMUST00000125984|11|ENSFM00410000138465
第二行:序列数据
CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGTTATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGTTCATCAAAACAGTTCATTGCCCAAAATGTTCTCAGCTGCAGCTTTCATGAGGTAACTCCAGGGCCCACCTGTTCTCTGGT
参考资料
[1] https://support.illumina.com/help/BaseSpace_OLH_009008/Content/Source/Informatics/BS/FileFormat_FASTQ-files_swBS.htm[2] https://en.wikipedia.org/wiki/Phred_quality_score[3] https://www.plob.org/article/11672.html[4] https://baike.baidu.com/item/ASCII/309296?fr=aladdin