stacks基础:SNP、基因座、等位基因、基因型、单倍型的概念

相关系列第一期请戳:stacks拆包RAD-seq过程中 process_radtags没有自己需要的限制性内切酶怎么办?

在stacks运行完毕后,会有*.alleles.tsv.gz, *.snp.tsv.gz, *.matchs.tsv.gz等结果文件生成,如果对SNP、基因座(locus)、等位基因(alleles)、基因型(genotype)和单倍型(haplotypes)的概念没有深刻的理解的话,要读懂这些结果文件是非常困难的,本文将以解析这些概念为切入点,解读stacks产生的结果文件。


SNP

snp的定义是单核苷酸多态性(single nucleotide polymorphism),SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,如图1所示,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。

图1.SNP(灰色表示男性的X染色体,蓝色表示男性的Y染色体)

打开stacks产生的结果文件GZ1.tags.tsv.gz,这是ustacks运行结束后生成的,原文件内容截取部分如下:

[bash]# less GZ1.tags.tsv.gz
# ustacks version 2.2; generated on 2020-12-31 21:57:22
1 2 consensus AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA 0 0 0
1 2 model OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU
1 2 primary 0 282_7_2116_32106_32390/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 282_7_2116_32136_32408/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 282_7_2218_1834_36346/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 1 236_6_1105_23206_10679/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 236_6_2211_23409_10187/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1207_5792_18063/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1207_8166_18450/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1207_5558_18537/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1217_3112_55262/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN
1 2 primary 1 282_7_1217_2869_55965/1 AATTAGGAAGGATTGGTCGACGAAATATGAACCGAAGACTGAACCTTGATATACCCCATAACAATACATTTTTGTTACCACGAGACATATTGGCAGCCGCTGATCATTTGATTGGACTTAAATTGTTTCCTGTTAGGTCAAAATTTNNNNNNNN

为了方便观察,我们把目光聚焦到后半段:

1 2 consensus AAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA
1 2 model OOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN

第一行是consensus,是由样本的多个locus形成的一致性序列,第二行是model,表明在形成一致性序列的时候,每个位点的一致性状况,O代表完全一致,U代表Unknown,E代表SNP位点。如果locus中有掩码N的存在或者变异的位点占总数太少(比如倒数第8个位点有8条locus是G,两条locus是G,那么该位点的model也是U)。


基因型(genotype)、基因座(locus)、等位基因(alleles)

等位基因(Alleles)是同源染色体的相同位置上基因的变体,比如图2种的显性等位基因C和隐性等位基因c,他们控制着同一性状的不同形态。

基因型(Genotype)是染色体特定位置上等位基因的组合,比如图2中的BB、aa和Cc。

基因座(Locus)是一个空间上的概念,它指的是染色体特定位置的DNA片段。当DNA序列达到一定长度时,那么它在染色体的位置就是唯一的,能够表示一个基因座。

图2.基因型、基因座、等位基因

打开populations.marker.tsv,该文件主要记录等位基因与基因型的映射关系,截取部分内容整理如下:

[bash]# less populations.marker.tsv

Catalog Locus ID Total Genotypes Max Genotype Freqs F Genotype Map
1 6 16.66667 aa:1(16.7%);bb:1(16.7%);cc:1(16.7%);dd:1(16.7%);ee:1(16.7%);ff:1(16.7%); ANNATN:a;NATACG:b;NGCATG:c;NGTCCG:d;NNNNNA:e;TNNNNN:f;
19 3 33.33333 aa:1(33.3%);ab:1(33.3%);ac:1(33.3%); AA:a;AC:b;GA:c;
20 2 50.00000 ad:1(50.0%);bc:1(50.0%); ACTACC:a;ATTCAC:b;ATTCAG:c;GCCACC:d;
39 4 50.00000 aa:2(50.0%);ab:1(25.0%);ac:1(25.0%); AA:a;AC:b;GA:c;
40 42 95.23810 aa:40(95.2%);ab:1(2.4%);ac:1(2.4%); GG:a;GT:b;TG:c;
42 3 33.33333 aa:1(33.3%);bb:1(33.3%);cc:1(33.3%); ATTTNNCG:a;CAGAGGTA:b;CNNNCCTA:c;

单倍型(haplotypes)

一组DNA变异(如SNP和indels)在同一位点上彼此相邻,往往会一起遗传,这种SNPs位点的组合称之为单倍型(如图3所示)。图3表示男性群体中的Y染色体某一locus的变异情况,所谓单倍型既是该locus上SNP位点的组合。

图3.单倍型

打开GZ1.alleles.tsv.gz文件

# ustacks version 2.2; generated on 2020-12-31 21:57:22
1 2 AAA 70.00 7
1 2 TGT 30.00 3
1 3 CA 35.29 6
1 3 CG 5.88 1
1 3 TA 5.88 1
1 3 TG 17.65 3
1 4 GGTC 30.77 4
1 4 GGTT 30.77 4
1 4 TAGC 38.46 5
1 5 A 38.46 5
1 5 C 61.54 8
1 6 CAAAA 53.33 8
1 6 CAGAA 20.00 3
1 6 GCGGC 26.67 4
1 10 AGGTT 62.50 5
1 10 CATAA 37.50 3
1 11 CGCC 13.79 4
1 11 CGCT 10.34 3

与刚才的GZ1.tags.tsv.gz文件作为对比,可以发现GZ1.alleles.tsv.gz的前两行就是对下面内容的SNP位点的组合情况进行记录。同样的GZ1.snps.tsv.gz也是对GZ1.tags.tsv.gz的snp位点进行单独的统计。

1 2 consensus AAATTGTTTCCTGTTAGGTCAAAATTTCATCCCTA
1 2 model OOOOOUUUUUOOUUUUUOOOEEOEOOOUUUUUUUU
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 0 AAATTNNNNCCTNNNNTGTCTGATTTTCATCCCTA
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTCNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN
1 2 primary 1 AAATTGTTTCCTGTTAGGTCAAAATTTGNNNNNNN

END

(0)

相关推荐