【直播】我的基因组52：X和Y染色体的同源区域探索 / 四六文摘

很久以前，我其实就遇到过通过NGS测序数据来判定性别的难题(搜索我博客即可查看详情)，本次探究自己的基因组得到的统计结果与常识不符，所以我可以肯定是我们的常识太浅显了。

通过自己的测序数据的详细分析，我才知道PAR(pseudoautosomal region)。这样的X,Y染色体大量同源，说到底是测序片段压根无法准确定位，所以说所谓的X,Y染色体是单倍体的常识，在这里完全错误的。这些区域目前有29个基因，那么对这29个基因来说，其实就跟定位在常染色体上一样，有两个拷贝的！

这些区域在hg38的参考基因组坐标如下；

The locations of the PARs within GRCh38 are:

PAR1: chrY:10,000-2,781,479 and chrX:10,000-2,781,479 [7]

PAR2: chrY:56,887,902-57,217,415 and chrX:155,701,382-156,030,895 [7]

PAR3: chrY:3,571,959-5,881,959 and chrX:89,145,000-92,745,001 [3]

那么我们就可以通过自己的数据处理能力来探索一下X和Y染色体的同源区有多少，是哪里的问题！

首先下载X,Y染色体的fasta序列，在UCSC上面下载即可。

然后把X染色体构建bwa的索引。

接着模拟一个Y染色体的测序数据，模拟的程序很简单,模拟Y染色体的测序片段（PE100，insert400）。

最后把模拟测序数据比对到X染色体的参考，统计一下比对结果即可！

我自己看sam文件也发现真的同源性好高呀，总共就模拟了380万reads，就有120万是百分百比对上了。

所以对女性个体来说，测序判断比对到Y染色体是再正常不过的了。如果要判断性别，必须要找那些X,Y差异性区段！对男性来说，更是如此！

本次测试涉及到的文件如下：

shell脚本如下：

cd tmp/chrX_Y/hg19/
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrX.fa.gz;
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrY.fa.gz;
gunzip chrX.fa.gz
gunzip chrY.fa.gz
~/biosoft/bwa/bwa-0.7.15/bwa index chrX.fa
~/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M chrX.fa read*.fa >read.sam
samtools view -bS read.sam >read.bam
samtools flagstat read.bam
samtools sort -@ 5 -o read.sorted.bam read.bam
samtools view -h -F4 -q 5 read.sorted.bam |samtools view -bS|samtools rmdup - read.filter.rmdup.bam
samtools index read.filter.rmdup.bam
samtools mpileup -ugf ~/tmp/chrX_Y/hg19/chrX.fa read.filter.rmdup.bam |bcftools call -vmO z -o read.bcftools.vcf.gz