【直播】我的基因组49:Y染色体的SNV不能用常规流程来找?

在上一次直播中,我们说到了一个不符合我们的认知的问题。就是我的全基因组测序数据里找到的SNV的纯合杂合比例失衡,这着实让我非常纠结。在朋友圈大量求助中,肿瘤所的朋友非常热心的帮我检查了她手头的几百个外显子测序样品,给了我下面这个表格,我简单的截取一部分。从这张表格中可以看到,女性样本X染色体的纯合杂合比例符合我们的认知。

不过,我更好奇女性样本的Y染色体SNV(虽然理论上女性是不可能有Y染色体的)。而且我真正想看的是男性样本的性染色体,在朋友电脑里面只有sort好的bam文件,没有vcf直接统计。所以我就借了朋友的电脑亲自上阵来统计这些指标,把所有她已有的外显子测序文件批量统计一下:

为了节省时间,我就用了bcftools来做SNP-calling,批量统计的代码如下:

  1. ls /media/cancer_path/*bam |while read id

  2. do

  3. file=$(basename $id )

  4. sample=${file%%.*}

  5. echo $sample

  6. samtools mpileup  -r  X -ugf /media/software/bwa/human_g1k_v37.fasta  $id | bcftools call -vmO z -o $sample.chrX.vcf.gz

  7. samtools mpileup  -r  Y -ugf /media/software/bwa/human_g1k_v37.fasta  $id | bcftools call -vmO z -o $sample.chrY.vcf.gz

  8. echo "chrX"

  9. zcat $sample.chrX.vcf.gz  |perl -alne 'next if /^#/;/DP=(\d+);/;print if $1>20'|grep -v "^#" |cut -f 10|cut -d":" -f 1|sort |uniq -c

  10. echo "chrY"

  11. zcat $sample.chrY.vcf.gz  |perl -alne 'next if /^#/;/DP=(\d+);/;print if $1>20'|grep -v "^#" |cut -f 10|cut -d":" -f 1|sort |uniq -c

  12. done

得到的统计表格我稍微进行了整理了(左边是男性,右边是女性):

假设朋友给我提供的性别与样本对应表格是准确无误的!

那么她提供的样本中:女性的X染色体的杂合数量远高于X的纯合。这合情合理,而且女性没有Y染色体,但是X,Y有同源区域,所以女性样本仍然会有Y染色体的SNV,也符合情理,毕竟比例很小嘛。

而她提供的男性样本数据里面出现我现在全基因组数据结果相同的困惑,明明男性只有一条X和一条Y染色体,那么上面的SNV应该是纯合的,但是这里面都是杂合的多于纯合的。跟我面临的情况一模一样!

对此,我提出了几个假设:

1.就是人类的X,Y染色体同源区域太多了,即使是PE150的建库测序策略也无法保证reads正确的匹配到参考基因组应有的位置。

2.参考基因组在这两条染色体本来就是模糊不清。

3.我们常规的SNV calling流程在,X,Y染色体上面,准确率很有限!

既然我已经在大样本里面验证了这个现象,那么可以暂时排除是公司把我的样本弄错了那个假设啦!

接下来,我就需要详细解释我自己提出的3个假设咯!

同时在这里向朋友圈给我提出各种建议的朋友表示衷心的感谢!

下面是大家的建议列表的部分摘抄:

不是说男性的就一定都是纯合的,只是男女比例不一样。这在之前的gwas中也可以观察到。甚至有可以导致性别完全误判的个例基因组型。

xy是绝大部分是同源的,这个现象正常。再有看下突变比例分布,0/1什么的说明不了太多问题。选uniq的方法是什么?最差的结果是,你的数据是混lane测的,污染了。

可能1: 女性样品污染;

可能2: 搜索gametologys evolution;

可能3: chr x link gene tends to be duplicate more .

男性中X,Y上出现0/1的情况主要是同源区域导致,这个可以从这些0/1突变所在区域发现,这些突变强烈富集,主要集中在几个同源区域。但是X,Y上1/1的突变就分布均匀很多了

对了,有朋友反映用我的samtools和bcftools代码报错,我看了一下,只是因为他们的samtools和bcftools没有升级到最新版,所以给大家提醒一下:

  1. ## Download and install samtools

  2. ## http://samtools.sourceforge.net/

  3. ## http://www.htslib.org/doc/samtools.html

  4. cd ~/biosoft

  5. mkdir samtools &&  cd samtools

  6. wget https://github.com/samtools/samtools/releases/download/1.3.1/samtools-1.3.1.tar.bz2

  7. tar xvfj samtools-1.3.1.tar.bz2

  8. cd samtools-1.3.1

  9. ./configure --prefix=/home/jianmingzeng/biosoft/myBin

  10. make

  11. make install

  12. ~/biosoft/myBin/bin/samtools --help

  13. ~/biosoft/myBin/bin/plot-bamstats --help

  14. cd htslib-1.3.1

  15. ./configure --prefix=/home/jianmingzeng/biosoft/myBin

  16. make

  17. make install

  18. ~/biosoft/myBin/bin/tabix

  19. ## Download and install bcftools

  20. ## http://www.htslib.org/download/

  21. ## http://www.htslib.org/doc/bcftools-1.0.html

  22. cd ~/biosoft

  23. mkdir bcftools && cd bcftools

  24. wget https://github.com/samtools/bcftools/releases/download/1.3.1/bcftools-1.3.1.tar.bz2

  25. tar xvfj bcftools-1.3.1.tar.bz2

  26. cd bcftools-1.3.1

  27. make

  28. cp bcftools /home/jianmingzeng/biosoft/myBin

  29. ~/biosoft/myBin/bin/bcftools --helpniq -c

  30. done

文:Jimmy

图文编辑:吃瓜群众

(0)

相关推荐

  • 教程 | 简单粗暴的叶绿体基因组 SNP Calling 流程

    写在前面 最近主要忙一些植物群体基因组数据的项目.前面提过,赶时间,全基因组的 SNP Calling 使用 GATK 流程,还是需要跑上两三天.但这个还是耗时,并不一定能够赶上工期.于是我将目标转移 ...

  • 【Linux 笔记】Linux 基本操作 - 01. 系统认知-文本处理-软件安装-环境变量

    【Linux 笔记】Linux 基本操作 - 01. 系统认知-文本处理-软件安装-环境变量

  • Omics精进04|临床Gene Panel检测-实验&&生物信息学分析

    本文介绍临床Gene Panel检测的「实验流程」及「生物信息学分析流程」(下图为MSK-IMPACT 468基因panel的检测流程,各产品流程也大同小异,本文参考此流程). 个人能力有限,欢迎指出 ...

  • 【直播】我的基因组52:X和Y染色体的同源区域探索

    很久以前,我其实就遇到过通过NGS测序数据来判定性别的难题(搜索我博客即可查看详情),本次探究自己的基因组得到的统计结果与常识不符,所以我可以肯定是我们的常识太浅显了. [直播]我的基因组48:我可能 ...

  • 人类源流——人类Y染色体1

    分子人类学产生于二十世纪60年代,它是分子生物学与人类学交叉产生的边缘学科.从60年代开始,一些分子生物学家逐步将分子生物学技术引入人类学研究领域,试图通过研究人类DNA中所蕴藏的遣传信息来揭示整个人 ...

  • 人类源流——人类Y染色体2

    5.现代智人与古人类混血 约20万年前,智人的'亚当'和'夏娃'产生.粒线体DNA与化石证明现代人类大约于20万年前起源于东非.与其他动物相比,人具有高度发达的大脑,具有抽象思维.语言.自我意识以及解 ...

  • 人类源流——人类Y染色体3

    6.Y-C单倍群 Y染色体C-M130单倍群是Y-CF两个分支中的一支,C的地位与F相当.Y-C人群发现于除非洲以外的各个大陆古代人群中,是中亚.西伯利亚.北美和大洋洲一些土著部落的主流单倍群.在早期 ...

  • 人类源流——人类Y染色体5

    13.Y-Q单倍群 Y-Q系是远古时代唯一一个在全球范围内进行过扩张迁徙的单倍群,几乎走到过地球上的每个角落.除美洲的印第安人在500年前欧洲人进入之前因缺少其他人种竞争,并随着欧洲殖民者到来,同时带 ...

  • 人类源流——人类Y染色体6

    14.Y- R单倍群 印欧人种在分子人类学上主要属于Y-R系.分子人类学越来越精细的研究,正在越来越清晰地勾画出人类种族迁徙和文明发展史.虽然Y-R系诞生很早,大约27000年前就已经出现于中亚P集团 ...

  • Y染色体单倍群知识科普

    本文主要来源于wiki 翻译自英文 简介 在人类遗传学中,人类Y染色体DNA单倍群是由男性Y染色体的DNA的非重组部分中的发生突变的单倍群.许多人在一个单倍群中有着相似短串联重复序列(STRs)数量还 ...

  • 科普:彝族父系构成(彝族y染色体构成)

    科普:彝族父系构成 (附:彝族n1b2来源) 彝族的骨干成分,从人口占比看,以: 1.O-M117(主要是α6b) 2.D(D1a1a1a2-Z31591) 3.O1b1a1a-M95(F789.F1 ...

  • Y染色体揭露了英国皇室血脉不纯,皇室成员被戴绿帽子却浑然不知

    皇室成员可不是谁都能当,除了革命推翻原有的君主之外,剩下的就要看自己的血脉纯不纯,尤其是要看自己是不是君王的后代. 但是考古学家却发现,英国皇室的血脉不纯,或有人给国王戴了绿帽子,那这究竟是怎么回事呢 ...