hg19转为hg38后居然会导致坐标排序发生变化

2024-05-08 15:58:08

如果我们要比较的两个vcf文件的参考基因组版本不一致，就需要使用CrossMap等软件进行参考基因组版本转换，然后里使用 SnpSift 软件的 Concordance 命令比较它们。其中CrossMap软件依赖pyBigWig，使用conda进行安装，代码如下：

conda create -n py3 python=3.6 conda activate py3 conda install -c bioconda pyBigWig pip3 install CrossMap

进行参考基因组版本转换的命令如下：

# 需要自行下载 hg19ToHg38.over.chain.gz 文件，以及参考基因组 Homo_sapiens_assembly38.fasta python ~/miniconda3/envs/py3/bin/CrossMap.py \ vcf ~/data/liftover/hg19ToHg38.over.chain.gz test.snp.hg19.vcf \ ~/data/Homo_sapiens_assembly38.fasta test.snp.hg38.vcf

可以把snp和indel的vcf文件都转换一下，然后拿到的转换好的文件如下：

1.3M Jul 8 05:16 test.indel.hg38.vcf 23K Jul 8 05:16 test.indel.hg38.vcf.unmap 1003K Jun 19 11:10 test.indel.vcf 13M Jul 8 05:18 test.snp.hg38.vcf 245K Jul 8 05:18 test.snp.hg38.vcf.unmap 13M Jun 19 18:29 test.snp.vcf

可以看到转换的成功率是非常高的！unmap的文件很小，因为确实参考基因组有变化，总有一下基因组片段被修改了。

但是，有意思的是，之前我们的vcf文件是严格按照基因组坐标排好序的，但是转换过后，出现了部分坐标乱序情况，如下：

这个很容易理解，因为同一个物种的不同版本参考基因组肯定是有

chr1 119955031 . G A chr1 148483282 rs7513869 C T chr1 144995248 rs6600697 A G chr1 144995236 rs6600696 A C chr1 144995050 rs1884147 C T chr1 144995033 rs1884146 A G

也就是说，人类的参考基因组在由hg19进化到hg38的时候，不仅仅是片段的自然扩充，还包括一些以前组装顺序弄错了的片段的纠正。

这样坐标乱序的vcf文件，在很多下游分析都是不友好的，所以可以使用下面的代码进行简单过滤。

input=test.snps.VQSR.vcf cat $input | java -jar ~/biosoft/snpEff/SnpSift.jar filter "( DP > 20 & FILTER = 'PASS' )" | \ perl -alne '{print unless $F[0] =~ /_/}' | \ awk '$1 ~ /^#/ {print $0;next} {print $0 | "sort -k1,1 -k2,2n"}' | \ grep -v '1/2' > test.filter.sort.vcf # 检查不同染色体分布情况： cat new.filter.sort.vcf |grep -v '^#' |cut -f 1 |sort |uniq

# 接下来就可以对干净的VCF文件进行注释啦 java -jar ~/biosoft/snpEff/snpEff.jar GRCh38.86 \ test.filter.sort.vcf > test.filter.sort.eff.vcf

后记

我们总以为自己对参考基因组了解很多，实际上，有时候可以说是“一无所知” ！

仅仅是人类的参考基因组，背后的故事，知识量都可以写一本书！

【软件介绍】ANNOVAR注释软件用法

变异检测得到的结果是检测样本的基因组序列与参考基因组序列之间的差异.本质上是一个将真实的变异从文库准备.样本富集.检测/测序和映射/比对产生的产物中分离出来的过程.想要进一步研究每一个变异的实际意义, ...
如何从vcf文件中批量提取一系列基因的SNP位点？

需求客户的一个简单需求: 我有一批功能基因位点,想从重测序的群体材料中找到这些位点,如何批量快速获得? 示例文件 gene.txt image.png test.vcf image.png 代码实现 ...
8 比对及找变异步骤的质控

使用qualimap对wes的比对bam人家总结测序深度和覆盖度ls -lh *raw.vcf-rwxrwxrwx 1 root root 184M Jun 7 10:58 SRR7696207_ra ...
【软件介绍】IGV软件的安装和基本介绍

[软件介绍]IGV软件的安装和基本介绍 - 目录 1. IGV 下载与安装 2. Java 安装及环境变量设置 3. IGV 基本介绍 3.1 IGV 界面布局 3.2 IGV 结果界面 3.3 序列 ...
6 GATK4完整流程

0定义变量 source activate wes #GATK=~/biosoft/gatk/gatk-4.1.2.0/gatk ref=/mnt/f/kelly/bioTree/server/wes ...
菜鸟记430-PDF转为WORD后分段问题如何处理？查找替换能帮到您！

万一您身边的朋友用得着呢? 各位朋友早上好,小菜继续和您分享经验之谈,截止今日小菜已分享400+篇经验之谈,可以文章编号或关键词进行搜索. 微信推送规则发生改变,如果您想看到小菜每个工作日的经验之谈, ...
在湖边发现一窝野鸭蛋，拿回家后居然……

网友"杰克帝哦哦"(以下简称小杰)在湖边发现一窝野鸭蛋,鸭妈妈飞走了,小杰就拿了六个回家自己做了个孵化器,居然--还真孵出来了! 在某个风和日丽的下午,小杰和小伙伴们闲来无事在湖边 ...
年轻小伙尿酸高、多关节痛风石，株洲中医赵杰询问后居然是因为它

近日,医馆来了一位25岁的小伙子,他右足反复溃烂,四肢多个关节可见大大小小黄白色疙瘩,关节畸形,触目惊心!医生判断,这些黄白色的疙瘩是痛风石.一查他尿酸竟高达597umol/L!肾脏B超提示他双肾椎体 ...
牛屁居然是导致温室效应的重要原因？没事，吃点海藻抢救一下

甲烷是最简单的有机物,也是含碳量最小(含氢量最大)的烃.导致温室效应的老大是二氧化碳,甲烷就是老二了. 而且,大多数人为导致的甲烷排放均来自牲畜. 反刍动物,例如牛,绵羊和山羊,它们的胃部被进化得能够 ...
五脏“不和”，居然会导致不孕不育，真的难以想象

五脏“不和”，居然会导致不孕不育，真的难以想象
Excel里将汉字转为拼音！居然还能这样直接筛选替换！

- 汉字转拼音问题 - 其实,这个问题就是对每个字找到它的拼音,然后合并起来的问题--当然,这个不能解决多音字的问题. 那么,首先,我们得找到汉字拼音对照表,下面是我找到的一个(下载链接见文末): - ...
民法典实施后，交通事故导致受害人死亡的，侵权人是否应当赔偿受害人亲属办理丧葬事宜支出的交通费、住宿费和误工损失等其他合理费用？

昨天来源 | 保险诉讼参考前言:本期推送案例为江西省高安市人民法院审理的一起机动车交通事故责任纠纷案件,涉及民法典实施后,交通事故导致受害人死亡的,侵权人是否应当赔偿受害人亲属办理丧葬事宜支出的交 ...
埃及艳后居然是靠着当众喝下这个，让安东尼甘心做裙下之臣

埃及艳后居然是靠着当众喝下这个,让安东尼甘心做裙下之臣在埃及,艳后的声名并不在爱神之下,她的一生仿佛戏剧,迷住凯撒.征服安东尼再到最后政治的联姻,这位才貌出众兼心怀叵测的女人,因幸运与智慧一生与爱情 ...
折一个会“长高”的柱子，每天高一截，一百天后居然比房子都高！？

落纸生花精选教程 · 第750期一款超简单好玩的折纸玩具教程来啦!它的名字叫--会"长高"的折纸柱子,每天让它高一截,感受"万丈高楼平地起"的快感! 大家都 ...

hg19转为hg38后居然会导致坐标排序发生变化

后记

相关推荐