看看那些不在gnomAD数据库出现的常见人群变异位点是什么

前面我们说到了对3784343个的SNP位点来说,3353921个因为人群频率大于了0.05会被过滤掉,还剩下430304值得我好好研究一下。

那么,现在就开始我的表演吧。

首先,看看过滤后那值得探索的43万位点长啥样,如下:

  1. 16      84731054        84731054        G       T       het     165.77  13      60.00   13.81

  2. 2       148321842       148321842       C       T       hom     500.77  16      60.00   31.30

  3. 7       91591448        91591448        A       G       het     206.77  16      60.00   12.92

  4. 1       70361880        70361880        A       C       het     37.77   9       60.00   4.20

  5. 21      11185914        11185914        C       T       het     715.77  209     59.97   3.49

  6. 1       194072273       194072273       C       A       het     635.77  50      60.00   13.25

  7. 1       197838902       197838902       C       T       het     605.77  55      60.00   11.01

  8. 18      64898134        64898134        G       A       het     107.77  21      60.00   5.39

  9. 5       94042767        94042767        A       G       het     211.77  16      60.00   13.24

  10. GL000232.1      30946   30946   G       A       het     1919.77 189     55.19   10.27

很明显,这些位点已经没有顺序来 ,而且这个格式,勉强来说可以当做是bed格式,但是也不完全一样,要把我们的vcf文件的变异,来根据这个位点文件进行挑选,现有的工具当然是可以做到,比如snpeff等等,但是我懒得去查看那些软件说明书了,自己动手丰衣足食,不就是写一个脚本的事情嘛。

  1. cat snp_filter.hg19_gnomad_genome_filtered snp.vcf |perl -alne '{print if /^#/;print if exists $h{"$F[0]\t$F[1]"} ;$h{"$F[0]\t$F[1]"}=1 if !/:/;}' > snp.filter_gnomAD.vcf

这就是为什么我很讨厌annovar软件的问题,把大家公认的vcf转为自己的格式,害得我还得写代码转回来。

算了。

现在有了这个 snp.filter_gnomAD.vcf 文件,就可以进行snpeff软件的注释咯 , 运行代码很简单,如下:

  1. java -Djava.io.tmpdir=/home/jmzeng/  -Xmx15g -jar ~/biosoft/SnpEff/snpEff/snpEff.jar     \

  2. -i vcf GRCh37.75 snp.filter_gnomAD.vcf  > snp.filter_gnomAD.snpeff.vcf

位点不多,所以很快就走完了这个流程,其实这个时候注释我反而无法解读,因为snpeff注释的信息太多了,超过一百多种注释信息。但是它给了一个很不错的html报告,可以很清晰的看到这些突变的性质。

先看对这43万位点的一个总结表格吧:

变异总结表格

可以看到大部分位点(77.5%)都是在dbSNP数据库里面出现过的,并不是我本人特有的。

区分染色体看突变频率

可以看到突变频率还是蛮均一的,至少没有在染色体上面显示出特异性,至于染色体内部嘛,后面的图表再展现即可。

比较奇怪的是chr21和chr22的突变频率相差还是蛮大的,也许值得探究。

突变位点是否影响基因功能

可以看到仍然大部分突变都是silent的,并没有太大的影响,对基因功能产生非常大影响的那些突变才0.365%,当然,就是这么少才值得探究。

但是它们的总数加起来跟43万对不上,应该是还有其它解释。

图表太多,我就不一一介绍了,我比较好奇的是这个vcf报告竟然没有R语言版本的,值得我们深思,是不是可以写一个工具呢?

好吧,其它的,下期再见哈。

(0)

相关推荐

  • 家系分析软件汇总

    作者:charon 审稿:童蒙 编辑:amethyst 二代测序技术蓬勃发展,已经用于临床上辅助疾病诊断,利用二代测序数据挖掘孟德尔遗传病相关的基因及变异位点也是越来越普遍.近年来,研究人员开发出很多 ...

  • 【软件介绍】ANNOVAR注释软件用法

    变异检测得到的结果是检测样本的基因组序列与参考基因组序列之间的差异.本质上是一个将真实的变异从文库准备.样本富集.检测/测序和映射/比对产生的产物中分离出来的过程.想要进一步研究每一个变异的实际意义, ...

  • 【竺】数据库笔记5——常见数据库面试题

    【竺】数据库笔记5——常见数据库面试题

  • 【直播】我的基因组(六):变异位点注释数据库的准备

    大家好,又是一周不见. 这次见面,已然是一个悲伤而又狂欢的日子,这个双十一,小编从一只单身汪已经变成了断手单身汪,累觉不爱.但是,扶朕起来,朕还能学. Jimmy的测序数据终于出来了,虽然还没寄到Ji ...

  • 使用SnpSift把vcf文件的变异位点注释到clinvar数据库

    遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf文件注释到dbSNP数据库的ID一样简单 ...

  • 遗传资源数据库专题-gnomAD

    简介 Genome Aggregation Database(简称gnomAD)是由各国研究者联合发展起来的基因组突变频率数据库.其目的是汇集和协调来自众多大规模测序计划的全外显子组和全基因组测序数据 ...

  • 124种~综合类资源数据库大汇总

    数据库简介 序号 数据库名称 文献类型 简介 数据类型 链接 1 2 宁波图书馆宁波特色数据库 图书/报纸 宁波市图书馆的数字化资源,主要有馆藏老报纸.<申报>中的宁波史料.宁波文史资料. ...

  • 网上研学 | 免费中文期刊数据库——中国知网

    今天闽图君要给大家介绍的是全球最大的学术论文数据库中国期刊全文数据库(CNKI),适合高校或社会研究机构科研人员.大学生群体使用. 中国期刊全文数据库(CNKI)又叫"中国知识基础设施工程网 ...

  • 一个 Go 语言实现的高性能 NoSQL 数据库

    Go语言中文网 今天 以下文章来源于Go招聘 ,作者欧盆索思 Go招聘Golang 相关求职和招聘,以及面试题.经验分享,Go 语言其他知识和职场也是值得分享的. NoSQL 数据库和关系数据库一样被 ...

  • 数据库:分布式数据库•新变量

    数据库行业:行业螺旋上升,分布式数据库时代到来 数据库发展需要关注增量市场,分布式数据库或成新机遇 数据库的发展与计算载体紧密相关.数据库是计算机行业的基础核心软件,所有应用软件的运行和数据处理都要与 ...

  • 深度解析PolarDB数据库并行查询技术

    一  背景 随着数据规模的不断扩大,用户SQL的执行时间越来越长,这不仅对数据库的优化能力提出更高的要求,并且对数据库的执行模式也提出了新的挑战.随着数据库在云上的蓬勃发展,越来越多的传统用户迁移到云 ...