公共数据挖掘|已有GWAS数据的下载及挖掘(一)
公共数据挖掘|已有GWAS数据的下载及挖掘(一)
前几年,全基因组关联分析(GWAS)研究非常火热,全世界范围内发起了许许多多的GWAS课题。其研究的复杂性状也覆盖甚广,包括常见疾病,疾病风险因素,基因表达量和DNA甲基化,脑影像学表型,社会及行为学特征。文章发表在Nature, Science, Cell, Nature Genetics,Nature Methods等等国际顶级杂志上。GWAS利用SNP芯片扫描样本获得的数据,基于常用权威软件如PLINK1.9(http://www.cog-genomics.org/plink2)和PLINK1.07(http://zzz.bwh.harvard.edu/plink/download.shtml#download),通过统计分析的方法(如:Linear regression analysis和Logistic regression analysis),在全基因组范围内,寻找差异的SNP位点的等位基因或基因型,同时也可以结合连锁不平衡(Linkage disequilibrium, LD)关系,推测可能的疾病易感基因。
首先,我们必须清楚认识到GWAS只是一个技术方法,所以依靠它来进行发现表型或者疾病的易感基因,也收到多种因素的影响。主要如下:1)实验的样本量,这个因素直接关系到我们的实验能否有效能发现潜在的易感突变位点。2)所研究的表型(性状或者疾病)是否存在异质性,是否容易定义等等,这一点和该表型的生物学特性及诊断或评价的精确度有关,而效应量又是未知的。3)用于GWAS分析的平台,能够检测到多少SNP位点。4)表型(性状或者疾病)与多少遗传位点相关。5)这些遗传位点的等位基因频率和它们效应量的联合分布情况。相关的基本原理和影响因素很多,如:A. 复杂性状的差异到底由多少遗传位点或基因决定?B. 具有显著效应的位点以怎样的方式调控表型?C. 如何研究低频变异?D. 从GWAS能否到性状预测?这里就不多说了。想多了解一点的话,可以参考我们之前的推文:GWAS还能走多远?——十年的思考。还可以参考最新发表在《The American Journal of Human Genetics》上的大综述:Visscher et al. (2017). 10 Years of GWAS Discovery: Biology, Function, and Translation.
今天和大家分享一下,我们如何得到GWAS数据,包括原始数据和GWAS summary 数据。首先要感想先驱们的共享精神,愿意分享他们的数据到公共数据库中,供全世界范围内的科研人员再利用。数据共享在如今的GWAS成果中发挥着重要的作用,是基因研究领域的一大特色。数据共享不仅使研究者能够更方便地获得更多的研究素材,同时也衍生出许多新的统计学算法,这些新的算法又反过来催生了更多新的发现,简直是量变到质变的飞跃。目前,基于GWAS原始数据及summary数据的软件和方法已经很多了。如, FORGE,MRPEA,GSA-SNP,MAGMA,INRICH,Set screen test method, MAGENTA, DGAT,ALIGATOR等等,它们各有自己的优势和缺陷。大家可以根据自己的需要自行选择合适的。我们在之前的推文中详细的介绍了MAGMA软件在GWAS数据中的应用和案例实操;详见推文:MAGMA很好的GWAS数据通路富集方法|别样的公共数据库挖掘(内有练习资料)
基于不同的目的,我们需要不同的数据内容:1)如果需要精细研究,如看不同样本的突变位点的基因型,等位基因变化情况,研究SNP-基因表达的关系(cis-eQTL analysis),SNP-甲基化之间的关系(cis-meQTL analysis),我们可能需要下载GWAS原始数据,可以从dbGaP 数据库中下载:http://www.ncbi.nlm.nih.gov/sites/entrez?db=gap(值得注意的是这个数据库有部分数据是公开的,但大部分都得申请)。2)如果只需要知道突变位点的作用大小、P值等统计信息,进行整合分析,我们可以下载GWAS Summary数据即可:https://www.ebi.ac.uk/gwas/summary-statistics。如下图所示,相关的GWAS summary数据库。
下面以PGC(Psychiatric Genomic Consortium)精神类疾病的GWAS数据库为例,给大家展示一下如何下载GWAS Summary statistics数据进行再分析。首先,上图中的链接:https://www.med.unc.edu/pgc/results-and-downloads,网页打开后如下图所示:
接下来,我们就可以点击相关GWAS数据,进行下载,使用,再分析等等。目前来看,二次或者多次利用已发表的GWAS数据,也可以发现很好结果,发表在高质量的杂志上面。如:在2015年发表在Nature Neuroscience上(PMID: 25599223):Psychiatric genome-wide association study analyses implicate neuronal, immune and histone pathways. Network and Pathway Analysis Subgroup of Psychiatric Genomics Consortium. Nat Neurosci. 2015 Feb;18(2):199-209. (这次先写到这里,下期进一步向大家介绍已有GWAS数据的再利用)