Nat Comm | 全基因组序列数据分析的全基因组扫描统计框架
推荐:江舜尧
编译:罗睺
编辑:马莉
美国纽约西奈山伊坎医学院精神病学、神经科学、遗传学和基因组科学学系Joseph Buxbaum与美国哥伦比亚大学生物统计学系 Iuliana Ionita-Laza等人于2019年7月9日在《Nature Communications》 期刊发表题目为《A genome-wide scan statistic framework for whole-genome sequence data analysis》的文章,随着大规模并行测序技术的不断进步,随着大规模并行技术的不断进步测序技术,它变得越来越有可能进行大规模的全基因组测序研究,因此探索罕见和低频变异的贡献编码区和非编码区都有复杂性状的风险。所以,我们提出了WGScan,一种扫描统计方法,用于同时检测在预先指定的区域或在全基因组范围内关联的存在位置。
文章摘要
全基因组测序研究的分析是具有挑战性的工作,因为大量的非编码罕见变异,我们对其功能影响的了解有限,缺乏自然单位的测试。在此,我们提出一个扫描统计框架,WGScan,可同时检测存在的关联信号,并在全基因组范围内估计关联信号的位置。WGScan可以分析估计全基因组扫描的显著性阈值;利用汇总统计数据进行元分析;合并用于增强非编码区域的发现的功能注释;并使用全基因组汇总统计数据进行富集分析。基于对自闭症谱系障碍的Simons Simplex Collection研究中1786个表型不一致的同胞对的全基因组分析,我们推导出全基因组测序研究的全基因组显着性阈值,并检测显示与启动子区域中自闭症相关的区域的显着富集,与自闭症相关的功能类别,以及预测调节自闭症相关基因表达的增强子。
文章中重要图片说明
图1 | 该方法的一般工作流程如图
图2 | 误差率判别和能力模拟研究。区域大小为200kb。WGScan考虑了几种候选窗口大小,即5 kb、10 kb、15 kb、20 kb、25 kb和50 kb。左边的面板显示了基于105次复制的误差率判别错误率比较。M-Beta:基于Beta分布的方法。m - spectrum -90%/95%/99%:基于谱分解的方法,其中主导特征值占总变异量的90%/95%/99%(即,所有特征值之和)。右边的面板显示了基于1000次重复结果。
图3 | 应用于元芯片数据。顶部面板显示了WGScan(滑动窗口分析)的结果,候选窗口大小分别为5 kb、10 kb、15 kb、20 kb、25 kb和50 kb。每个点对应一个窗口。突出的点对应着重要的窗口和重叠的基因。底部面板显示了基于基因的分析结果。每个点对应一个基因。突出的点代表重要的基因。每个脂质性状的显著性阈值(3.75e 06;估计原始分散和负荷试验的最小p值,所有试验均由127个组织的GenoNet评分加权(每个窗口共256个试验)。红色虚线表示Bonferroni阈值(1.66e08)。基于基因的显著性阈值(1.88e04)是通过基于99个精细定位区域的266个基因的Bonferroni调整计算得到的。右边的面板显示了WGScan识别的重要窗口(以及重叠的基因)。
图4 | 全基因组测序研究的显著性阈值估计(基于Simons Simplex收集数据)。条形图为不同的测试提供了估计的全基因组显著性阈值(log10量表)。WGScan:带有分散和负载测试的WGScan(每个窗口两个测试)。WGScan-I:除了原有的负荷和分散测试(每个窗口共有256个测试)外,还集成了127个组织特异性GenoNet评分。对所有检验的p值最小值估计显著性阈值。Bonferroni阈值定义为0.05除以总试验次数。