高通量测序技术的发展对人类遗传学和人类基因组学产生了不可估量的影响。WGS的广泛应用使得在整个基因组范围内检测各种各样的常见的或者罕见的遗传性变异成为可能,同时也促进了罕见病的研究,并且在一定程度上提高了常见疾病的诊断率。目前,全世界范围内已经对几十万个物种进行了基因组测序,我们正站在一个新时代的开端,在这个新时代里WGS将会成为遗传学分析的主要手段。与过去几十年的人类遗传学研究相比,这是一个根本性的变化。
对WGS检测出来的变异进行功能解读是人类遗传学研究的一个重要组成部分,并且对于揭示变异对性状的影响至关重要。全基因组范围内的功能基因组学分析的检测目前已经越来越精确并且还可以预测突变的分子效应。但是由于这些效应全面地反应了基因组功能的复杂性,我们对其理解又不是很完全,因此对于突变的分子效应以及它们对更高级的器官功能的潜在影响仍然需要去探索。
图1展示的是人类表型研究中基因组分析的基本框架(图1)。
WGS研究的最初目的就是为感兴趣的样本创建一个高质量的基因突变图谱。这一重要举措为后续的基因组解读和基因检测打下了基础。目前主要有三大WGS平台(图2):(1)illumina平台的短读长WGS,该平台产生具有双末端,约150bp的读长序列,错配率较低,约0.1%-0.5%。(2)PacBio或ONT平台的长读长WGS,该平台利用单分子技术产生10-100kb左右的读长,有时候更长,同时错配率也更高,在10%-15%左右。(3)基于10x Genomics的linked-read全基因组测序。考虑到费用、可操作性以及准确性,当前绝大多数的人类遗传学研究应用Illumina HiSeq或者NovaSeq平台的短读长WGS进行分析。
进行WGS研究设计时的一个重要考虑是期望达到一个什么样的覆盖度水平。为了将真正的突变与测序错误区分开,基因组中的每一个碱基都必须要被测序很多次。更深度的测序对于变异的检测来说有更高的敏感度和准确性。一般来说,基于家系或者n=1的罕见病研究的测序深度需要大于30×以确保能够检测到罕见的或者新发的杂合突变。而对于大规模基于复杂性状的研究的测序覆盖度相对来说可以低一点,一般大于20×,这样不但可以满足大样本的需求,对于罕见位点的检测仍然有不错的敏感度。早期有研究应用小于10×的WGS以降低测序费用,但是这种方式并不能检测到低频突变。尽管最适的测序深度是根据研究的目的来确定的,但是实际上当前大部分的WGS研究的测序深度是大于20×的。
单核苷酸变异(SNVs)和小的插入/缺失变异(<50bp,indels)在人群变异中占很大比例(表1)。正常情况下,一个人的测序结果跟参考基因组比对会检测到大约3-4百万的SNVs以及40-50万的indels。尽管大部分这些变异并不会导致分子功能异常或者引起表型方面的改变,但是每个基因组都会检测到超过100个因密码子提前终止而打断蛋白质的变异,其中,至少大于20个变异在人群中是罕见的并且具有潜在的致病性。导致氨基酸改变的错义SNVs和框内indels可能是完全良性的,也可能会引起一种严重疾病的发生。最后,这些变异通过影响转录和转录后调控元件从而影响基因的调控。从根本上来说,SNP或小indel要对基因调控产生影响,就需要一种活性受两个等位基因差异影响的序列特异性调节因子,至少在发育的某个阶段是这样的。这些小变异是最容易从短读数据中检测到的一类变异。现有广泛使用的工具对于约72%的基因组是高度有效的,可以进行准确的数据比对,敏感性和特异性在SNVs和indels中分别超过99.5%和95%。然而,对于大的包含重复序列的indels仍然存在很大的进步空间。大约有8.5%的基因组由于存在重复片段以及高拷贝数重复而导致短读数据的错配,因此对于SNVs或者indels的识别是极度困难的。这些区域包括临床相关的多拷贝基因,对于这些基因内部的突变的检测不足是短读长WGS的一个主要弱点。从算法上来克服这样一个不足是很难的,但是如果测序的读长能够增加的话这个问题就会得到实际性的改善。
SVs是一种大于50bp的可表现为多种形式的基因组变异,包括CNVs、重排以及可移动元件的插入(MELs)(表1)。相对于SNVs及indels来说,SVs的数量比较少,但是由于SVs在体积上相对来说更大一些,因此会产生更多的致病性效应。SVs是短读数据中最难检测的一种变异类型。SVs通过改变基因剂量、打断基因的功能等发挥作用。不出意料,那些缺失或者重复了多个基因或者整条染色体的极大片段的变异会导致强烈的表型效应,并且在人群中也并不常见。更小的或者更常见的SVs一般只会牵涉到一个或者几个基因,或者存在于非编码区。SV被认为是短读长技术中最难检测的一种变异。在一个典型的人类基因组中,短读WGS检测出来的SVs大约有10000个,长度长WGS检测出来的大约有20000个,两者之间的区别主要在于小重复变异。 然而,有一些SVs由于存在于重复序列中,因此其断裂点并不能被短序列比对直接捕获。然而大一点的CNVs(>1kb)可以通过更深度的测序分析检测到。这种方法会产生跟基于微阵列分析类似的信息,也存在同样的挑战,比如较低的敏感度、对于小CNVs(<10kb)有较高的FDR以及会人为地将大的CNVs片段化为许多更小的CNVs,这会让后面的功能解读变得复杂化。只有适量的(5%-10%)的CNVs可以仅通过深度测序分析就可以检测到。然而,这些也往往是最大的CNV之一,富含基因,通常不能很好地被SNVs标记。因此,深度测序对于旨在全面理解人类遗传学的研究来说是很重要的。
SVs结构的多样性也带来了挑战。比如约5%的SVs具有邻近的错综复杂的断裂点,这些SVs的结构和功能通常很难推测。大部分复杂的SVs是比较小的,但是也不排除存在涉及多条染色体的极端情况。
针对高拷贝数重复变异的检测也具有一定的挑战性,一般来说相对于SVs需要更专业的方法。由逆转录转座产生的MELs也是一种比较常见的变异形式,一个典型的人类基因组中通常可以检测到>2000个MELs。虽然通常不会被认为是一种主要的致病性变异来源,但是也有例子表明MELs具有在插入位点打断基因及调节元件的潜能。STRs是一种重复单位为1-6bp的重复子,由于其突变频率很高,因此STRs数量极其庞大并且高度多态性。编码区的STRs由于产生了重复的氨基酸,已知已经与>40种单基因遗传病相关。非编码STRs据报道占基因表达常见变异顺式遗传的10%-15%。已经有各种各样的方法用于短读数据中STRs的检测,传统的检测针对较短的STRs,当前也可以针对包含致病性位点的较长STRs。可变数量串联重复(VNTRs)是一种重复单位为7-49bp的重复子,大部分的VNTRs是非编码的,对邻近的基因有很强的调节作用,也有一部分的编码VNTRs可以导致孟德尔遗传疾病。针对VNTRs的检测很少受到关注,几乎没有特异性的方法来检测。针对位于着丝粒和异染色质区域的较大一点的卫星重复序列的研究甚至更少。因此,VNTRs和卫星重复变异的普遍性和功能重要性仍然不清楚。值得注意的是,重复变异类别之间的区分通常是比较随意的,并且文献和变异数据库中针对它们的定义也并未达成一致。我们希望随着测序和变异检测方法的改进这些都会有一个清晰的界定。当前WGS数据分析的限制在于对参考基因组的过分依赖。尽管GRCh38在很多方面来说已经很完美了,但是在重复和结构多样化的区域仍存在着一些不足和错误。对于遗传学研究来说存在的一个更大的问题是这个参考基因组并不能代表我们人类这个物种的多样性。这个参考序列是一个代表多个个体的嵌合单倍体,在这里许多单倍体以某种方式被“砸”在一起。当我们使用这样一个参考基因组作为比对时,如果被研究个体的祖先跟参考基因组更接近,才会得出一个相对来说更准确的分析结果。另外一个使用这样一个参考基因组的不良后果就是会影响到基因组多样性区域的等位基因的检测。并且,对于那些参考基因组中没有包含的新序列上的突变位点的检测几乎是不可能的。尽管大多数这样的区域都是小的、非基因的或高度重复的,但是在WGS研究中仍然需要对它们进行评估。考虑到这些情况,创建下一代参考“泛基因组”资源的想法已经形成了势头,这个泛基因组是人群中所有DNA序列信息的理想基因组集合。更重要的是,这些基因组允许设计全新的短读分析策略,这些策略或许可以克服上面提到的那些不足。数据分析大多数技术上的困难都是由将短读序列翻译成复杂的、重复的参考序列引起,如果我们能够应用长读技术对人类基因组进行廉价地、准确地测序,这些问题就会在很大程度上会消失。但是这一天是否会到来还不是很清楚。然而,在过去的一年里,PacBio和ONT平台取得了显著的进步,预计在不久的将来会有进一步的改善。ONT最近在扩展读取长度方面取得了重大的进展。PacBio也开发了一种测序方法,高准确度的读长可以达到10-15kb。这两个平台最近都实现了成本的大幅下降。但是这两个平台都面临的主要挑战是原始数据的错误率极高(>10%),从而导致需要高成本去实现精确的全基因组变异检测。当前来说,由于小的indels的错误率仍然还是很高,长度技术必须与lllumina的短读数据相互补充。到目前为止,基于参考序列的变异检测的性能改进还是相当有限的,并且仅限制于特定区域和特定的变异类型。迟早,长读技术将在一定程度上会有所改善。随着错误率的显著改善,将有可能通过对泛基因组图谱的长读校准来识别绝大多数的遗传变异。等位基因频率是分析基因组变异需要考虑的一个关键因素。人群中大部分的变异都是比较罕见的(图3)。一般来说,罕见变异被定义为人群中极低的等位基因频率MAF<1%,常见变异的MAF>5%,低频变异的MAF介于二者之间。超低频变异的MAF<0.01%。虽然大多数变异在人群中都是非常罕见的,但大多数变异在个体检测中是常见的(95%)。这可以解释为,大多数个体间变异是由于早期人类历史中出现的古老多态性,当时有效种群规模很小,现在在所有主要祖先群体中都存在。然而,每一代就有50-100个新突变出现,并且在最近几代人口增长的过程中,已经积累了大量的超低频变异。在大型研究中,每个被测序的个体都贡献了更多这样的变异。一般来说,更罕见的变异更难分析,因为在群体水平的变异检测和性状相关的分析中可以依赖的观测对象很少。绝大多数的遗传变异是非功能性,并且在个体层面上没有明显的表型效应。大部分具有强烈表型效应的变异都是有害的,并且大部分有害的变异都是罕见的。事实上,一个遗传变异的等位基因频率可能是其潜在表型效应的唯一最有力的代表。比如说,针对对生殖有强烈影响的孟德尔或早发性疾病的研究通常使用等位基因频率作为主要变异分级标准,并仅关注罕见和新发变异。早期等位基因频率评估主要依靠低覆盖度的WGS或者外显子测序数据。目前来说大部分的精确的评估数据主要来自于gnomAD以及Bravo数据库,这两个数据库都是基于来自75000个个体的高深度WGS数据。这些数据库的价值不可估量,但是在多样性方面也存在着局限性。它们既不包含结构变异或者重复变异,并且稍大一点的indels也很少。我们希望未来能有一些研究项目能够创建更大的WGS数据库以包含所有的变异类型、跨越更多样化的祖先群体。对遗传变异进行分子效应的解读是遗传分析必不可少的一部分,致病基因的发现通常需要优先考虑被预测对基因功能有强烈影响的变异(图1)。小部分变异通过对个体表型产生影响发挥功能的方式一般有两种:1、通过改变蛋白质或非编码RNA的序列来诱导基因产物的组成发生质的变化。2、通过改变蛋白质或者RNA的量发生量的变化。(图3和图4)
最直接的遗传变异注释是基于它们的等位基因频率和它们在基因组编码或非编码区域的位置(图5)。这些都已经在之前被不同的研究团体报道过了。罕见病及孟德尔遗传病研究主要集中于外显子测序检测出来的罕见的、具有强效基因打断作用的变异。相反地,常见疾病研究主要集中于SNP array检测到的的常见变异和可能具有驱动GWAS关联的调节效应的非编码变异的分析。
然而,这种变异注释和遗传学研究的方式目前正受到来自多个方面的挑战。首先,过渡到将WGS作为一项通用的检测技术就会检测到各种各样的变异,不论是哪个区段的变异或者频率是多少,这样就会导致从技术上来讲没有必要区分编码与非编码、罕见和常见。其次就是已经有研究证明了不管是常见疾病还是罕见病其基因结构比预想的更为复杂。最后,对遗传变异功能效应的更精确的理解挑战了简单的编码-非编码分类,该分类通常认为编码区的变异会导致基因敲除或破坏蛋白质结构,而非编码区的变异仅可能轻微影响转录水平的调节作用。事实上,不管是编码区还是非编码区的变异都可以对蛋白质结构和剂量产生不同程度的性状和数量上的改变(图3和图4)。通过预测的功能效应而不是基因组位置来注释变异,将最终具有更好的生物学合理性和下游适用性。比如说,对基因表达具有强烈效应的非编码区的变异跟编码区的变异有着同样的LOF的效果。评估变异的定性和定量效应的目的取决于对不同类型遗传变异的分子效应的准确预测,这也是目前人类基因组研究中最积极追求的挑战之一。对于编码区变异来说,遗传密码子和高质量的人类基因注释提供了相对直接的手段来精确预测氨基酸变化和过早终止密码子,所述氨基酸变化和过早终止密码子会导致截短的蛋白质或转录本通过无义介导的衰变而降解。然而预测一个氨基酸是否会真的导致蛋白质结构或功能改变是非常困难的。剪接的改变可能会极大地改变蛋白质的结构或引入一个过早的终止密码子。一系列的算法已经被应用于剪接位点的变异效应的预测,但它们的效果还远远不够完美,尤其是在远离典型的剪接位点的地方。基因的剂量由于具有复杂的转录和转录后翻译调控,相对于蛋白质结构来说被影响的方式会更加多样化。然而,遗传变异对调控元件功能和基因表达的影响的推断仍然是一个需要面临的主要的挑战。尽管这是研究的一个热点领域,但是在实际应用中仍然缺乏强有力的表现。我们无法准确读取基因组的调控密码是WGS研究持续存在的一个挑战。未来对变异的解读可能会存在的挑战包括,首先功能注释并不包含所有,对于细胞类型、位点特异性转录、转录以及转录后调控元件等这些信息就不完善。另外,当前的基因组分析工具并不涵盖所有的基因功能。最后,大多数eQTL研究仍局限于相对较小的样本量。当前,WGS研究要实现其全部潜能需要克服的关键挑战是全面的变异检测和对变异功能的准确预测。我们希望在未来长分子测序技术、高质量单体型分析以及泛基因组的发展使得在绝大多数功能基因组位点上进行合理全面的变异检测成为可能。然而,要使这些方法满足人类基因研究所需的大规模样本量,在未来几年仍然需要付出大量的努力。对于变异功能效应预测这方面的挑战相对来说就更为复杂,人们普遍认为对大量以及多样化的细胞类型以及人群分析是有必要的。我们设想,实验方法的改进、大而全面的数据库的创建和算法的开发将齐头并进,以实现对变异效应的评估和预测。总之,对基因组变异及其功能效应的认识是理解人类生物学和改善人类健康的重要基础。为了最终实现这些目标,基因组学将需要与基于群体的表型分析和临床应用相结合。