基因知识:基因突变命名规则
肿瘤的发生往往伴随着多种基因发生突变,一个典型的肿瘤细胞通常携带2-8种基因突变。不同类型的基因突变肿瘤患者往往对不同的药物敏感性有所差异,因此在肿瘤治疗过程中,对基因突变类型的检测对于个体化精准医疗尤为重要。
在学习各种基因突变检测之前,有必要对基因突变的命名规则进行系统的学习。目前,对于基因突变的命名规则主要依据HGVS(HumanGenome Variation Society)上的规定。遗传信息的流动遵循中心法则,即从DNA传递给转录后的RNA,后者进一步修饰后再翻译成蛋白质(图一)。因此,基因突变包括DNA、RNA和蛋白质水平,此外还有线粒体DNA等。我们在描述基因突变时,要注意标明是哪个水平上发生了突变。
图一 真核生物的基因结构示意图
参考序列
在描述基因突变前,我们首先要了解基因的参考序列。这些参考序列可以是DNA、RNA或者蛋白质参考序列,也可以是cDNA、非编码DNA或者线粒体参考序列。其中g表示的是基因组参考序列,c表示的是编码DNA参考序列(即cDNA序列),m表示线粒体DNA参考序列,n表示非编码DNA参考序列,r表示RNA参考序列,p表示蛋白参考序列。所有的参考序列均为已发表或者描述清楚的序列,如:NC_000023.10, LRG_199, NG_012232.1, NM_004006.2, LRG-199t1,NR_002196.1, NP_003997.1等。
对于参考序列的编号规则具体见表一。
表一 参考序列的编号规则
突变描述中常见的表示符号和缩写
在描述基因突变的过程中,需要对不同类型突变的表示符号和缩写进一步了解,以下对一些常见的突变表示符号和缩写进行汇总。
“>”表示替换(substitution)
“del”表示缺失(deletion)
“dup”表示重复(duplication)
“ins”表示插入(insertion)
“inv”表示倒置(inversion)
“con”表示转换(conversion)
“fs”表示移码突变(frame shift)
“ext”表示延伸(extension)
“add”表示额外的染色体(an additionalchromosome (marker chromosome))
“cen”表示染色体的着丝点(the centromereof a chromosome)
“chr”表示染色体(a chromosome)
“pter”表示染色体的第一个核苷酸(the first nucleotideof a chromosome)
“qter”表示染色体的最后一个核苷酸(the last nucleotideof a chromosome)
“gom”表示甲基化的获得(a gain of methylation)
“lom”表示甲基化的丢失(a loss of methylation)
常见的突变类型
替换(substitution):一条序列中某一个核苷被另外一个核苷替代,分为转换(transition:嘌呤与嘌呤之间的替换,或者嘧啶与嘧啶之间的替换)和颠换(transversions:嘌呤与嘧啶之间的替换),也叫作点突变。命名:“参考序列前缀.核苷位置原来的核苷>替换后的核苷”,如NC_000023.10:g.123A>G表示基因组序列NC_000023.10的第123位核苷由A突变成G。
缺失(deletion):一条序列中某一个或者多个核苷缺失。命名:“参考序列前缀.核苷位置del”,如NG_012232.1:g.19del表示基因组序列NG_012232.1的第19位核苷缺失;NG_012232.1:g.19_21del表示基因组序列NG_012232.1的第19至21位核苷缺失。
重复(duplication):一条序列中某一个或者多个核苷重复。命名:“参考序列前缀.核苷位置dup”,如NM_004006.2:c.20dup表示cDNA序列NM_004006.2的第20位核苷重复一次;NM_004006.2:c.20_23dup表示cDNA序列NM_004006.2的第20至23位核苷重复一次。
插入(insertion):一条序列中某一个或者多个核苷插入。命名:“参考序列前缀.核苷位置ins”,如LRG_199t1:c.240_241insAGG表示cDNA序列LRG_199t1的第240和241位核苷之间插入三个核苷AGG;NC_000023.10:g.32867907_32867908insL37425.1:23_361表示基因组序列NC_000023.10的第32867907和32867908位核苷之间插入序列L37425.1的23-361位核苷;LRG_199t1:c.419_420ins[T;450_470;AGGG]表示序列LRG_199t1的第419和420位核苷之间插入核苷T和450-470的序列以及AGGG;NM_004006.2:c.849_850ins850_900inv表示cDNA序列NM_004006.2的第849和850位核苷之间插入850-900的倒置序列。
倒置(inversion):替换后的序列是原始序列的反向互补序列。命名:“参考序列前缀.核苷位置inv”。如g.1077_1080inv表示基因组序列的第1077-1080位核苷序列发生反向互补,即由..AGGCTGATT.. 转变为..AGGTCAGTT..;g.122_123ins213_234invinsAins123_211inv表示基因组序列的第122-123位插入了123-213的反向互补序列(其中212位G突变成A);g.122_123ins212_234inv123_199inv表示基因组序列的122-123位插入了123-234序列的反向互补序列(其中的200-211缺失)。
转换(conversion):原有序列的一段核苷被基因组其它位置的核苷替代。命名:“参考序列前缀.核苷位置con替换的序列”。如NC_000022.10:g.42522624_42522669con42536337_42536382表示基因组的第42522624_42522669位被该序列上的42536337_42536382替换;NC_000012.11:g.6128892_6128954conNC_000022.10:17179029_17179091表示基因组NC_000012.11的第6128892_6128954位被序列NC_000022.10的第17179029_17179091位替换。
缺失-插入(deletion-insertion):序列原有的一个或多个核苷被新的一个或多个核苷取代,且不是替换(substitution)、倒置(inversion)和转换(conversion)。命名:“参考序列前缀.核苷位置delins新的核苷”。如:c.142_144delinsTGG(p.Arg48Trp)表示cDNA上的142-144位缺失,并插入TGG。
等位基因(alleles):一条序列上一个基因的多个突变位点。命名:一个基因在其中一个等位基因(染色体)上:“参考序列前缀.[突变1;突变2;...]”;一个基因在两个等位基因(染色体)上:“参考序列前缀.[突变1];[突变2];...”。如果一个基因发现有两种突变,但是不确定实在同一条染色体还是两条不同的染色体上,则命名方式为“参考序列前缀.突变1(;)突变2(;)...”。如:LRG_199t1:c.[2376G>C;3103del]表示cDNA序列LRG_199t1上一个等位基因发生了两种突变即2376位G替换成C、3103位缺失;LRG_199t1:c.[2376G>C];[2376G>C]表示cDNA序列LRG_199t1上两个等位基因分别发生2376位G替换成C和2376G替换成C的突变;LRG_199t1:c.2376G>C(;)3103del表示cDNA序列LRG_199t1上发生两种突变即2376位G替换成C、3103位缺失,但是不知道两种突变是否在同一条染色体上;LRG_199t1:c.[2376G>C];[(2376G>C)]表示cDNA序列LRG_199t1上检测到第2376位替换成C,但是可能是其中一条或者两条染色体都出现该位点突变;LRG_199t1:c.[2376G>C];[2376=]表示cDNA序列上一条染色体的2376位G变成C,另一条染色体正常;LRG_199t1:c.[2376G>C];[?]表示cDNA序列上第2376位G变成C,但是另外一种预期的突变未检测到;NM_004006.2:c.[296T>G;476T>C];[476T>C](;)1083A>C表示cDNA序列的两条染色体上均出现476T>C的突变,其中一条染色体出现296T>G和1083A>C的突变,但是不知道是在哪一条染色体上。
重复序列(Repeat sequences):原有序列出现了一个或多个核苷,且重复出现。命名:单一的重复序列:“参考序列前缀.核苷位置(重复序列的第一个核苷位置)重复的序列[重复的次数]”;混合的重复序列:“参考序列前缀.核苷位置(重复序列的第一个核苷位置)重复的序列1[重复的次数]重复的序列2[重复的次数]...”。如:NC_000014.8:g.101179660TG[14]表示在基因组序列的第10117966位开始出现14次的TG重复;NC_000014.8:g.101179660TG[14];[18]表示在基因组序列中一条染色体的第101179660位开始出现14次的TG重复,在另一条染色体的同一个位置出现18次的TG重复。特殊的FMR1repeat(实际上是CGG重复,但一般写成GGC重复)和HDrepeat(实际上是CAG重复,但一般写成GCA重复),例如FMR1 repeat中的NM_002024.5:c.-128(GGC)[(600_800)]表示cDNA序列-128位开始出现GGC重复,具体重复次数未知,大约是600-800次重复。
复杂突变(complex variant):原始序列发生了一系列不同类型的突变,不能用一般的突变命名方法表示。包括镶嵌现象(mosaicism)、嵌合现象(chimerism)和易位(translocation)。这些命名规则通常比较复杂,需要在进一步地学习。