可变剪接与蛋白质组多样性及其调节机制 | Public Library of Bioinformatics
武春晓
前言
可变剪接是指从一个mRNA前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的mRNA剪接异构体的过程。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制。剪接过程受多种顺式作用序列和反式作用因子相互作用调节。包括SR和hnRNP家族蛋白在内的多种剪接因子参与这一调节过程。转录机器(machine)也参与可变剪接的调节。本文将讨论:一.可变剪接与蛋白质组多样性 二. 可变剪接的调节机制。
第一部分 可变剪接与蛋白质组多样性5
据预测,人类基因组可能有约35,000个基因,果蝇约14,000个,而简单的模式生物线虫约19,000个基因。生物的复杂性与其基因组基因数量似乎存在明显差异。原因在蛋白质组。基因重排,RNA编辑,和可变剪接等机制可以从一个基因产生多种蛋白,从而使蛋白质组中蛋白质的数量超过基因组中基因的数量。其中,从影响的基因数量和生物种类范围来看,可变剪接是扩大蛋白质多样性的最重要的机制1-4。
一、可变剪接的频率。5,6
1. 5%。从1977年Walter Gilbert提出可变剪接概念,1980年Baltimore在小鼠IgM基因发现第一个可变剪接产生膜型、分泌型IgM,至2001年,用经典分子生物学实验的方法研究,一共仅发现了数百种有可变剪接的基因。并推测在高级真核细胞生物约5%的基因有可变剪接。
2. 35%-60%。高通量的基因组测序和EST测序,使得生物信息学的方法研究可变剪接成为可能。EST来源于完全加工的mRNA, 它们提供了一个广泛的mRNA多样性的样品库。这种多样性可以用计算机分析。最近两年,多个研究小组通过不同的生物信息学的方法,从整个人基因组的水平进行分析,结果一致显示约35%-60%的人基因有可变剪接形式。而且,由于对大多数基因来说,每个基因只测了很少几EST甚至没有EST;EST不是全长的mRNA,多位于mRNA的5’和3’端;EST来源于有限的组织和发育阶段;很有可能存在有更多的可变剪接而在现在的EST库中没有显示。因此实际可变剪接的频率可能比预测的更高。这还有待于建立新的高通量的分子生物学方法,如生物芯片的方法,以进一步实验验证。
二、单个基因可变剪接产生的多样性5。
一个基因可以通过如下几种方式产生多个转录体,如不同的转录起始位点,可变剪接,选择不同的加尾信号位点,RNA编辑等。可变剪接包括3种类型:1.内含子的保留;2.可变外显子的保留或切除;3. 3’和5’剪接位点的转移(shift)导致外显子的增长或缩短。可变剪接对蛋白质结构的影响也是多样性的,如多肽链中一个到数百个氨基酸的增加或减少;某功能域的有无;如果可变剪接使读码框架改变,则可能无法有效翻译,mRNA被监视系统降解。
单独一个基因通过可变剪接产生的十几种剪接异构体的现象很常见。有些基因甚至能够产生成千上万种剪接异构体。最突出的例子是果蝇(Drosophila melanogaster ) 的Dscam 基因,可以通过可变剪接产生38,000多种mRNA异构体。Dscam 基因编码一个神经元轴突定向受体,它细胞外有一个由10个免疫球蛋白重复序列组成的结构域,第2,3,7个免疫球蛋白重复序列分别由第4,6,9号外显子编码,4号外显子盒(cassette)有12个变异体,6号外显子有48个变异体,9号外显子有33个变异体,再加上17号外显子的2个变异体。每个成熟的Dscam mRNA分别只有一个有4,6,9,17号外显子的变异体,由此理论推测Dscam 基因共有12×48×33×2=38016剪接异构体。对Dscam 基因50个cDNA克隆随机测序发现了49种不同的剪接异构体, 说明实际存在的剪接异构体即使没有理论那么多,也至少有上千种。人的Neurexins, n-Cadherins, calcium-activated potassium channels等基因也有类似的高度多样的剪接异构体。
上述现象非常类似于淋巴细胞TCR或免疫球蛋白的胚系基因重排,不同之处在于后者发生在DNA水平,前者发生在RNA水平。基因重排产生的高度多样抗原受体库可以识别高度复杂的自身和异己抗原。而Dscam 基因的转录异构体可能有神经系统的发育有关。神经元的定向迁移和相互连接可能是发育过程中最复杂的事件。果蝇约有25,000个神经元,要使它们生长的轴突准确的,可重复性的到达目的地,使这些神经元准确的连接在一起,必然需要一个特殊的系统。Dscam 基因的38,000多种mRNA异构体,每个异构体各编码一个不同的受体,每个受体具有识别不同分子定向信号的潜能,从而有能力指导各个生长的轴突到达准确的位置。
如果将可变剪接与其它RNA加工过程(如RNA编辑)联系起来共同考虑,基因产物会更复杂。例如,果蝇的para基因(voltage-gated action potential sodium channel)有13个可变外显子,可编码1536种不同的mRNA,另外,para的转录体还要经过在11个已知位点的RNA编辑,这样理论上一共可以产生1,032,192个不同的para 转录异构体。
根据受可变剪接影响的基因的概率,以及单个基因可能产生的可变剪接体的数目,足以表明可变剪接对蛋白质组多样性的巨大影响。
三、可变剪接的功能和生物学意义5,11
1. 可变剪接是在RNA水平调控基因表达的机制之一。
一个基因通过可变剪接产生多个转录异构体,各个不同的转录异构体编码结构和功能不同的蛋白质,它们分别在细胞/个体分化发育不同阶段,在不同的组织,有各自特异的表达和功能。因此,可变剪接是一种在转录后RNA水平调控基因表达的重要机制。
目前已知的可变剪接异构体中,只有一小部分明确确定了功能和生物学意义。第一个确定的可变剪接异构体功能是 IgM基因,其末端最后两个外显子的可变剪接,决定了所编码的膜型/分泌型IgM的产生。最著名的例子是果蝇性别决定系统,在此系统中,至少5个基因(sxl, tra, msl2, dsx, and fru) 转录体的可变剪接级联反应最终决定了果蝇雄性和雌性性别特征的表达。有些基因,可变剪接造成的蛋白质异构体之间功能上的差异没有被实验检测出来。不过阴性的结果不能代表没有功能差异,只是目前没有检测出来而已。也有很多异构体造成读码框架改变,不能被翻译为蛋白质,而是直接被降解了。真核生物也有mRNA监视系统NMD(nonsense-mediated degradation),检测 mRNA中异常提前出现的终止密码子,一经发现,立即降解异常的mRNA,防止其翻译。在大多数情况下,检测可变剪接造成的蛋白质异构体之间功能上的差异的实验还没有开展。最近发展的RNAi技术,可以适应高通量的从功能基因组水平研究各基因可变剪接异构体的功能的要求。2000年已经有人将RNAi技术应用于模式生物线虫的可变剪接异构体的大规模研究上。(目前已经大量开始用于哺乳动物系统)
2.多样性与复杂性
可变剪接是从相对简单的基因组提高蛋白质组多样性的重要机制,蛋白质组的多样性与多细胞高等生物的复杂性相适应。从可变剪接涉及的基因分布格局分析,可变剪接多发生在参与信号传导和表达调节等复杂过程的基因上,如受体,信号传导通路(凋亡),转录因子等。对个体分化发育和一些关键的细胞生理过程如凋亡、细胞兴奋等的精确调控有重要意义。从可变剪接涉及的基因系统分类分析,可变剪接多发生在免疫和神经等复杂系统。正如Dscam 基因所示,可变剪接产生的多样性,赋予这些系统精确处理复杂信息相适应的潜力。
第二部分可变剪接的调节机制7
可变剪接能够产生惊人的多样性,但我们对其调节机制所知不多。剪接位点的选择受到结合到非剪接位点RNA元件的剪接因子的多重调节。参与可变剪接调节的RNA元件包括ESE、ISE、ESS、ISS。剪接因子包括SR和hnRNP家族蛋白等多种因子。
真核生物新生的mRNA前体经过5’戴帽,剪接,3’加尾等加工成为成熟的mRNA。在剪接反应过程中,含有内含子和外显子的新生的mRNA前体,在剪接体作用下切除内含子,并将外显子依次连接起来的过程。剪接反应由剪接体执行,剪接体包括5个小核糖核蛋白复合体U1,U2,U4,U5 和U6 snRNPs ,和50-100种非snRNP蛋白。剪接体通过RNA-RNA,RNA-蛋白质,蛋白质-蛋白质等多重相互作用以精确切除每个内含子和以正确次序连接外显子。
为有效剪接,绝大部分内含子需要:
1.一个保守的5’剪接位点,A/CAG↓GURAGU;
2.一个分支点序列BPS , YNYURAY,后面跟着一个多聚嘧啶Pytract Y10-20;
3.一个3’剪接位点YAG。
剪接体的形成是一个多步骤依次进行过程,形成多个中间体:
1 E-复合体形成:U1snRNA通过碱基互补识别5’剪接位点,SR蛋白结合。U2AF65和U2AF35识别多聚嘧啶Pytract和3’剪接位点;
2 A-复合体形成:U2snRNA通过碱基互补识别分支点序列BPS;需ATP;
3 B-复合体形成:U4/U6 _ U5 tri-snRNP随后与mRNA结合;
4 C-复合体形成:最后,RNA-RNA,RNA-蛋白质相互作用构象改变形成有催化活性的剪接体。
(见图1)
一、参与可变剪接的RNA顺式作用元件:
根据它们所在的位置和作用特点,分为4类:
1.ESE: exon splicing enhancer 外显子剪接增强子;
2.ISE: intron splicing enhancer 内含子剪接增强子;
3.ESS: exon splicing silencer 外显子剪接沉默子;
4.ISS: intron splicing silencer 内含子剪接沉默子。
ESE和ISE是剪接因子SR蛋白结合位点,提高相邻剪接位点的活性。ESS和ISS是hnRNP蛋白结合位点,抑制相邻剪接位点的活性。ESE、ISE、ESS、ISS都是很短的序列基序,一般由6-10碱基组成。每一类成员内部之间即有相对的特异性,也有简并性,作用有交叉和冗余。
二、SR蛋白
SR蛋白是一个多细胞生物中高度保守的剪接因子家族,其成员多带有一个或二个拷贝的RNA识别基序(RRM),后面有一个精氨酸/丝氨酸富含结构域(RS)。RRM介导RNA结合,并决定各SR蛋白的底物特异性;RS结构域参与蛋白-蛋白间相互作用。各SR蛋白在固有剪接和可变剪接中有多种作用。其中之一是识别并结ESE或ISE,提高相邻剪接位点的活性。SR蛋白的底物ESE/ISE含有简并性的共有识别序列基序,因此不同SR蛋白之间底物有交叉,其特异性取决于SR蛋白各自的表达水平、亲和力和与其它蛋白的相互作用。
SR-相关蛋白(SRrp)是另一组带有SR结构域,并参与剪接反应的蛋白。它们可能有RRM,如U1-70K蛋白,U2AF65/35,SRm160/300KD(两个SR相关核基质蛋白),和可变剪接调控因子,如Tra和Tra2。SR与SRrp都可以增强相邻弱(suboptimal)剪接位点的活性。
三、hnRNP蛋白
hnRNP蛋白是一组由多种RNA结合蛋白组成的具有多种功能的多肽家族。其成员带有多种不同形式的RNA结合基序和富含甘氨酸结构域。富含甘氨酸结构域可能参与蛋白-蛋白相互作用。hnRNP A、B、C家族的蛋白与新生的mRNA前体组装成40S的结构。多种hnRNP蛋白始终伴随mRNA,影响mRNA的剪接,出核转运,甚至在胞浆的翻译,RNA定位,和降解。
四、SR蛋白和hnRNP A/B蛋白在剪接位点选择中的拮抗作用
单个SR蛋白在5’位点的选择使用上有相似作用:增加蛋白浓度,结果将在pre-mRNA的两个或多个5’可变剪接位点中促进选择使用内含子近端的5’位点。值得注意的是,hnRNP A/B蛋白作用正好相反:它们促进选择内含子远端的5’位点。不同SR蛋白个体有时可能作用相反。如SF2/ASF 和 SC35在β-tropomyosin可变剪接调节中的拮抗作用。
SF2/ASF与hnRNP A1的功能拮抗作用基于它们对mRNA前体的竞争性结合。用双5’剪接位点mRNA前体为底物实验,表明SF2/ASF 干扰hnRNPA1对双5’位点的结合,同时增高了U1 snRNP的对两个5’位点的结合,在此条件下近内含子的5’位点被选择剪接(与3’位点最近)。相反,hnRNPA1非选择性的结合到此mRNA前体,同时干扰了U1 snRNP的对两个5’位点的结合,结果是选择了远端的5’位点。
SR蛋白和hnRNP A/B蛋白一般不需要识别特异性的靶序列,就可发挥对可变剪接位点的选择作用。但它们要发挥增强子或沉默子的作用,就必须结合到特异性的位点。在增强子依赖性剪接中,SR家族蛋白结合到ESE,就能够促进招募U2AF到多聚嘧啶序列PY-tract,而活化邻近的3’剪接位点。ESE结合的SR蛋白通过RS结构域介导与U2AF35亚基的相互作用参与这一活性。或者,ESE结合SR蛋白可能与剪接共活化因子SRm160作用,通过一系列反应招募U2AF65到多聚嘧啶序列PY-tract。最后,剪接增强子ESE可以拮抗由识别外显子剪接沉默子ESS的hnRNP蛋白的介导的抑制作用。例如,在HIV-1 tat基因,其外显子3含有SF2/ASF 和 SC35-依赖性ESE,和一个结合hnRNP A1的沉默子ESS3。hnRNP A1结合ESS3后可以引发hnRNP A1与外显子上游区域的结合。ESE结合的 SF2/ASF,可阻止此作用;而SC35不能拮抗hnRNP A1的作用。因此,此ESS3抑制SC35,而非 SF2/ASF依赖的剪接。
SR和hnRNP A/B蛋白的相对浓度,也是影响组织和发育特异性可变剪接格局的重要调节因素。在不同的组织,SR蛋白的总浓度和个体浓度不同,特别是SF2/ASF和它的拮抗剂hnRNP A1的分子摩尔比更是不同。另外,蛋白磷酸化可调节SR和hnRNP A/B蛋白活性。提示可变剪接受细胞外信号的调节。SR蛋白家族成员功能有重叠和冗余,但各成员也有一定特异性。
五、多聚嘧啶序列结合蛋白(PTB)
PTB,又称hnRNP1,识别3’剪接位点前的多聚嘧啶序列,有抑制剪接作用。机制可能是与U2AF竞争性结合多聚嘧啶序列。PTB自身就有3个剪接变异体PTB1,2,3,各自在可变剪接中有不同的作用。
六、CELF蛋白家族
CELF家族的蛋白(CUG-BP 和 ETR3-like factors) 参与细胞特异性和发育调节的可变剪接。这些RNA结合蛋白包含3个RRM和一个功能未知的接头。CELF3和CELF5仅在脑组织表达;CUG-BP,ETR-3和CELF4表达较广泛,但在脑组织和横纹肌表达受发育调控。CELF蛋白结合到cTNT基因的肌肉特异性增强子MSE,并促进受发育调节的外显子5的保留(inclusion)。
七、组织特异性因子
一般性剪接因子之间的拮抗作用,如SR蛋白和hnRNP蛋白,是造成多种的可变剪接形式的原因之一。而组织和发育特异性调节的剪接因子,也在可变剪接的调节中也发挥着重要作用。但寻找这种剪接因子的进展非常缓慢。
在神经系统可变剪接是一种普遍现象。NOVA1是一种带有KH RNA结合结构域(hnRNP K homology)的神经元特异性RNA结合蛋白,它调节神经元特异性可变剪接,是神经元的功能活性必需的因子。NOVA1识别GlyRα2 pre-mRNA可变外显子3A相邻的一个内含子位点,促使该外显子的保留。该活性被另一个神经元富含的剪接因子brPTB拮抗。brPTB是PTB的一种异构体,它可以诱导hnRNP复合体的组装(packing),封闭了可变外显子3A的剪接体识别位点,使之被切除。同样brPTB介导了c-src pre-mRNA N1外显子的神经元特异性剪接。
八、多重调控
即使是一个剪接位点的选择,也往往是剪接信号和多种调节信号ESE,ISE, ESS,ISS等及相应的多种剪接因子组成的复合体的共同作用的结果。而不是由单个的基因特异性的因子所决定。这种机制非常类似于基因的表达调控,其优点在于:1.特异性: 剪接信号和多种调节信号序列都很短,且有简并性,单个信号的一级结构的信息量很少,而剪接复合体多种成分之间弱相互作用的叠加可以产生特异性的识别。2.敏感性:不同细胞剪接复合体某个成分发生改变,同时其它成分保持稳定,则可以产生敏感的反应。
九、转录在可变剪接中的作用10
转录和mRNA前体的加工、转运、降解并不是相互独立的过程。RNA 聚合酶Ⅱ(POLⅡ)的延伸过程与mRNA前体的三个加工过程(戴帽、剪接、加尾)在时间和空间上高度协同。POLⅡ靶基因的转录活化将招募SR蛋白到转录区域。RNA POLⅡC末端结构域(CTD)介导mRNA的合成与剪接的偶联作用。抗RNA POLⅡ或CTD的抗体可以免疫共沉淀SR蛋白,并可在体内和体外阻断mRNA的剪接加工。无CTD或CTD截短的RNA POLⅡ产生的转录本不能被有效的剪接。
调节基因表达的启动子结构也影响可变剪接。例如,有人将受不同的启动子启动的,带有可变剪接外显子EDI的α-globin/fibronectin 微基因转染人细胞系,发现在FN 或 CMV启动子作用下,EDI的保留比α-globin启动子高10倍左右。EDI带有一个ESE,是SR蛋白SF2/ASF和9G8的靶点。SF2/ASF和9G8过表达促进EDI的保留,但此作用受启动子的调节。
十、转录和可变剪接偶联的分子模型7,10
1. 启动子模型。启动子或增强子可能通过与之结合的转录因子来招募SR家族蛋白。例如:P52,一种转录辅助活化因子,可以直接于SF2/ASF作用而促进mRNA前体剪接。另外一些蛋白可能有双重功能:即参与转录,也参与剪接。如人转录活化因子PGC-1, 它可以促进一个可变外显子的保留,但此作用只有在它被招募到与基因启动子相互作用的转录复合体时才有这种作用。当启动子突变,招募PGC1的转录因子不能结合到DNA时,PGC1就没有这种效应。其它转录因子,如WT1和SAF-B,也有偶联剪接的作用。Prp40, ESS1,CA150三用。一组称为SR样CTG结合因子(SCAF),与SR蛋白相似,带有RS结构域和RNA结合结构域,有人推测它们也可能具有偶联剪接和转录的功能。
2。延伸速率模型。启动子替换法是一种有效的研究转录对可变剪接的调节作用的方法。然而自然界不存在启动子替换现象。另一种方法是用不同的转录因子作用于同一个启动子,以研究转录和可变剪接的偶联机制。最近,有报道SV40T-Ag和VP16两种转录因子对可变剪接有截然相反的作用。一方面,SV40T-Ag降低RNA POLⅡ的延伸活性,增加了FN EDI外显子的保留。另一方面,VP16促进RNA POLⅡ的延伸活性,抑制了EDI的保留。这就是延伸速率模型的基础,即RNA POLⅡ延伸速度减慢,或中间停顿,则有利于可变剪接外显子上游的内含子的切除,一般该内含子3’剪接位点效应较弱。等RNA POLⅡ继续前进,剪接体只能切除下游的内含子,使得可变外显子保留。如果RNA POLⅡ延伸速度快,或没有中间停顿,则两个3’ 剪接位点之间竞争,下游的强3’ 剪接位点效应更强,导致了可变外显子的去除。另外,延伸速率对RNA二级结构的作用,或RNA POLⅡ停止位点迟缓ESE,ESS转录的作用,也影响可变剪接。
结束语:
发现新的可变剪接异构体,确定每个异构体的独特功能和生物学意义,并阐明其调节机制,是功能基因组时代研究的一个重要领域。在这一领域研究中,除利用经典的分子生物学技术外,还需建立新的高通量的技术,如生物芯片技术,RNAi技术等,并要与生物信息学技术紧密结合,同时需要细胞生物学、生物化学、临床与病理学、免疫学等多学科的协作,才有可能对这一重要的生命现象有所了解。
参考文献
1 Ewing, B. and Green, P. (2000) Analysis of expressed sequence tags indicates 35,000 human genes. Nat. Genet. 25, 232–234
2.Adams, M.D. et al. The genome sequence of Drosophila melanogaster. Science 287, 2185–2195 (2000).
3. The C. elegans Sequencing Consortium. Genome sequence of the nematode C.
4 Pennisi, E. Human genome project: and the gene number is...? Science 288, 1146–1147 (2000).
5 Brenton R. Graveley Alternative splicing: increasing diversity in the proteomic world. TRENDS in Genetics Vol.17 No.2 February 2001
6. Barmak Modrek & Christopher Lee. A genomic view of alternative splicing nature genetics · volume 30,13-19 ·January 2002
7. Javier F. Cáceres and Alberto R. Kornblihtt Alternative splicing: multiple control
mechanisms and involvement in human disease TRENDS in Genetics Vol.18 No.4,186-193 April 2002
8 Michelle L Hastings and Adrian R Krainer Pre-mRNA splicing in the new millennium. Current Opinion in Cell Biology 2001, 13:302–309
9 Douglas L. Black Protein Diversity from Alternative Splicing: A Challenge for Bioinformatics and Post-Genome Biology. Cell, Vol. 103, 367–370,October 27, 2000,
10 Aaron C. Goldstrohm, Arno L. Greenleaf, Mariano A. Garcia-Blanco . Co-transcriptional splicing of pre-messenger RNAs: considerations for the mechanism of alternative splicing.
Gene 277 (2001) 31–47
11 Malka Nissim-Rafinia and Batsheva Kerem TRENDS in Genetics Vol.18 No.3 March 2002