影响蛋白翻译调控的序列有哪些,你不会还不知道吧?
在“从质粒到病毒——关于基因过表达那些事”这篇文章中,我们讲到UTR序列可能会抑制蛋白的翻译过程,对于过表达质粒或者病毒构建,目前的常规做法是只构建CDS区域。但是我们一直猜测存在一些序列能起到增强蛋白翻译的作用,因此吉凯一直在做相关的筛选工作,并筛选出了可以明显增强蛋白翻译的顺式调控元件,在此与大家分析交流。
在进行这个工作之前,我们需要先了解5’UTR抑制蛋白的翻译有哪些方式。
2013年发表在PNAS的文章“Tuning gene expression with synthetic upstream open reading frames”提出了一种基于调控ATG的选择的调控方式来调节外源基因表达的设想,即在ATG的上游(5’UTR位置)引入一段ORF,通过增强该ORF的起始翻译,抑制下游ATG的翻译起始。
为了更好地理解文章内容,我们先回顾一下经典的翻译起始过程。43S 预起始复合物通过5端的帽子或者IRES结合mRNA,开始往下游寻找AUG,当识别并结合合适的AUG之后,60S复合物加入,起始翻译,到下游遇到终止密码子(TGA、TAA、TAG)之后,翻译复合物解体,翻译终止。需要注意的是43S并不一定结合遇到的第一个AUG,这与AUG上下游序列有关,如AUG所在序列为CCACCAUGG(kozak序列),该AUG有很高的可能性被选中作为翻译起始位点。
对于图1所示结构,如果在uORF(目的基因上游开放阅读框)有很强的翻译起始位点,那么43S就很难扫描到下游的目的序列并起始翻译。而如果uORF的翻译起始位点很弱,那么下游ORF的表达量就会明显提升。这篇PNAS文章正是基于调节uORF的翻译起始的强弱来调控下游目的ORF的表达。
图1. uORF示意图
作者首先验证了,当目的序列EGFP启始密码子AUG上游序列为ACC时,翻译效率最高,为UUU时,翻译效率最低(图2)。
图2. AUG的上游三个碱基序列对于翻译效率的影响
然后作者在GFP上游构建uORF,观察其对于GFP表达的影响(图3)。结果显示,仅构建一个uORF时,GFP的翻译效率就将被抑制85%以上,当构建连续3个uORF时,GFP的翻译效率可以被抑制接近95%。这里构建的uORF和GFP其AUG前均为ACC序列。
图3. GFP上游构建多个uORF示意图
进一步的,作者开始验证,如果uORF和GFP的AUG前的序列发生变化,GFP翻译受到什么样影响(图4)。可以看到拥有强翻译起始位点的uORF(ACCAUG)将显著抑制下游GFP的翻译,不管GFP的AUG的背景如何。而当uORF的AUG是弱翻译起始位点时(UUU),GFP的翻译将明显增强。
图4. uORF和GFP的AUG前序列发生变化对于GFP翻译影响,横坐标斜线前是uORF的AUG前序列,斜线后是GFP的AUG前序列
这篇文章向我们介绍了5’UTR区域两个影响蛋白翻译的机制,一是AUG的附近序列(后续统称“AUG背景”)影响,二是上游uORF的影响。
最广泛使用的“AUG背景”就是kozak序列,CCACCAUGG,-3位的A和+4位的G对翻译起始影响最大。但是,从图4的结果看,在特定序列下面GAA相对于ACC翻译更强,且从图2的结果看,ACC相对于其他序列,其优势是有限的,而不是绝对的。结合整个转录组来看,虽然大数据分析“AUG背景”经典是ANNAUGG,但是仍然有很多基因的起始翻译点并不是该序列,说明“AUG背景”的序列很可能与基因CDS区域或者5’UTR区域的其他序列有关联。或者,在特定压力下非经典的“AUG背景”会成为主流翻译起始位点。比如有些非典型的启始密码子,如ACG,在一定条件下翻译效率会明显增加。
5’UTR除了”AUG背景”和uORF之外还有一些顺式调控元件也会影响下游基因的翻译。图5列举了RNA/蛋白结合位点,RNA高级结构(伪结,发卡,RNA G-4联体),IRES(核糖体进入位点),uORF,uATG等。在这些顺式调控元件中,除去极少的调控元件增强翻译(lncRNA Uchl1AS通过和Uchl1的mRNA的5’UTR部分配对,增强核糖体结合和翻译,具体的机制还不清楚),其余大部分都被报道抑制翻译。
图5. 5’UTR上调控翻译的元件
从图5可以看到,理想的具有增强蛋白表达的5’UTR,应该是不含有uORF、uATG,不会形成复杂的二级结构(这和下游基因的序列还有关系),不含有某些抑制翻译的RNA或者蛋白结合位点。基于对5’UTR序列和功能认识的有限,想依照现有知识人为设计出能够增强表达的5’UTR序列依然不太现实。
2019年Nature Biotechnology发表题为”Human 5′ UTR design and variant effect prediction from a massively parallel translation assay”的文章,通过大规模文库筛选,为5’UTR的研究提供了思路。下面我们来仔细看下这篇文章,该文章后面重点介绍机器学习部分内容,具有样本小,系统复杂性低,可扩展性不强,本文就暂不介绍,但是作者企图通过建立模型预测未知5’UTR序列对于翻译影响的想法无疑是需要肯定的。
图6. 5’UTR大规模筛选研究思路
本文作者在EGFP的序列之前构建了28000个,长50bp,随机的5’UTR序列,在将该序列构建进入质粒后,进行体外转录。将转录得到的mRNA瞬转293T细胞,转染后收集细胞,做多聚体分析,并将多聚体分析组分进行二代测序,最后计算得到带有不同UTR序列的EGFP的mRNA结合核糖体的数量(measured mean ribosome load,MRL)。
虽然理论上核糖体结合越多,表明翻译越活跃,但是该值和实际蛋白表达量可能依然有差别。于是作者单独选取了几个测序MRL从低到高的序列,分别用这几个质粒转染293T细胞,测定其荧光强度。将荧光强度和MRL进行分析发现有很强的正相关性(图7)。这说明该方法的确可以用于筛选出具有促进翻译的5’UTR序列。荧光强的5’UTR其最大MRL在8左右,而翻译活跃mRNA上两个核糖体间的位置在80-90nt左右,EGFP 720bp的长度,达到了满负荷核糖体,这也间接说明了促进翻译的5’UTR序列转录出mRNA上核糖体是活跃的。
图7. MRL与EGFP蛋白表达量的关系比较
从目前对于5’UTR和3’UTR的研究看,已报道的绝大部分UTR序列的功能都是抑制蛋白翻译;因此目前在构建过表达基因时,如果不是研究相关UTR功能,几乎所有文献都只构建CDS区域。但结合之前的一些现象,我们一直在思考,是否存在一些UTR序列能够促进翻译。吉凯基因一直致力于筛选具有增强基因过表达效果的UTR。在进行过大量实验之后,我们发现一段顺式调控元件被构建进入载体的特定位置将明显增强蛋白的表达效果(图8)。
图8. 吉凯筛选出具有增强蛋白翻译顺式调控元件,测试四个基因蛋白表达均明显增强
目前吉凯基因已经完成测试该UTR序列的构建位置对表达的影响,也已经测试了该序列和不同启动子相互作用对于过表达的影响。如果对该产品有需求,欢迎大家前来垂询。
【参考文献】
1.Ferreira JP, Overton KW, Wang CL. Composability of regulatory sequences controlling transcription and translation in Escherichia coli. Proc Natl Acad Sci U S A. 2013 Aug 20;110(34):14024-9.
2.Paul J Sample, Ban Wang , David W Reid. Human 5' UTR design and variant effect prediction from a massively parallel translation assay. Nat Biotechnol. 2019 Jul;37(7):803-809.
3.Kathrin Leppek, Rhiju Das, Maria Barna. Functional 5' UTR mRNA structures in eukaryotic translation regulation and how to find them. Nat Rev Mol Cell Biol. 2018 Mar;19(3):158-174.