一文学会circRNA编码蛋白探究神器circRNADb数据库
各位小伙伴们,大家好~我是火,欢迎大家来到火火的数据库安利专栏。前几期我们说到过circRNA研究领域里面比较热门的两个数据库:circbank与circinteractome(指路链接)。
前者为circRNA提供了一套新的命名体系,并且可以预测circRNA与miRNA的交互作用;后者不仅可以预测circRNA与miRNA的互作,同时预测了某一个circRNA可能结合的RBP蛋白(RNA binding protein)。
今天我们再来聊聊circRNA研究领域常见研究思路中最后一个,也是最难做的一个方向—circRNA编码蛋白。今天我们的主角circRNADb数据库在这一方面就发挥着重要的作用。
circRNA作为非编码RNA,在20世纪70年代才首次被人们发现,之后几十年内一直被断断续续地进行研究,探索其在基因表达调控中发挥的作用。1995年,中国科学家首次在Science上报道了一个人工合成的circRNA,包含IRES序列元件,使得该circRNA得以招募核糖体与之结合,从而启动翻译。不含IRES序列原件的circRNA则无法行使该功能。虽然这个circRNA是纯人工合成的产物,但是引起了circRNA编码蛋白的研究热潮。科学家们开始致力于研究人体内天然存在的circRNA是否同样存在IRES序列元件,即是否存在编码蛋白质的可能性。在这里给大家画个重点,经典的基于核糖体的翻译过程是要求mRNA存在5‘端帽子结构。而在真核生物体内还存在一种启动翻译的机制就是RNA内部存在允许核糖体结合的位点,即IRES序列元件。IRES序列元件是一段核苷酸序列,允许核糖体直接在一段RNA序列中间启动翻译,而不要求从5’端到3‘端进行阅读。circRNA是由头尾相连的闭合环状结构,缺少5’端帽子以及3‘端polyA的尾巴,因此只能采取第二种形式来启动翻译。如果一个circRNA包含至少一个IRES序列元件,它就有可能编码蛋白质。除此之外,还有一个重要的概念就是ORF(Open Reading Frame,开放阅读框)。它是一段对应于蛋白质氨基酸序列的密码子序列,从起始密码子ATG开始,到终止密码子TAA/ TAG/TGA结束。ORF与上游的核糖体募集、组装以及IRES等翻译调控元件一起完成RNA的翻译过程。换言之,预测circRNA能否编码蛋白,最重要的一点就是预测其是否包含IRES序列元件以及ORF序列。好了,背景知识介绍的差不多啦,我们正式开始circRNADb数据库的介绍。数据库网址是http://reprod.njmu.edu.cn/circrnadb,大家在使用的时候不要忘记引用参考文献哟~
Chen, X., Han, P., Zhou, T. et al. circRNADb: A comprehensive database for human circular RNAs with protein-coding annotations. Sci Rep 6, 34985 (2016).
circRNADb是一个综合性的circRNA信息查询数据库,收集文献中报道的circRNA相关数据集加以分析。由于原始数据集可能存在假阳性(circRNA两端的序列来自不同基因)和信息冗余,开发者使用GTF文件对其进行了筛选,共得到32,914个人类外显子circRNA,并列出了其详细的基因组信息,包括最匹配的转录本和相应的外显子剪接信息、基因组序列,以及所有可能的剪接异构体和相应的外显子剪接信息。开发者还注释了具有蛋白质编码潜力的circRNA的IRES序列元件以及开放阅读框(ORF),并提供了其蛋白质表达的质谱学证据。此外,circRNA翻译的蛋白质的特性,包括结构域、N-糖基化位点、粘蛋白O-糖基化位点以及磷酸化位点也在数据库中有所展示。输入网址http://reprod.njmu.edu.cn/circrnadb,进入数据库主页面。整个页面清爽整洁,一目了然,傻瓜式操作对初学者使用十分友好。网页右上角有一个检索框,用户可以根据需要在其中输入关键词,包括染色体名称、gene symbol,转录本信息等来查询circRNA,结果页面会列出与关键词匹配的结果,这里不过多赘述。下方导航栏中的“Home”即为当前主页面,展示了circRNADb数据库以及circRNA的基本介绍。点击“View All RNAs”可以查看数据库收录的所有circRNA的信息。点击“Resources”可以下载circRNADb数据库中所有的circRNA数据集。为了维护和更新数据库,circRNADb数据库设计了“Submission”与“Feedback”页面(点击“Interaction”即可看到),供用户向circRNADb提交自己的数据、报告问题或提出建议。点击“Tutorial”可以查看数据库的使用帮助。circRNADb数据库的检索方式一共提供了“Advanced Search”,“Browse by Gene Symbol”,“Browse by Cell Type”,“Browse by PubMedID”以及“Browse by Protein-coding Potential”等5种检索选项。在“Advanced Search”页面中,可以使用多达6个“AND”、“OR”以及“NOT”相结合的字段来检索特定的circRNA。在“Browse by Gene Symbol”页面中,所有宿主基因的gene symbol以及其所能产生的所有circRNA转录本均以表格形式列出。注意,由于circRNADb也是基于已有文献报道的数据集进行的整理,所以信息相对不够完善,在circbase以及circbank数据库中针对某一特定宿主基因所能产生的circRNA信息更为全面。用户可以通过点击右侧的“Counts”查看每个宿主基因的详细信息以及所能形成的所有circRNA。circRNADb数据库同时支持按细胞(或组织)类型进行检索。所有数据按细胞(或组织)类型进行分组,共包含11种细胞和组织。每个细胞或组织的circRNA总数同时在一旁列出,用户可以单击“Counts”下的数字查看该细胞或组织类型中所有circRNA的详细列表。这一功能对于检索在特定细胞或组织中表达的circRNA非常有用。“Browse by PubMedID”以及“Browse by Protein-coding Potential”允许用户按Pubmed ID以及蛋白质编码潜能进行检索。由于circRNADb数据库包含32,914个circRNA,其中11,423个circRNA包含IRES序列元件,16,328个circRNA包含ORF,仅7,010个circRNA同时包含IRES序列元件以及ORF(拥有编码潜能),占据所有circRNA的21.3%。因此,“Browse by Protein-coding Potential”可以帮助用户直接聚焦到可能编码蛋白的circRNA上。点击进入“View All RNAs”页面,以第一条circRNA“hsa_circ_00001”为例进行结果解读。点击红色链接,进入该circRNA的详细页面。页面刷新后可以发现页面分为上下两部分,“General Information”以及“Detail Information”。基本信息部分显示了每个circRNA的ID、基因组位置、正/反义链、宿主基因的Gene Symbol、基因组长度、样本名称以及物种信息。页面下拉,“Detail Information”提供了circRNA转录本的外显子数量、来源、大小、长度等组成信息以及整个circRNA的全长序列。其次,为了研究circRNA的蛋白质编码潜能,数据库预测了每个circRNA中的IRES序列元件和超过300bp长度的开放阅读框(ORF),并提供了得分最高的两个IRES序列元件,包括位置、参数指标(R得分以及是否存在伪结点)。如果R得分低于1.6分,或不存在ORF,则该circRNA被认为不编码蛋白。如果circRNA具有编码蛋白质的潜能,数据库则提供包括结构域、翻译后修饰位点以及半衰期预测等在内的蛋白质特征。页面最下方还提供了该circRNA的文献来源,包括PubMed ID和详细的参考文献。好了,关于circRNADb数据库的介绍我们就到这里结束啦。circRNA编码蛋白目前还是一个很大的研究方向,因此该数据库的重要性不言而喻。但是读者应同时认识到它的局限性,如该数据库所引用的文献尚未完全涵盖所有的circRNA,所以信息并不全面;其次在检索过程中,circRNA的ID也是使用上的一个痛点。该数据库进行检索时使用的是五位数circRNA ID,而主流数据库如circbase则采用的是7位数ID,因此在匹配上会带来一定的麻烦。火火推荐使用gene symbol在circRNADb中进行检索,或者使用染色体序列位置在circbase中进行检索,可以避开这种尴尬的情况~