circRNA查询?用这个就可以了

各位小伙伴们,大家好,我是解螺旋先锋班学员火,今天向大家介绍一个操作简单好用,方便上手的预测circRNA-miRNA交互作用的新兴数据库—circBank数据库。

circBank数据库基本介绍

circBank数据库于2018年7月正式上线,是由广州密码子基因科技公司主持开发的针对人circRNA的综合性数据库。circBank一共收录了140790条不同来源的人circRNA的注释信息,并结合每一条circRNA的宿主基因名称,转录起始和终止位点提出了一个全新的circRNA命名体系。circBank除了可以显示circRNA诸如染色体定位宿主基因等基本信息,还提供了许多新功能,如预测circRNA结合的靶miRNA(miRanda&Targetscan)及结合位点,circRNA编码蛋白的潜能保守性分析(人和小鼠),突变位点注释m6A甲基化修饰以及IRES位点预测

目前circBank数据库面向大众免费公开使用,界面简介,对于新手小白友好,更重要的是它是由国人参与开发的数据库,因此不受网速和墙的限制,且囊括最新的circRNA信息。双手奉上circBank的网址www.circbank.cn,大家还在犹豫什么,赶紧一起来学习吧!当然,如果小伙伴们使用了circBank数据库一定要记得在文章中引用相关的文献哦: Ming Liu, Qian Wang, JianShen, Burton B. Yang & Xiangming Ding (2019)Circbank:acomprehensivedatabase for circRNA with standard nomenclature, RNA Biology, DOI:10.1080/15476286.2019.1600395

基于circBank数据库的命名体系

首先我们介绍一下基于circBank数据库的circRNA命名体系。随着近年来circRNA研究热潮的掀起,越来越多的circRNA被证实在人体各个组织器官中发挥作用。面对数量庞大的circRNA,如何对其进行标准化命名是一个亟待解决的问题。

早先,circBase数据库采用了阿拉伯数字编码的形式对circRNA进行命名,如:hsa_circ_0000001。注意这里一共有7位阿拉伯数字,是circBase数据库针对circRNA的发现顺序进行的依次编号。有些小伙伴可能还会注意到有些circRNA后面是6位阿拉伯数字,这是因为使用的是Agilent公司的circRNA芯片。在circBase数据库中可以对这两类ID进行转化,这里我们就不过多赘述了。可以发现这种circRNA命名模式过于简单统一,满眼望去全是数字,还要仔细数一数到底是6位数字还是7位数字,毕竟同一个circRNA可以同时拥有两种ID。除了序列编号,这种命名模式无法提供额外的生物学信息,且不便于记忆。

因此circBank基于circRNA的宿主基因以及转录的起始和终止位点提出了一个更能够体现circRNA生物学功能的命名规则。circBank采用host gene+阿拉伯数字的形式,如:hsa_circEGFR_001。具体规则如下图所示:

circBank规定,来源于同一个宿主基因的circRNA其名字前半部分的“hsa_circA”保持不变,仅以最后的阿拉伯数字以示区分,转录起始位点越靠前,阿拉伯数字越小,如图中所示的circA_001和circA_004。对于有相同转录起始位点的circRNA,其转录终止位点越靠前,阿拉伯数字越小,如图中所示的circA_001和circA_002。

对于有相同转录起始和终止位点而可变剪切不同的circRNA,采用‘hsa-circHUGO-#_V#’命名形式,其中V表示variant,代表可变剪切,其后的数字代表circRNA的长度。circRNA长度越小,其数值越小。对于基因间来源的circRNA则采取‘hsa-circChrom#_#’形式,Chrom后跟的数字代表染色体的编号,而#后的数字编号则参考上述编码基因的命名规则。以著名的EGFR基因举例,它一共能编码15条circRNA,从‘hsa_circEGFR_001’到‘hsa_circEGFR_015’进行命名,如下图所示:

circBank的这种命名形式可以让circRNA的来源一目了然,同时提供了其在宿主基因上的位置信息,更方便科学家们之间的交流。

circBank数据库实操演示

接下来我们介绍一下可能是大家最关心的有关于circRNA-miRNA交互如何查询的问题了。circBank采用miRanda和Targetscan算法对140790条人circRNA以及1917条人miRNA的结合位点进行预测。其中有42917对circRNA-miRNA包含超过5个结合位点,3545对circRNA-miRNA包含超过10个结合位点,如下图所示:

我们接下来在网页界面进行实操演示,示例使用的是windows版Google Chrome浏览器:

输入网址,来到circBank主页面。Home主要介绍了circRNA的相关信息及circBank数据库的介绍。circRNA以及miRNA板块则对应了circRNA的信息查询以及如何通过一条已知的miRNA预测与其相互结合的circRNA。在Download界面大家可以下载数据库对于circRNA的注释信息以及circRNA-miRNA互作的分析结果。如果小伙伴们对circBank数据库的使用还有任何问题可以在Help里查找相应的解答。

如果已知circRNA,想要查询其对应的靶miRNA,可以点击菜单栏第二项“circRNA”。页面跳转到如图所示。在搜索界面提供许多不同的检索选项,包括Gene name(输入circRNA的宿主基因名称进行查询),circBank ID,circBase ID(上文提到的7位数字形式ID)。用户可以根据自己已知的circRNA信息在对应的栏目中检索。同时还可以勾选下面的circRNA conservation,circRNA m6A进行circRNA的保守性和m6A甲基化分析查询。我们以hsa_circEGFR_001为例,在circBank ID对应的栏目后面输入ID,同时勾选circRNA conservation与circRNA m6A,点击search按钮。

页面刷新后结果如图:

第一列显示的是输入的circRNA,点击链接页面跳转到详情页,显示了该circRNA的基本信息,包括circBank ID,Host gene Symbol,对应的circBaseID,转录本编号,circRNA在染色体上的位置,长度以及注释信息。页面下方还提供了circRNA的序列信息。

页面下拉可以找到人circRNA在小鼠中对应的保守circRNA序列,如图所示。若circRNA在人和小鼠体内具有同源的反向剪切位点,则被circBank数据库认为是保守circRNA。

页面继续下拉可以看到circRNA的蛋白质编码潜能,由CPAT依据circRNA的序列进行计算得出,得分越高,编码潜能越大。

circBank数据库使用IRESfinder预测IRES位点,同时显示预测得分,得分越高,预测的准确性越高:

circBank数据库还提供了COSMIC数据库中相关的突变位点信息:

由于hsa_circEGFR_001缺少m6A甲基化信息,因此这个模块为空:

回到上述最初的结果界面,第二列显示查询的circRNA在circBase中的ID号,第三列position表示circRNA在染色体上的位置,与点开详情页后的结果一致。其后依次显示circRNA的编码链,长度,结合的miRNA,宿主基因的gene symbol以及对应的鼠的circRNA。

点击miRNA一栏的超链接,页面跳转到miRNA预测的页面,显示了所有预测的能与hsa_circEGFR_001结合的miRNA信息,如下图所示,前三列信息如前所述,第四列提供了对应的miRNA的ID,第五、六列分别提供了miRanda和Targetscan数据库预测的circRNA-miRNA结合位点。点击右上角小图标分别可以刷新,改变页面布局以及表格所展示内容。

接下来我们展示如何通过一个已知的miRNA预测与其相互作用的circRNA。以hsa_miR-15a-5p为例,在miRNA页面下的miRNA ID一栏输入hsa_miR-15a-5p,勾选下面的方框,点击search。

页面刷新后,结果如图所示,第一列显示了circBank预测的能与hsa_miR-15a-5p结合的circRNA列表,其余列的信息如前所述,此处不再赘述。点击第一列对应的circRNA,即可以跳转到对应的详情页进行基本信息查询,结果展示请参考前文讲解。

文献解读

由于circBank是个新兴的数据库,目前大家对他的开发和使用仍有限。这里我列举几篇文献方便大家感受一下circBank在纯生信文章以及干湿结合实验中的应用~

1       第一篇文章的题目是Identificationof METTL14 in kidney renal clear cell carcinoma using bioinformatics analysis。在这篇文章中,作者构建了一个circRNA-miRNA-mRNA网络,其中由已知的miRNA预测与之结合的circRNA这一步就使用了circBank数据库进行预测。

2      第二篇文章的题目为Circular RNA circ_0074027 indicates a poor prognosisfor NSCLC patients and modulates cell proliferation, apoptosis, and invasionvia miR‐185‐3p mediated BRD4/MADDActivation。这是一篇干湿结合的文章,作者从一个已知的circRNA,即circ_0074027入手,利用circBank数据库寻找其下游的靶miRNA。

3       第三篇文章也是一篇纯生信文章,但是并没有使用circBank最常用的预测circRNA-miRNA交互的功能,而是使用了人鼠保守性分析这一模块,单独做成了文章补充材料里的第二个表格。文章题目为Screening and functional prediction of differentiallyexpressed circRNAs in proliferative human aortic smooth muscle cells。

好啦,有关于circBank数据库使用的介绍我们暂且先告一段落。最后我们画重点总结一下,circBank数据库提供了一个全新的circRNA命名规则,所以小伙伴们在看文献的时候会发现有两种circRNA命名形式,一种是基于circBase的一长串阿拉伯数字,另一种就是基于circBank的带有宿主基因的名称。circBank采取miRanda和Targetscan两种经典的结合位点预测数据库预测circRNA与miRNA相互结合的位点,并提供circRNA名称,序列,保守性,突变以及修饰等基本信息,是一个功能十分强大的数据库。值得一提的是circBank还有一些隐藏的彩蛋可供大家挖掘,如在Help页面中可以找到UCSC浏览器的链接入口,点击页面即可跳转到UCSC进行可视化操作,有兴趣的小伙伴们可以自己试试。

放眼望去,近几年,很多人都有这样一种感受,那就是现在的科研要求越来越高,论文发表越来越难。

这主要是因为当前竞争越来越大,优质科研成果及高水平论文越来越多,学术市场水涨船高。现在,要想在学术生涯获得良好发展,手握高分论文已经成了通行证。这不仅是对科研人员,对硕博生们也是如此。对于硕博生们来说,优质的论文更是获到学术自信,确保顺利毕业、获得满意工作的决定因素,根本无法忽视。

(0)

相关推荐