最强攻略2: 史上最全非编码RNA数据库汇总解读
第一单元
lncRNA数据库
长链非编码RNA(Long non-coding RNA, lncRNA)是长度大于 200 个核苷酸的非编码RNA。研究表明, lncRNA 在剂量补偿效应、表观遗传调控、细胞周期调控和细胞分化调控等众多生命活动中发挥重要作用,成为遗传学研究热点。以下是针对长链非编码lncRNA的数据库:
01
LncRNA Disease datebase
http://www.cuilab.cn/lncrnadisease
LncRNADisease数据库整理了实验支持的lncRNA-疾病关联数据的资源,还整合了用于预测新型lncRNA-疾病关联的工具该数据,旨在提供人类lncRNA的全面功能注释。此外,LncRNADisease还可以在各种水平上促进lncRNA相互作用,包括蛋白质,RNA,miRNA和DNA,目前提供1564个人类lncRNAs对疾病的预测结果。
02
IncRNASNP
http ://bioinfo.life.hust.edu.cn/lncRNASNP
IncRNASNP 是提供人、小鼠长链非编码RNA(lncRNA)中单核苷酸多态性(SNP)的全面资源的数据库。它包含lncRNA中的SNP位点,探究SNP对lncRNA结构的影响,lncRNA中的突变以及lncRNA:miRNA结合,分析SNP位点对于lncRNA与miRNA结合的影响。lncRNASNP2数据库中人类lncRNA和SNP的数量已更新为141,353和10,205,295。
03
http : //www.bio-bigdata.net/lnc2cancer/
Lnc2Cancer是一个手动管理的数据库,作者在PUBMED搜集了超过6500篇文献中LncRNA与癌症之间的关联,完善了lncRNA-癌症关联并进行了注释,可提供lncRNA或circRNA与人类癌症之间全面的实验支持关联进行评分以及能够浏览癌症中LncRNA谱的高通量实验。
详情请戳: Lnc2Cancer:肿瘤相关lncRNA数据库
04
http://www.rna-society.org/rnalocate
RNALocate是提供一个RNA亚细胞定位的高效的处理、浏览和分析的资源库。当前版本的RNALocate记录了超过190,000个与RNA相关的亚细胞定位条目,并提供了实验和预测证据,涉及65种物种中超过105,000个具有44个亚细胞定位的RNA,主要包括智人,小家鼠和酿酒酵母等,有超过21800条RNA(9种RNA类型,包括mRNA, miRNA, lncRNA等等)和42种亚细胞定位(主要包括细胞核、细胞质、内质网和核糖体等)。
05
LNCipedia
https://lncipedia.org/
LNCipedia是一个公共数据库,用于存储较长的非编码RNA(lncRNA)序列和注释。该数据库整合了多个人类(Human)lncRNA数据库信息,很大程度上解决了lncRNA数据库各自为政的问题。整合的数据库包括LncRNAdb、Broad Institute、Ensembl、Gencode、Refseq等,并赋予了它们统一ID,同时还包含ncRNA转录本在基因组位置、长度、结构、miRNA结合、lncRNA在其他数据库中相关记录等信息。使用者可以在该数据库中录入、搜索和下载lncRNA相关信息现在已经升级到5.3版本。
06
AnnoLnc
http://annolnc.gao-lab.org/
AnnoLnc是一个系统地注释新的人类lncRNA的一站式网站。目前是该工具基于700多个数据资源和各种工具链,AnnoLnc的系统性注释涵盖了基因组位置,二级结构,表达模式,转录调控,miRNA相互作用,蛋白质相互作用,遗传关联和进化。
第二单元
MicroRNA数据库
MicroRNA(miRNA )是一类内生的、长度约为20-24个核苷酸的小 RNA,其在细胞内具有多种重要的调节作用。每个 miRNA 可以有多个靶基因的表达,而几个 miRNA 也可以调节同一个基因的表达。据推测,miRNA 调节着人类三分之一的基因。以下是针对miRNA的数据库:
01
YM500v2
http://ngs.ym.edu.tw/ym500v2/index.php
YM500v2是用于个人smRNA-seq数据集的miRNA定量,是鉴定miRNA 和新型miRNA预测的集成数据库。YM500v2中包含了YM500之后开发的与miRNA相关的新算法,纳入了8000多个与癌症相关的smRNA-seq数据集,可用于microRNA研究,是miRNA的表达谱数据以及相关分析。YM500v2可用于靶基因预测、组间差异表达等分析进行处理。
02
Starbase
http://starbase.sysu.edu.cn/
Starbase结合源自10882个RNA-seq和10546个miRNA-seq数据的32种癌症的基因表达数据,ENCORI允许研究人员对RNA-RNA和RBP-RNA相互作用进行泛癌分析,还提供平台进行miRNA,lncRNA,假基因和mRNA的存活和差异表达分析。不仅可以分别显示多个miRNA靶基因预测结果,还囊括了多种miRNA的功能信息和其在肿瘤中表达情况。
03
miRWalk
http://mirwalk.umm.uni-heidelberg.de/
miRWalk是一个综合性的miRNA靶基因数据库,收录了Human、Mouse、Rat、Dog、cow等多个物种的miRNA靶基因信息,不仅仅记录了基因全长序列上的miRNA结合位点,也会将其与已有的12个miRNA靶标预测程序的预测结合信息集合进行结合关联。
04
DIANA tools
http://diana.imis.athena-innovation.gr/DianaTools/index.php
DIANA tools,是一个集合了miRNA和lncRNA相关研究的数据库,目的是提供一种算法数据库和软件,用于在系统框架中解释和归档数据,范围包括从深度测序数据的表达调控分析。该数据库能够分析miRNA与靶基因,miRNA与信号通路,miRNA与lncRNA的相关分析,以及自动分析数据,并且可以直接根据序列(新miRNA)预测靶基因,我们还能够查询miRNA发表的相关文章,miRNA相关的启动子、调控因子、转录因子内容也是有的。
05
SomamiR
http://compbio.uthsc.edu/SomamiR/home.php
SomamiR是microRNA(miRNA)及其靶点中癌症体细胞突变的数据库,集成了多种类型的数据,用于研究体细胞和种系突变对癌症中miRNA功能的影响。数据库还提供了存在miRNA靶序列体细胞突变与肿瘤相关的基因及其参与的通路。
06
miRNEST
http://rhesus.amu.edu.pl/mirnest/copy/
miRNEST是一个整合了动物,植物和病毒microRNA数据的综合数据库,这是一个集成的microRNAs资源。数据库的核心部分是作者根据225种动物和202种植物的表达序列标签(EST)进行的miRNA预测。其中包括生效的miRNA序列,小RNA测序数据,表达,多样性,靶标数据和进入外部miRNA资源的链接。
07
TargetScan
http://www.targetscan.org/vert_72/
TargetScan是一款预测miRNA结合位点的软件,对于哺乳动物中miRNA结合位点预测的效果很好。在预测miRNA靶基因之前,首先需要确定转录本的3’UTR区域,TargetScan数据库通过一种名为3P-seq的测序技术,确定转录本对应的3’UTR区(哺乳动物中的miRNA通过结合转录本序列的3’UTR区,从而发挥转录后调控作用),并且结合该技术的分析结果和NCBI中已有的3’UTR注释,提供一个综合的3’UTR区序列。
08
miRcode
http ://bioinfo.life.hust.edu.cn/lncRNASNP
miRcode-基于全面的GENCODE基因注释,提供了“整个转录组”人类microRNA靶标预测,覆盖完整的GENCODE注释的转录组,包括10419条已经注册的lncRNA,转录本注释来源于Gencode v11版本,并将转录本划分成了不同类别.miRcode还涵盖了编码基因,包括非典型区域,例如5'UTR和CDS。miRcode与TargetScan相比,主要增加了ncRNA和非3’UTR区的检索。
第三单元
circRNA数据库
环状RNA(circRNA)是一类特殊的非编码RNA分子(在活体中有时也有表达),也是RNA领域最新的研究热点。与传统的线性RNA(linear RNA,含5’和3’末端)不同,circRNA分子呈封闭环状结构,不受RNA外切酶影响,表达更稳定,不易降解。大概在2010年开始,RNA-seq技术的发展以及专门的计算管道开发,引爆了circRNA 研究。以下是针对circRNA的数据库:
01
circBase
http://www.circbase.org/
circBase 是一个环状RNA的数据库,收录多个物种的circRNA信息,采用了find_circ软件来预测去核糖体文库中的circRNA,数据库可以单个环状和列表形式对环状RNA进行搜索,还可以把全部环状RNA下下来,部署到本地服务器上面,还可以像UCSC一样使用序列进行blat比对。
02
CIRCpedia v2
http://www.picb.ac.cn/rnomics/circpedia
CIRCpedia v2是一个更新的综合数据库,其中包含来自六个不同物种(人、大小鼠、果蝇、斑马鱼)的180多个RNA-seq数据集的circRNA注释,识别262782个环状RNA。还可以通过物种,细胞系,基因名称或者基因组位置,circpedia中的circRNA进行检索,数据库会给出环状RNA ID来源基因,对应的线性转录本,表达量,外显子的起始和终止位置,细胞系,保守性等信息,并可以用热图或者散点图的形式展现环状RNA在不同组织或者细胞系中的表达量。
03
circRNADisease
http://cgga.org.cn:9091/circRNADisease/
circRNADisease是基于已有实验验证的circRNA和疾病关联的在线数据库,系统地核实了800多个已发表的文献,并收集整理了330种circRNA和48种疾病。circRNADisease中的每个条目均包含有关circRNA-疾病关联的详细信息,包括circRNA和疾病名称,circRNA表达模式,以及关于circRNA的简要功能说明和其他注释信息,注释物种主要是人。