TCGA可变剪切预测数据库
可变剪切(Alternative splicing,AS)是基因转录时,通过组合不同的外显子,形成不同转录本的过程,在生命的信息传递过程中发挥着重要的作用,维持蛋白质多样性的主要机制。在不同组织或者发育的不同阶段,会产生特定的剪切异构体。有研究报道,可变剪切的变化与癌症等多种疾病相关,所以研究可变剪切就显得尤为重要。
那今天小编就给大家介绍一个用于可变剪接查询的数据库:TCGA Spliceseq
(https://bioinformatics.mdanderson.org/TCGASpliceSeq/)。看名字,就知道是基于TCGA的数据来分析可变剪接的数据库。利用该数据库,我们可以很方便查看我们感兴趣的基因在TCGA数据库里面是否存在可变剪切。
PS: 这个数据库也是很多利用TCGA数据库发表可变剪切文章用到的数据库。
在使用该数据库前,我们先了解2个小知识。
可变剪接被分为7种模式,分别为:外显子跳跃(ES),内含子保留(RI),可变启动子(AP),可变终止子(AT),可变供体位点(AD),可变受体位点(AA)和互斥外显子(ME)。
在此引入一个概念Percent Spliced In(PSI),指剪切百分比,是可以量化可变剪切的指标,可以形容一种可变剪接的方式发生的概率。
如下图,外显子跳跃(exon2 - exon4)的PSI为0.8,表示该样本中这个基因外显子跳跃发生概率为80%。
在该数据库,我们可以查看单个基因在肿瘤中发生可变剪接的方式,也可以看单一肿瘤中所有发生可变剪接的基因的PSI情况。
好啦,下面我们来介绍一下这个网站怎么使用吧。
Single Gene
点击菜单栏的Single Gene链接,在下图内输入想要查看的基因后,点击搜索。
或者直接在主页面的搜索框内输入基因名称,点击Go。
这里我们输入基因TP53,结果将显示在不同肿瘤当中发生的可变剪接方式,相关的剪接类型和基因信息PSI等信息。
想查看某基因在单一肿瘤中的可变剪接情况时,可以在搜索基因时直接选定肿瘤类型,当然,我们也可以在结果页面通过筛选来更进一步的精确查看。
Top Events
点击菜单栏的Top Events链接,默认直接显示所有肿瘤中发生可变剪接的基因(top 500)的PSI情况,当然我们也可以通过主页面的B.
来进入。
通过图上的筛选框,选择欲要查看的肿瘤类型或可变剪接类型,来更进一步的查看。
PSI Data Download
此处为下载链接。值得注意的是,当我们要下载的数据过多时,在可变剪接类型处最好不要一次选定7个,因为下载到最后会显示网络错误!所以最好分次进行下载,比如每次只选择AA或AD等。
好啦,关于该数据库的使用,大概就是这样啦。目前该数据库仅包含蛋白质编码基因的AS事件,暂不包括非编码RNA,不过咱们之前介绍过一个lncRNA可变剪接的数据库(LncAS2Cancer),想要研究lncRNA的AS事件时,倒是可以拿来一用的。