多物种转录因子数据库请君共赏,比JASPAR方便一丢丢哦~备胎更暖心!
各位亲爱的小伙伴们大家好~今天我们继续来聊一聊转录因子的故事。有关转录因子的数据库之前弘毅老师给大家介绍过很多,其中就有大名鼎鼎的JASPAR数据库,上周我也安利过TRRUST数据库,但是最近我眉头一皱,发现事情并不简单,这些数据库或多或少总有这样那样的一些瑕疵。JASPAR数据库可以用于预测转录因子与靶基因的结合位点,但是在已知基因往上游预测转录因子的时候需要与UCSC浏览器联合使用,操作略微有点麻烦且预测结果不方便导出分析;TRRUST数据库则是有一个自己的由实验验证过的TF-mRNA基因集,如果输入进行检索的基因未被TRRUST收录,则无法进行分析,因此在分析的时候可能会丢失部分基因。基于以上的一些问题,今天给大家安利另外一款转录因子相关的数据库----AnimalTFDB数据库。
数据库网址为:http://bioinfo.life.hust.edu.cn/AnimalTFDB#!/
大家在使用的时候请不要忘记引用参考文献:
AnimalTFDB 3.0: a comprehensive resource for annotation and prediction of animal transcription factors. Hui Hu$, Ya-Ru Miao$, Long-Hao Jia, Qing-Yang Yu, Qiong Zhang and An-Yuan Guo*. Nucl. Acids Res. Volume 47, Issue D1, 08 January 2019, Pages D33–D38, https://doi.org/10.1093/nar/gky822. 转录因子系列传送门
一、AnimalTFDB数据库使用概览
AnimalTFDB数据库最早于2011年11月发表了第一个版本,至今已经更新到了3.0版本,持续维护并更新了7年。值得一提的是,三个版本的数据库更新的文章都发表在了Nucleic Acids Research杂志上,其影响力可见一斑。
AnimalTFDB数据库由华中科技大学郭安源教授团队建立并维护,是一个多物种的全面的数据库,旨在为动物转录因子及其转录辅助因子提供最全面、准确的信息资源,包含来自97个动物基因组的125,135个转录基因和80,060个转录辅助因子基因,并根据转录因子DNA结合结构域(DNA-binding domain, DBD)将转录因子进一步分为73个家族,根据转录辅助因子功能分为83个家族和6个大类。
如上图AnimalTFDB数据库菜单栏所示,Animal TF数据库的主要功能包括以下两点:
1. 提供多种搜索浏览方式,如可以按照“Family”、“Species”或自定义方式“Search”进行检索;
2. 提供两个在线预测工具,如“Predict TF”,“Predict TFBS”,可以分别批量预测转录因子和预测DNA序列上的转录因子结合位点。
其他功能,如Blast是寻找同源基因以及探索研究较少的转录因子的功能;Download提供转录因子及转录辅助因子列表和蛋白序列的下载功能;Document提供Animal TF3.0介绍文档;Citation是Animal TF3.0相关的参考文献。
由于人类转录因子查询的广泛需求,开发团队单独设计了HumanTFDB数据库。该数据库脱胎于AnimalTFDB数据库,功能除了无法检索其他物种的内容,其他与AnimalTFDB数据库完全一样。因此接下来我们以HumanTFDB数据库为例进行功能讲解说明。点击AnimalTFDB数据库右上角“HumanTFDB”或者输入网址http://bioinfo.life.hust.edu.cn/HumanTFDB/#!/,即可进入数据库页面。
二、HumanTFDB数据库功能介绍
1
转录因子家族概览
输入网址或通过AnimalTFDB数据库进入HumanTFDB数据库主页面。可以看到菜单栏与AnimalTFDB数据库类似。下图即为主页面,统计了HumanTFDB数据库收录的转录因子家族及转录辅助因子家族信息。
点击“TF family”跳转到如下页面,展示了根据DBD所划分的不同的TF家族。有关转录因子分类的相关知识大家可以移步初阶体系课转录因子套路课听老谈老师进一步讲解,此处不再赘述。点击图片可以进一步查看该TF家族具体由哪些转录因子组成。
点击“TF Cofactor Family”跳转到如下页面,显示了转录辅助因子家族信息,内容同上。
2
“Search”功能
接下来我们重点介绍一下检索功能与预测功能。点击“Search”,页面跳转如下:
HumanTFDB数据库一共有四个检索模块,分别为“Search by basic information”,“Search by gene annotation”,“Search by human mRNA expression”以及“Search by human protein expression”。首先我们看第一个“Search by basic information”:
如上图所示,该模块用于检索某一个转录因子的相关信息,可以输入该转录因子的Ensembl Gene ID,Entrez Gene ID,Ensembl Transcript ID,Ensembl Protein ID,Gene Symbol,Gene Alias以及Full name进行检索。我们以转录因子AFF4为例,选择Gene Symbol,输入AFF4,点击“Submit”:
页面跳转后显示了AFF4的基本信息,包括Ensembl ID以及Entrez ID编号,转录因子全称以及属于哪一个转录因子家族等。此处有两处可以点击的超链接,点击“Entrez ID”跳转到NCBI中相关的基因页面,此处我们点击“Ensembl ID”进入该转录因子的详细分析结果页面。整个结果页面内容非常丰富,涵盖了转录因子的方方面面,包括:
(Gene Card,包括但不限于该转录因子基因的名称,类型,染色体位置,蛋白质编号以及序列信息等)
(Gene Model,基因模型)
(Protein Functional Domain,蛋白质功能域)
(Gene Ontology,基因本体论)
(TF相关GWAS表型)
(Phenotype,表型)
(PPI-Protein-Protein Interaction,PPI蛋白互作网络,点击下方“Click to view the PPI network”可以进一步查看网络图)
(Paralog&Ortholg,转录因子的同源分子)
(该TF在不同癌症,组织,细胞系等中的表达情况)
我们继续返回看“Search”的第二个功能,用于查询某一PPI/KEGG/GO条目中的转录因子,以GO中的“GO:0002151”为例,点击“Submit”,结果页面展示了该GO Term中包含的转录因子:
在“Search by human mRNA expression”中可以查询不同肿瘤中的转录因子及转录辅助因子。以ACC为例,点击Submit,该肿瘤中一共有1424个TF以及931个TF辅助因子:
“Search by human protein expression”可以查询不同细胞、组织、器官中的转录因子及转录辅助因子。以Adult Colon为例,点击Submit,该器官中一共有285个TF以及521个TF辅助因子:
3
TF&TFBS预测功能
HumanTFDB数据库一共提供了两种预测模式“Predict TF”以及“Predict TFBS”,前者根据用户给定的蛋白质序列识别其中的TF,支持一次上传高达1000个蛋白质序列。注意,蛋白质序列应以FASTA格式输入,每条序列第一行以>开头,再另起一行输入序列。此处我们以示例序列为例,一共有10条蛋白质序列,点击“Submit”,页面刷新后在右侧出现预测结果。“Number of upload sequences”表示一共上传了10条蛋白序列,“Number of hits”表示其中一共有6条为转录因子。下方表格显示了这些转录因子的名称,家族,比对E值,结构域数量。点击“Alignment information”下方的“show”可以查看详细的比对信息。
接着我们演示已知一个靶基因如何预测其转录因子。点击“Predict TFBS”,同上所述,左侧框内需要输入目的基因的启动子序列。如何获得目的基因的启动子序列请大家参考弘毅老师的JASPAR数据库推文或者零代码生信上篇段位三转录因子课程,此处不再赘述。我们以示例序列为例,同样需要输入FASTA格式的文件,点击“Submit”后,右侧出现预测的结果。表格内显示了所预测的能与目的基因结合的转录因子,“Source”显示了预测依据,HumanTFDB数据库从TRANSFAC, JASPAR, HOCOMOCO 以及hTFtarget等数据库中收集TF基序矩阵。表格还依次显示了转录因子与DNA序列结合的起始和终止位置,是与正义链结合还是反义链,预测的score值,P/Q值以及相应的序列。点击右下方的“Download”可以进行下载进行进一步的分析。
好了,HumanTFDB数据库我们就介绍到这里了。转录因子相关的数据库也有很多,我们一一道来,但是不同的数据库之间各有优劣,大家使用的时候记得多多互相参考借鉴噢~