快上车!综合数据库footprintDB同时搞定转录因子与靶基因查询
嗨,小伙伴们大家好!这里是每周一弘毅专栏,我志向用小小文字助力你的SCI发表之路。本周继续转录因子话题,给大家带来转录因子综合数据库footprintDB,跟着弘毅的脚步一起来看看吧~!
一、数据库概览
进入footprintDB主页(http://floresta.eead.csic.es/footprintdb/index.php),可见该数据库最新版本于2020年12月2日更新,目前收录来自包括JASPAR在内的19个数据库的9350个转录因子、13682个DNA motifs和35058个DNA结合位点数据,点击侧边栏Databases可分别查看19个数据库的版本信息及其包含的转录因子数据条目统计信息。在侧边栏提供Keywords和Sequences两种检索方式。
页面下拉,可见该数据库提供两种功能,已知蛋白预测/查找DNA binding sites或DNA motifs,已知DNA binding sites或DNA motifs预测/查找转录因子。
点击侧边栏Help菜单下Documentation可以查看该数据库用户指南,有详细的关于数据库背景、检索和预测功能,以及个人数据管理等介绍。
二、数据库核心功能及操作演示
1. Search by Keywords
进入footprintDB主页,点击侧边栏Search菜单下Keywords,Demo下拉菜单展示可以输入的关键词有疾病描述、Uniprot等数据库ID和结合位点碱基序列,其中DNA binding motifs/sites碱基序列官方建议使用Sequence检索方式。
检索框输入关键词,然后依次选择物种、数据库和DNA binding domain类型。以输入人类转录因子SOX4为例,物种选择Homo sapiens,数据库选择All,DNA binding domain类型选择All,点击Search进入结果页面。
结果显示,检索到关于SOX4的3个Transcription factors条目,8个DNA binding motifs条目和0个DNA binding sites条目。
点击Transcription factors结果下Show results,可见来自不同数据库中人和鼠两个物种的转录因子数据,提供Binding Motifs和Binding Sites序列信息。点击DNA motifs结果下Show results,得到类似表格。
点击Accessions栏下蓝色字体可进入Transcription factors详情页面,包含转录因子名称、功能描述、家族和序列等基本信息。
点击Binding Motifs栏下蓝色字体可进入DNA binding motifs详情页面,DNA binding motifs表示该转录因子结合区域的保守模式,提供一致性序列、序列标示图和位置频率矩阵等详细信息。
点击Binding Sites栏下蓝色字体可进入DNA binding Sites详情页面,DNA binding sites表示该转录因子实际的结合区域,提供物种、数据库、参考文献、碱基序列和转录因子等详细信息。
2. Search by Sequence
在footprintDB主页,点击侧边栏Search菜单下Sequence进入检索页面,该模块数据库检索结果以邮件的形式发送,可以先命名检索结果,填入有效邮件地址。检索框Demo下拉菜单展示输入的内容可以是DNA binding motifs碱基序列FASTA格式和TANSFAC文件格式,以及蛋白序列FASTA格式。
然后,检索框输入内容或上传FASTA格式文件,然后依次选择物种、数据库和DNA binding domain类型。以前文得到的人类转录因子SOX4为例,其DNA binding motifs碱基序列为tadAACAAwGrvrw,物种选择Homo sapiens,数据库选择All,DNA binding domain类型选择All,点击Search等待结果。
返回结果提供与输入碱基序列相似的序列对应的转录因子信息,提供差异性指标和相似性评分。
文献单图复现
作者通过报告基因和点突变后功能验证实验证实,MAMP基因表达依赖于顺式调控模块CRM::DJ1E(S15)和CRM1::WRKY30(S24)中type II WT-boxes的参与,其中涉及到GGACTTTT,GGACTTTG和GGACTTTC共3个结合位点序列,本文Table1为footprintDB中预测到小鼠中结合在该3个结合位点可能的转录因子为NF-κB p65。
单图复现如下:进入footprintDB主页,点击侧边栏Search菜单下Sequence进入检索页面,命名检索结果,填入有效邮件地址,检索框输入GGACTTTT,物种、数据库和结构域选择All,其他参数默认,点击Search。
结果如下,复制到Excel中,数据筛选小鼠(Mus musculus),得到25个结果,然后将Motif similarity降序排列,相似性最高为7.89/8,与原文有出入,推测是数据库更新结果。
同理得到可得到结合在GGACTTTG和GGACTTTC的转录因子,整理即可得到本文Table1。