JASPAR:转录因子motif数据库
motif是一段重复出现在基因序列上的一段片段,通常具有高度重复的碱基序列,是转录因子或者DNA结合蛋白识别并结合的锚定点,就像之前说的,一个DNA结合蛋白可能对应多个motif,motif也会对应多个蛋白,但是大体上结合的信息,通过现在高通量的计算方式,是可以找到规律的,而JASPAR正是收录了这些信息。
JASPAR是一个免费公开的转录因子数据库,收集转录因子与DNA结合位点以及结合方式,共收集了脊椎动物、植物、昆虫、线虫、真菌和尾索动物六大类不同类生物的数据,可以用来预测转录因子与序列的结合区域。里面有9个子数据库,各库内容针对不同,对应不同来源和类别的转录因子信息。
JASPAR
http://jaspar.genereg.net/#
JASPAR CORE类别有实验证据支持的真核生物转录因子motif信息,每个motif编号以MA开头。
Collection CNE包含了233个调控人类非编码基因的转录因子motif信息,以CN开头。
Collection FAM是转录因子的类别class信息,多个转录因子可以拥有相同的调控序列,将调控序列相同的转录因子归为一类,每个class的编号以MF开头。
Collection PBM运用体外技术分析104个小鼠的转录因子后得到的motif信息,motif编号以PB开头。
Collection PBM HLH是 C. elegans bHLH的19个转录因子的信息,motif编号以PL开头。
Collection PBM HOMEO包含的是小鼠的转录因子motif信息,以PH开头。
Collection PHYLOFACTS包含的是分析的是哺乳动物进化保守基因的转录因子motif信息,motif的编号以PF开头。
Collection POLII包含的是RNA聚合酶结合区域的motif序列,motfi编号以PL开头。
Collection SPLICE包含的是human剪切位点的motif序列,数据量很小,一共只有6个motif, motif编号以SA开头。
JASPAR子数据库概览
这九个数据库面,当属 JASPAR CORE 数据库最高质量,非冗余最好的转录因子数据库,包含的信息源于已经实验证实的真核生物转录因子结合位点。可供查找的物种有脊椎动物,线虫,昆虫,真菌和植物,一般都推荐使用JASPAR CORE 。
接下来看看 JASPAR怎么使用吧~
01 search
在搜索模块,我们可以按TF转录子名称或物种、分类单元、UniprotID或任何名称进行关键词搜索。在下方7个筛选条目供我们选择:包括collection、Taxon、Species、Data type、Class、Family、Versions。
这里我们以SPI1 为例,直接进行搜索可以看到结果如下:
共返回5条结果,分别提供数据集ID,名称,物种,类组,家族,和logo。
进行转录因子结合位点的预测。首先在左侧列表中勾选待预测结合的转录因子,或者将同一物种的转录因子都勾选上,勾选好点击view cart,在右侧输入想要检验的序列号(FASTA 格式),点击SCAN即出现结果展示。Score评分越高,表示该转录因子与输入序列结合的可能性越大。
点击MA0080.1可以看到详细信息:包括文件摘要、序列logo图、PFM矩阵(文件可下载)、TF-binding信息(FASTA格式为该motif在基因组范围的结合区域的序列,bed格式为该motif在基因组范围的结合位点,可点击下载)、外部链接、版本信息、ChIP-seq centrality、TFFM和其它信息。展示如下:
① 基本信息
有名字,编号,类别,对应的物种等信息。
②Sequence logo
motif每个bp上碱基的分布,碱基的大小与对应的频率成正比,频率越大,对应的字母越大,示意如下
③position frequency matrix
简称PFM, motif每个bp上四种碱基的频数分布,提供了多种格式的下载,示意如下:
④Binding sites
红色标识的是motif对应的具体的序列,示意如下:
02 Tools
JASPAR提供的工具有Profile inference、Martrix Align、External tools。
①Profile inference
这里我们输入要寻找JASPAR TF结合谱的TF蛋白序列,这里我们输入示例序列号:
MSDNDDIEVESDEEQPRFQSAADKRAHHNALERKRRDHIKDSFHSLRDSVPSLQGEKASRAQILDKATEYIQYMRRKNHTHQQDIDDLKRQNALLEQQVRALEKARSSAQLQTNYPSSDNSLYTNAKGSTISAFDGGSDSSSESEPEEPQSRKKLRMEAS
点击JASPRAR pProfile inference,结果如下结果,展示相关motif的相关信息,点击其ID可以查询更多信息。
②Martrix Align
这里可以预测motif信息,查询其相近的motif。在搜索框中输入PFM 格式的矩阵,选择数据集和物种信息,即可查询比对结果。结果展示相关motif的相关信息。
RSAT-矩阵聚类结果如下:
为了便于在Jaspar数据库中寻找相似的TFs,该数据库使用矩阵聚类工具对PFM进行了层级聚类分析。聚类结果以径向树的形式展示,可以点击每个logo图做进一步研究。
③External tools
这部分是给会编程的人准备的R包活动区:
最后,数据库提供了下载功能,主要是motif对应的PFM矩阵。
以上就是本期内容啦。转录因子预测与结合位点目前也是主要的机制研究类的着力点,做转录因子等方面的研究,不仅可以丰富机制研究的深度和维度,还能提高整篇文章的水平。JASPAR数据库虽然能够预测到很多转录因子的结合,可是,它也只是起到提示作用,最终还是要通过实验验证。所以大家还是要好好掌握JASPAR数据库哦。
References
Castro-Mondragon JA et al. RSAT matrix-clustering: dynamic exploration and redundancy reduction of transcription factor binding motif collections. doi: 10.1093/nar/gkx314; Nucleic Acids Research (2017)
END