Mapman完全上手指南-Part_1(Mapman系列之三)
Mapman完全上手指南-Part_1(Mapman系列之三)
Mapman,是植物组学数据基因功能分析神器。为此,前面已经写了两个推文,包括:
mapman 植物基因功能分析神器!(mapman系列之一)
mapman-植物基因功能分析神器-安装与配置-(mapman系列之二)
整体感觉还是有人喜欢mapman系列的教程,也得到我硕导的认可,虽然博导啥反应也没有,哈哈。无论如何,既然有人看,那么就写写。怎么写呢?才能让大家知其然,同时尽量知其所以然?设计优秀的GUI软件,应该是不需要manual的,因为一打开软件,用户就会使用了。显然,我写的TBtools不是,而Mapman,不好说啊。
打开界面,注意到左上角其实是四大类,Experiment,Pathways,ChromosomalViews,Mappings。那么我们慢慢地分点介绍,用到啥数据就说说数据咋准备。
Experiment
Experiment, 即实验数据,可以是丰度或者差异倍数矩阵,如转录组数据中常见的RPKM, FPKM, TPM, log2FoldChange矩阵。Mapman内置的Sample数据是芯片分析的矩阵,比如下图,
所以一个Experiment就是一个矩阵,一般数据分析得到一个表格,对于最常见的转录组数据,直接使用FPKM矩阵也可以。比如水稻的转录组数据分析结果表格,第一行是样本名称,第一列对应的是GeneID,每一个各自就是一个基因在某个样本的FPKM,即表达量的度量。
这类数据相信准备起来非常简单。;注意,正如上面说的,Mapman原本就是为芯片数据准备的,所以本来就是支持logFC数据。所以直接导入转录组数据分析得到的差异表达倍数,log2FC值也可以。此外,对于FPKM等表达量矩阵,有时候我甚至会先做一个基因内标准化再导入,看起来有舒服点。这个随意。
Pathways
Pathways,这个其实是Mapman软件的核心之一,按照其数据的存储形式,其实是存储一个图片以及与图片对应的像素坐标信息文件.xml—-这类存储形式其实跟KEGG的KGML是一样的(软件实现原理部分,以后有机会再展开把)。一般情况下,使用默认的通路就足够了,所以*Pathway数据,目前无需准备。
Chromosomal Views
Chromosomal Views, 将实验数据展现在染色体上,这个是Mapman几个隐藏操作(包括Venn,Enrichment,通路探索等)之一,这里不展开。
Mappings
Mappings, 或许暂时没有人注意到mapman每个图片对应位置信息文件的内容。如下图,identifier对应的是 id, 16.1.1
事实上就是Mapman对蛋白或者代谢物的注释编号,在Mapman中,称之为BIN。也就是Mapman数据库收录的每一个蛋白序列或者代谢物序列都有这么一个ID。 而其中x,y,就是这个BIN在对应图片中的坐标。换句话说,
来一个最粗暴的解释,我们想把一堆差异表达基因对应的热图或者表达变化趋势快速优雅地放到通路图上,那么我们需要的是每一个差异表达基因的BIN编号
那么怎么获得我们手上的每个基因的BIN呢?
先看看内置数据是怎么组织的?Mapman里面,双击Mapping,选择一个数据,双击多次就可以看到,Mapman BIN的层级组织形式,其中最后有三个转录本对应到10.1的BIN编号。这个是很久很久以前拟南芥某款芯片对应的探针ID,一个探针相当于现在一个转录本。
而这个Mapping信息存储文件的实际格式,我们也可以看看,看不看没啥所谓。可以是三种格式,
m02 mapman自定义的格式
text 分隔符分割的文本文件,在生信软件结果中最常见
excel 不解释
好的,mapping文件介绍完毕。知道是啥并没有什么卵用,关键是能拿到手里,用的起来。
实验数据大家都有,而mapping文件却不是。所以我们需要自己动手,丰衣足食。
模式或者常见植物的mapping文件获取
mapman安装完毕之后,内置了一部分数据,不过基本上都是示例数据对应的芯片数据,所以用不上。模式或者常见的植物还是有福利的。其官网提供了十来个物种的mapping文件,具体见
https://mapman.gabipd.org/mapmanstore
做啥物种可以先看看是不是已经有了,那么就直接下载其中某一个格式(需要注册一个账号,记得是很简单….),正常我都是下载text格式,方便自己查看和调整。
非模式或Mapman数据库并没有收录的物种
早期的操作下载mapman上面代表性物种或者全部物种的mapping文件,将自己物种的蛋白序列比对上去,再做ID映射,与现在做GO注释是类似的,可靠性仁者见仁。
从某一年起,mapman官网提供了在线注释流程—Mercator(http://www.plabipd.de/portal/mercator-sequence-annotation),也是有对应的文献哈。自己检索,其实可看可不看。整体上就是结合蛋白序列比对和结构域分析,打分更准确地将BIN编号赋予到提交的序列上,然后返回结果。
使用方式比较简单,
1.准备自己的序列,fasta格式,核酸序列或者蛋白序列
2.进入网站
3.输入名字和邮箱
4.设置参数,注意,如果是核酸序列,一定要勾选,contains DNA,不然白等
5.点击选择文件,并选择自己的数据文件
6.点击Start,一般情况下左下角或者某个位置会显示文件上传的进度,保证网络畅通知道完全提交,页面会自动跳转
跳转后的页面大概是
到后面是
一直等到其完成即可
下载对应的文件即可看到每一个基因ID对应的注释信息,
同时,该页面上也有一个汇总的图片可以看看
而这个文件,也可以直接用于导入到Mapman,然后正式开始使用Mapman分析自己的数据。
写到这里
总的来说,又用了很长一个篇幅介绍了Mapman软件开展数据分析所需要的数据。对于我来说,了解清楚软件使用到的数据,以及数据的格式,可以理解软件的设计逻辑,这样可以更好地使用软件。OK, 全文概括,使用Mapman分析自己的数据,需要的是
左手一个基因表达矩阵,右手一个mapping文件,搞定!
那么可以开始了?
数据都准备好了,接下来就是使用Mapman的正确姿势。等系列四吧….别着急,感觉还需要再写两三个系列才能介绍完Mapman,毕竟作为一个GUI软件,真的太难讲得一看就懂,而且还不仅仅是知道怎么用。