Mapman完全上手指南-Part_1(Mapman系列之三)

Mapman完全上手指南-Part_1(Mapman系列之三)

Mapman,是植物组学数据基因功能分析神器。为此,前面已经写了两个推文,包括:

  1. mapman 植物基因功能分析神器!(mapman系列之一)

  2. mapman-植物基因功能分析神器-安装与配置-(mapman系列之二)

整体感觉还是有人喜欢mapman系列的教程,也得到我硕导的认可,虽然博导啥反应也没有,哈哈。无论如何,既然有人看,那么就写写。怎么写呢?才能让大家知其然,同时尽量知其所以然?设计优秀的GUI软件,应该是不需要manual的,因为一打开软件,用户就会使用了。显然,我写的TBtools不是,而Mapman,不好说啊。
打开界面,注意到左上角其实是四大类,Experiment,Pathways,ChromosomalViews,Mappings。那么我们慢慢地分点介绍,用到啥数据就说说数据咋准备。

Experiment

Experiment, 即实验数据,可以是丰度或者差异倍数矩阵,如转录组数据中常见的RPKM, FPKM, TPM, log2FoldChange矩阵。Mapman内置的Sample数据是芯片分析的矩阵,比如下图,

所以一个Experiment就是一个矩阵,一般数据分析得到一个表格,对于最常见的转录组数据,直接使用FPKM矩阵也可以。比如水稻的转录组数据分析结果表格,第一行是样本名称,第一列对应的是GeneID,每一个各自就是一个基因在某个样本的FPKM,即表达量的度量。

这类数据相信准备起来非常简单。;注意,正如上面说的,Mapman原本就是为芯片数据准备的,所以本来就是支持logFC数据。所以直接导入转录组数据分析得到的差异表达倍数,log2FC值也可以。此外,对于FPKM等表达量矩阵,有时候我甚至会先做一个基因内标准化再导入,看起来有舒服点。这个随意。

Pathways

Pathways,这个其实是Mapman软件的核心之一,按照其数据的存储形式,其实是存储一个图片以及与图片对应的像素坐标信息文件.xml—-这类存储形式其实跟KEGG的KGML是一样的(软件实现原理部分,以后有机会再展开把)。一般情况下,使用默认的通路就足够了,所以*Pathway数据,目前无需准备。

Chromosomal Views

Chromosomal Views, 将实验数据展现在染色体上,这个是Mapman几个隐藏操作(包括Venn,Enrichment,通路探索等)之一,这里不展开。

Mappings

Mappings, 或许暂时没有人注意到mapman每个图片对应位置信息文件的内容。如下图,identifier对应的是 id, 16.1.1事实上就是Mapman对蛋白或者代谢物的注释编号,在Mapman中,称之为BIN。也就是Mapman数据库收录的每一个蛋白序列或者代谢物序列都有这么一个ID。 而其中x,y,就是这个BIN在对应图片中的坐标。换句话说,

来一个最粗暴的解释,我们想把一堆差异表达基因对应的热图或者表达变化趋势快速优雅地放到通路图上,那么我们需要的是每一个差异表达基因的BIN编号

那么怎么获得我们手上的每个基因的BIN呢?

先看看内置数据是怎么组织的?Mapman里面,双击Mapping,选择一个数据,双击多次就可以看到,Mapman BIN的层级组织形式,其中最后有三个转录本对应到10.1的BIN编号。这个是很久很久以前拟南芥某款芯片对应的探针ID,一个探针相当于现在一个转录本。

而这个Mapping信息存储文件的实际格式,我们也可以看看,看不看没啥所谓。可以是三种格式,

  • m02 mapman自定义的格式

  • text 分隔符分割的文本文件,在生信软件结果中最常见

  • excel 不解释

好的,mapping文件介绍完毕。知道是啥并没有什么卵用,关键是能拿到手里,用的起来。
实验数据大家都有,而mapping文件却不是。所以我们需要自己动手,丰衣足食。

模式或者常见植物的mapping文件获取

mapman安装完毕之后,内置了一部分数据,不过基本上都是示例数据对应的芯片数据,所以用不上。模式或者常见的植物还是有福利的。其官网提供了十来个物种的mapping文件,具体见
https://mapman.gabipd.org/mapmanstore

做啥物种可以先看看是不是已经有了,那么就直接下载其中某一个格式(需要注册一个账号,记得是很简单….),正常我都是下载text格式,方便自己查看和调整。

非模式或Mapman数据库并没有收录的物种

早期的操作下载mapman上面代表性物种或者全部物种的mapping文件,将自己物种的蛋白序列比对上去,再做ID映射,与现在做GO注释是类似的,可靠性仁者见仁。
从某一年起,mapman官网提供了在线注释流程—Mercator(http://www.plabipd.de/portal/mercator-sequence-annotation),也是有对应的文献哈。自己检索,其实可看可不看。整体上就是结合蛋白序列比对和结构域分析,打分更准确地将BIN编号赋予到提交的序列上,然后返回结果。
使用方式比较简单,

1.准备自己的序列,fasta格式,核酸序列或者蛋白序列
2.进入网站
3.输入名字和邮箱
4.设置参数,注意,如果是核酸序列,一定要勾选,contains DNA,不然白等
5.点击选择文件,并选择自己的数据文件
6.点击Start,一般情况下左下角或者某个位置会显示文件上传的进度,保证网络畅通知道完全提交,页面会自动跳转

跳转后的页面大概是

到后面是

一直等到其完成即可

下载对应的文件即可看到每一个基因ID对应的注释信息,

同时,该页面上也有一个汇总的图片可以看看

而这个文件,也可以直接用于导入到Mapman,然后正式开始使用Mapman分析自己的数据。

写到这里

总的来说,又用了很长一个篇幅介绍了Mapman软件开展数据分析所需要的数据。对于我来说,了解清楚软件使用到的数据,以及数据的格式,可以理解软件的设计逻辑,这样可以更好地使用软件。OK, 全文概括,使用Mapman分析自己的数据,需要的是

左手一个基因表达矩阵,右手一个mapping文件,搞定!

那么可以开始了?

数据都准备好了,接下来就是使用Mapman的正确姿势。等系列四吧….别着急,感觉还需要再写两三个系列才能介绍完Mapman,毕竟作为一个GUI软件,真的太难讲得一看就懂,而且还不仅仅是知道怎么用。

参与讨论交流

(0)

相关推荐

  • MPB:农科院牧医所赵圣国组-基于GraftM对功能基因进行物种注释

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  • RNA结合蛋白数据库

    我们拿到一个lncRNA,想继续往下做时,一般都会想到从它的RNA结合蛋白(RBP)入手.因为RBP在多种细胞过程中起着最基本的作用,包括转录.RNA剪接和加工.定位.稳定性及翻译等.那么今天小编就来 ...

  • JASPAR:转录因子motif数据库

    motif是一段重复出现在基因序列上的一段片段,通常具有高度重复的碱基序列,是转录因子或者DNA结合蛋白识别并结合的锚定点,就像之前说的,一个DNA结合蛋白可能对应多个motif,motif也会对应多 ...

  • 生物信息

    比较基因组学中,共线性的分析的图无疑是最漂亮的. 共线性分析可以很好地解释进化关系和多倍化事件. 本文主要介绍的是唐老师的Python版McScan(jcvi工具包),这个包很强大,但是其功能在官网的 ...

  • 如何快速下载一个基因的序列

    对于一个基因进行研究的时候.经常需要研究对这个基因的序列进行研究.如果要下载一个基因序列的话,之前的做法也都是在不同的网站上各种点点点,在多个链接下面才能找到基因序列下载的地方. 最近在GENE数据库 ...

  • GEO的数据注释文件没有基因名肿么破?

    写在前面 我们在处理GEO芯片数据的时候,经常会碰到芯片的数据的注释文件没有提供基因名,只有基因的序列.替代的解决办法就是对所有的注释数据来进行批量的blast,利用注释文件提供的序列来通过blast ...

  • 我的生信之路2

    写下前面: 现在已经是19年了,年底也快到了,各地的会议也在朋友圈此起彼伏.想想我做生物信息也三年了.故事总在发展着,去年我总结了我的生信之路,写了我是如何开始做生信的.今天我将为大家带来新的一年来的 ...

  • 基因变异相关序列提取工具

    对于二代测序的数据的处理的问题,虽然我们还是建议专业的事情.但是至少还是要了解一下基本的原理和测序当中产生的各种文件格式.由于是测序数据,其基本的原理还是基于核酸序列来进行操作的.在结果文件当中就包括 ...

  • Mapman-完全上手指南-Part_2(Mapman系列之四)

    Mapman-完全上手指南-Part_2(Mapman系列之四) 系列之三推完之后,即是到校之时.从此便没有太多时间推进教程系列.不过似乎还是有几位朋友在等更新.索性,今晚睡觉前写一个(心在是23点- ...

  • Mapman-完全上手指南-Part_3(Mapman系列之五)

    写在前面 近期课题组课题均比较赶,个人的时间受到进一步压缩,当然平时也差不多.无论如何,正如早上微信转发的一个推送一般,无论再忙,我们还是要安排出一小部分时间,做自己感兴趣的事情.而我目前感兴趣的事情 ...

  • 学用系列|记忆神器“Memory Helper”一分钟极简上手指南

    考研.考证.等级考......我们的前半生几乎都快被各类考试占据了,背诵的东西也越来越多,背单词.背课文.背公式定理.甚至还要背千奇百怪的各类非文字信息(比如项目流程图.思维导图),如何才能定制适合自 ...

  • 学用系列|2021版腾讯会议十分钟上手指南

    2021版腾讯会议十分钟上手指南,弥补2020版教程的遗憾,带来线上会议交流新体验.

  • 学用系列|大纲梳理+脑洞模式,Xmind ZEN上手指南(附吐槽)

    新年假期已经过半,高三党.教师党们想必已经准备新一年的学习准备了.今天,胖胖老师就为大家推荐思维导图的新玩法--Xmind ZEN,一起step by step,尝试思维可视化! ZEN,跨平台的思维 ...

  • 学用系列|开启作业管理新时代,新版极课大数据极简作业上手指南

    新政之下的挑战与机遇 2021年的这个假期,"双新"."双减"."五项管理"成为全民热议的话题,尤其是作业管理,如何保证在有限的课后作业时间 ...

  • 价值投资系列之三:估值(附案例分析) '以四十美分的价格购买价值一美元的东西',但是怎么知道这东西是...

    '以四十美分的价格购买价值一美元的东西',但是怎么知道这东西是否值一美元呢?估值是个历史难题. 估值模型多达数十种,但不外乎两类:相对估值与绝对估值.常见相对估值有PE.PB.企业倍数等,常见绝对估值 ...

  • 纪念南通解放70周年系列之三丨难忘南通解放的日日夜夜

    天亮了!解放了! 一个刻骨铭心的经典时刻, 一个永志难忘的历史瞬间. 1949年2月2日 这是一座古老城市的新生, 这是一个跨越时代的征程. 如东解放1948年3月15日 如东县掘港镇获得解放! 海安 ...

  • 教学管理菜鸟成长记82-能用图表说话就别用文字系列之三——1分钟制作带平均值的图表

    关键词:EXCEL2016:图表:平均值:操作难度*** 还记得小菜和您分享图表的小技巧吗?(请参阅<教学管理菜鸟成长记76-微图形让数据更形象>.<教学管理菜鸟成长记77-能用图表 ...