热图如何绘制,怎么分析?看完这篇就会了

在组学研究中,我们常常会用到热图(Heatmap)。色彩丰富的热图总能吸引读者的眼球,给文章增色。但一堆堆的色块让人眼花缭乱,背后的分析方法更让人不知从何下手。今天我们先来初步探一探门道。

热图的解读

热图如下(Nucleic Acids Res (2015) 43 (W1): W566-W570.),本质上它是表现一个数值矩阵,图上每一个小方格都是一个数值,按一条预设好的色彩变化尺(称为色键,Color Key),来给每个数值分配颜色,虽然看起来眼花,但道理却很简单。这幅图就是24个样本(列)中,30类基因(行)的表达情况。

但不同基因在不同样本中的表达量,可能会跨越好几个数量级,这样就会把色键分得很细,所以通常会对表达量取对数,或取Z-score,这样色键的范围一般就在个位数内变化。

上方两条色彩稍微简单的横条,是根据实验分组,用颜色标出组别。两个横条表示两种分组方式,也就是两个变量(normal tumor和tissue)。就这幅图来说,第一行的黄色表示正常组织,紫色表示肿瘤组织;第二行的蓝绿色表示乳腺,红色表示前列腺。

图外围那些线条,是聚类分析的树形图。越靠下游的子目录中的个体关系越近,最先聚为一类,之后小类与小类又聚为一个大类。而且有些节点走了很远才跟其他组别聚成一类,有些节点没走多远就聚了,所以这些支线的长短,就代表了距离。

高通量测序的数据,通常比较磅礡,生成的热图,每个方格就会很小,基本看不清。这时就可以用一些处理技巧,比如上面那幅图,研究纳入了54675个基因,如果都画出来,这图就会很长,色块也会很密。所以它先通过K均值聚类算法,把这些基因聚成30类。

热图的绘制

绘制热图,最常用的是R语言,当然也能用GraphPad Prism做。但如果数据量不是特别大的话,这里推荐一个在线工具ClustVis,但数据量大时还是容易卡顿。

另一个不太卡的在线工具叫Morpheus,博大研究所开发的。还有桌面软件HemI,华中科技大学开发的。三者都是免费又好用的神器,功能上大同小异。

获取在线热图绘制网站,公众号后台回复:热图在线。注意不要输错了。

下面以ClustVis为例来演示热图的制作吧。

进入网站界面如下:

1.按照网站的要求,它需要的数据格式如下,绿色部分是必须的,红色的是分组信息,可以根据研究需要进行增删:

小编自行在excel中完成了上图的输入:

2.点击data import:

可以选择粘贴或者上传excel文件。上传之后,点选第一个数值单元格,就可区分哪些是数值,哪些是标签和注释(列和行):

3.点击输出热图即可:

点OK,一幅主图就出来了。

4.调整数据展示选项:

根据自己需要进行相关调整。

5.最后保存为自己想要的Figure格式即可。

最终结果展示:

还有问题可以查阅文献(或点击文末原文链接):Metsalu, Tauno and Vilo, Jaak. Clustvis: a web tool for visualizing clustering of multivariate data using Principal Component Analysis and heatmap. Nucleic Acids Research, 43(W1):W566–W570, 2015. doi: 10.1093/nar/gkv468.

(0)

相关推荐

  • 统计学基础知识

    本篇归纳统计学基础知识,包括一些基础理论.概念.方法等,作为数据分析的前置知识. 概述 统计学的概念 什么是统计学? 统计学是关于收集.处理.分析.解释数据并从数据中得出结论的科学 数据收集也就是取得 ...

  • GEO在线分析工具

    GEO2R是GEO在线分析工具,基于此工具可以对部分GEO样品数据进行基因差异表达分析.该工具主要针对芯片数据,借助R 及Limma包完成分析过程,用户只需要在网业上进行简单的点击等手动操作即可获得分 ...

  • 免疫治疗综合分析数据库

    关于基于测序数据来分析免疫治疗情况的话,之前我们介绍过一些和免疫浸润有关的数据库. 免疫浸润算法那么多,要怎么选呢? [[TIMER2 TCGA-免疫浸润评估数据库]], [[DREIMT-免疫细胞和 ...

  • 再不考线图,2019就完了! | 支招小作文

    听说每个高分烤鸭都星标了新航道3分钟学雅思 雅思小作文真题直击  |  |  栏目推送说明 分享雅思考试小作文真题范文.每一篇范文都经由专业团队反复校对,最终外教审查定稿.成功就是日复一日那一点点小小 ...

  • 多分组差异分析续集

    大家学习到的通常是两个组的样本进行差异分析,然后走标准分析流程,火山图,热图,GO/KEGG数据库注释等等.这些流程的视频教程都在B站和GitHub了,目录如下: 第一讲:GEO,表达芯片与R 第二讲 ...

  • 《数据可视化基础》第五章:可视化数量(一)

    以下部分是基于<Fundamentals of Data Visualization>学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dat ...

  • 单基因GSEA分析策略(数据分析免费做活动继续)

    我写了部分常见的TCGA数据库用法: TCGA的28篇教程-免疫全景图 TCGA的28篇教程-指定癌症查看感兴趣基因的表达量 TCGA的28篇教程-对TCGA数据库的任意癌症中任意基因做生存分析 TC ...

  • 《数据可视化基础》第五章:可视化数量(二)

    以下部分是基于<Fundamentals of Data Visualization>学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dat ...

  • 收藏贴之一 | 写过热图工具的人,给你理清热图数据标准化

    写在前面 热图,或称热力图,是外文 Heatmap 的直译.在几乎所有数值分析相关工作中都可以看到.生物信息学数据,自然躲不过.无论是形态数据,还是基因拷贝数数据,或是基因表达量,都可以使用热图来进行 ...

  • 相对定量与绝对定量之间的区别

    在做荧光定量PCR的时候,我们常听到大家问的一个问题就是"你是做相对定量还是绝对定量?".今天我们就来了解绝对定量与相对定量的区别,看看了二者有什么异同,我们在做实验的时候到底应该 ...