技术贴 | R语言:手把手教你画pheatmap热图
导读:
pheatmap默认会对输入矩阵数据的行和列同时进行聚类,但是也可以通过布尔型参数cluster_rows和cluster_cols设置是否对行或列进行聚类,具体看分析需求。利用display_numbers参数可以在热图中的每个cell中填入想要的信息,例如相对丰度信息。利用cutree_rows和cutree_cols参数可以根据聚类产生的tree信息对热图进行分割。利用annotation_col和annotation_row参数可以给横或列添加分组信息。本文将先模拟输入矩阵数据,然后再展示这些参数的具体使用方法。
一、模拟输入矩阵
set.seed(1995)
# 随机种子
data=matrix(abs(round(rnorm(200, mean=0.5, sd=0.25))), 20, 10)
# 随机正整数,20行,20列
colnames(data)=paste("Species", 1:10, sep=".")
# 列名-细菌
rownames(data)=paste("Sample", 1:20, sep=".")
# 行名-样品
data_norm=data
for(i in 1:20){
sample_sum=apply(data, 1, sum)
for(j in 1:10){
data_norm[i,j]=data[i,j]/sample_sum[i]
}
}
# 标准化
data_norm
图1
二、聚类分析和热图
1. 基础热图
library(pheatmap)
# 加载pheatmap包
pheatmap(data_norm)
# 绘制热图,结果如下:
图2
2. colorRampPalette渐变色、cell尺寸调整
cellheight=15# 设置单元格高度
cellwidth=20# 设置单元格宽度
color=colorRampPalette(colors= c("blue","white","red"))(10) # 渐变取色方案
cellheight=15,
cellwidth=20,
color=colorRampPalette(colors = c("blue","white","red"))(10)
)
图3
3. 在cell中添加丰度
pheatmap(data_norm,
display_numbers=TRUE,
cellheight=15,
cellwidth=20,
color=colorRampPalette(colors = c("purple", "white", "green"))(10)
)
图4
4. 在cell中添加mark
display_numbers=matrix:使用自定义矩阵数据
fontsize_number=18:mark大小
filename="name.png/pdf":保存
data_mark=data_norm
# 新建mark矩阵
for(i in 1:20){
for(j in 1:10){
if(data_norm[i,j] <= 0.001)
{
data_mark[i,j]="***"
}
else if(data_norm[i,j] <= 0.01 && data_norm[i,j] > 0.001)
{
data_mark[i,j]="**"
}
else if(data_norm[i,j] <= 0.05 && data_norm[i,j] > 0.01)
{
data_mark[i,j]="*"
}
else
{
data_mark[i,j]=""
}
}
}
# * 0.05>=p>0.01; ** 0.01>=p>0.001; *** 0.001>=p
pheatmap(data_norm,
cellheight=20,
cellwidth=25,
color=colorRampPalette(colors = c("purple", "white", "green"))(10),
display_numbers=data_mark,
fontsize_number=18,
filename="mark.pdf"
)
图5
5. 根据tree将热图分割成2行3列
cutree_rows=num:分割行
cutree_cols=num:分割列
pheatmap(data_norm,
cellheight=20,
cellwidth=25,
color=colorRampPalette(colors = c("purple", "white", "green"))(10),
display_numbers=data_mark,
fontsize_number=18,
filename="mark_cut.pdf",
cutree_rows=2,
cutree_cols=3)
图6
6. 添加样品和物种的分组信息
annotation_col:列分组
annotation_row:行分组
annotation_colors:分组颜色
Group=c("A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B")
group_sample=data.frame(Group)
rownames(group_sample)=rownames(data_norm)
# 模拟样品分组文件
group_sample
图7
Genus=c("G1", "G1", "G1", "G1", "G1", "G2", "G2", "G2", "G2", "G2")
group_genus=data.frame(Genus)
rownames(group_genus)=colnames(data_norm)
# 模拟物种分组文件
group_genus
图8
colors=list(Group=c(A="#1B9E77", B="#D95F02"),
Genus=c(G1="pink", G2="lightgreen"))
# 自定义样品分组颜色,Genus分组使用默认颜色
pheatmap(data_norm,
cellheight=20,
cellwidth=25,
color=colorRampPalette(colors = c("purple", "white", "green"))(10),
display_numbers=data_mark,
fontsize_number=18,
filename="mark_group.pdf",
cutree_rows=2,
cutree_cols=3,
annotation_col=group_genus,
annotation_row=group_sample,
annotation_colors=colors
)
图9
pheatmap常用参数汇总:
display_numbers=TRUE # 使用默认矩阵数据
display_numbers=matrix # 使用自定义矩阵数据
fontsize_number=18 # mark大小
cutree_rows=num # 分割行
cutree_cols=num # 分割列
scale="column" # 列标准化
scale="row" # 行标准化
cellwidth=20 # cell宽度
cellheight=20 # cell高度
fontsize_number=18 # mark大小
filename="name.pdf/png" # 保存,自动调整纸张大小
annotation_col # 列分组
annotation_row # 行分组
annotation_colors # 分组颜色
cluster_row = F # 横向不聚类
cluster_column = F # 纵向不聚类
legend = F # 去除legend
border = F # 去除cell边框
border_color = "blue" # cell边框颜色
annotation_names_col = F # 不展示列legend的名称
你可能还喜欢
2 技术贴 | 宏基因组Binning(二)质控、分箱、质检、可视化
3 技术贴 | 宏基因组Binning(三)丰度计算、差异分析
4 技术贴 | 宏基因组 Binning(四)COG EC RNA注释统计
5 技术贴 | 宏基因组Binning(五)KEGG GO注释统计
6 技术贴 | 宏基因组Binning(六)CAZyme注释统计