Crosstalk: 如何绘制两个通路中有哪些基因重复了?ggplot2的活学活用

这种图又称  cross-talk  ,当数据集做完富集分析后,查看两个通路里有哪些基因是重叠的。

输入矩阵

假设我们整理好这样的矩阵,第一列是FC值,第二列是基因名,第三列是基因所在的通路名,其中在两个通路中都有的基因用intersect表示。基因的顺序需要事先排一下:Hippo, intersect, Wnt。我懒得查函数,直接用excel做了,故这部分代码省略。

library(ggplot2)
library(ggrepel)
temp<-test[which(test$X=="intersect"),]
library(Cairo)
CairoJPEG("crosstalk.jpeg",width=7200,height=4800,res=1200)
ggplot(test) + geom_point(aes(x=test$Symbol,y=test$log2FoldChange.C2.C1.,colour=factor(test$X)),size=5) +
  scale_x_discrete(limits=test$Symbol) + theme_bw() + theme(panel.grid = element_blank()) +
  ylab("Fold change") +
  theme(axis.text.x=element_blank()) + theme(axis.ticks.x = element_blank()) + theme(axis.title.x = element_blank()) +
  geom_text_repel(aes(x=test$Symbol,y=test$log2FoldChange.C2.C1.,label=ifelse(test$X=="intersect",test$Symbol,"")),
                  colour="darkred",size=3,box.padding = unit(0.35, "lines"),point.padding = unit(0.3, "lines")) +
  geom_point(data=temp,aes(x=temp$Symbol,y=temp$log2FoldChange),alpha=1,size=5.1,shape=1,stroke=1,color="black") +
  theme(axis.text.y=element_text(face="bold",color="black",size=15)) + theme(axis.title.y=element_text(size=14)) + theme(legend.title=element_blank())
dev.off()

看起来有点乱,于是我分图层整理了一下,方便大家查阅

输出高清图
CairoJPEG("crosstalk.jpeg",width=7200,height=4800,res=1200)
排列X轴顺序
scale_x_discrete(limits=test$Symbol)
背景为白色
theme_bw()
去掉网格线
theme(panel.grid = element_blank())
去掉X轴坐标
theme(axis.text.x=element_blank())
去掉X轴刻度尺
theme(axis.ticks.x = element_blank())
去掉X轴标题
theme(axis.title.x = element_blank())
在图上加基因名字(我只想给重叠的基因加,不然太乱了)
geom_text_repel(aes(x=test$Symbol,y=test$log2FoldChange.C2.C1.,label=ifelse(test$X=="intersect",test$Symbol,"")),
                  colour="darkred",size=3,box.padding = unit(0.35, "lines"),point.padding = unit(0.3, "lines"))
加上外面的黑圈(先做一个 只有intersect基因的数据框temp)
temp<-test[which(test$X=="intersect"),]
geom_point(data=temp,aes(x=temp$Symbol,y=temp$log2FoldChange),alpha=1,size=5.1,shape=1,stroke=1,color="black")

此外:两个粉色和蓝色圆圈是用PPT画的,调一下透明度就能出现这种效果。

■   ■   ■

没想到我写的帖子竟然被健明大大pick啦,激动之余还是激动。一直以来都觉得自己是弱弱的小透明,执着的学一点就在简书上更一点,和众多在生信路上自学的伙伴抱头前(tong)行(ku)……
扯远了,补一下健明大大给我的建议,用upsetR绘制crosstalk

1   还是整理好这样的矩阵df,第三列就是富集分析得到的结果

此次我们关注以下这5个通路,看他们中的基因是否存在交集,于是把df中其他无关的通路都删掉。

m <- c("ECM-receptor interaction","TGF-beta signaling pathway","Axon guidance","Wnt signaling pathway","Hippo signaling pathway")

df <- df %>% dplyr::filter(df[,3] %in% m)

删完的矩阵

2   利用可视化神包UpsetR,它是韦恩图的升级版,用来表示多组交集情况。

?upset,查一下函数的输入情况,发现是如下的这样的矩阵

于是我们要整理出一个横轴是基因名,纵轴是通路的矩阵,用0和1填充,表示有或没有。

library(UpSetR) 
##所有的基因名
allgs<-unique(df$Symbol)
##do.call这个函数会一直重复lapply运算
u<-do.call(cbind,lapply(m,function(i){as.numeric(allgs %in% subset(df,Pathway==i)[,2])}))
rownames(u)<-allgs
colnames(u)<-m
u<-as.data.frame(u)
upset(u)

如下:

Hippo和Wnt通路交叉的基因有6个,和上面的crosstalk花瓣图一致

总结:如果想讨论两个通路的交集,请选择花瓣图,如果超过3个,请毫不犹豫的选择UpsetR。
(0)

相关推荐