生信笔记 | 自定义GSEA分析中的gmt格式文件

2024-06-11 02:57:39

在GSEA分析中，在MSigDB（Molecular Signatures Database）数据库中定义了很多基因集，下载的基因集是gmt格式文件。下载的gmt格式文件，打开后可以看见是下面这个样子的：

gmt（Gene Matrix Transposed，基因矩阵转置）是多列注释文件，列与列之间都是Tab制表符分割。

第1列：是基因所属基因集的名字，可以是通路名字，也可以是自己定义的任何名字。

第2列：一般是描述信息，说明这套基因列表从哪里收集的，也可以为空或者用NA表示。官方提供的格式是URL，也可以是任意字符串。

第3列-第n列：是基因集内所有基因的名字，有几个写几列。

每一行的列数可以不一样，主要是基因集内的基因数量不一样。

gmt文件可用 read.gmt()函数读入，读入的数据是一个数据框。

gmt <- read.gmt("./c5.go.cc.v7.2.symbols.gmt")class(gmt)

如何制作自定义的gmt文件？下面是来自生信技能树的案例代码：

library(clusterProfiler)data(gcSample)names(gcSample)file="sink-examp.txt"gs=gcSamplewrite.gmt <- function(gs,file){ sink(file) lapply(names(gs), function(i){ cat( paste(c(i,'tmp',gs[[i]]),collapse='\t') ) cat('\n') }) sink()}write.gmt(gs,file)

gcSample数据是来自clusterProfiler包，只是用来练习，自己自定义的可能并不是这样的list，可以处理成类似gcSample数据的list，用上面代码写出gmt文件。

下面是我处理的一个基因集

geneset <- read.table("data/AAsMet.txt",header = T,sep = "\t")head(geneset)

> head(geneset) MoleculeType Identifier MoleculeName catabolism.Type ID Essential1 Proteins A2RU49 HYKK Lysine catabolism R-HSA-71064.2 Yes2 Proteins Q9BQT8 SLC25A21 Lysine catabolism R-HSA-71064.2 Yes3 Proteins Q92947 GCDH Lysine catabolism R-HSA-71064.2 Yes4 Proteins Q8N5Z0 AADAT Lysine catabolism R-HSA-71064.2 Yes5 Proteins Q8IUZ5 PHYKPL Lysine catabolism R-HSA-71064.2 Yes6 Proteins Q9P0Z9 PIPOX Lysine catabolism R-HSA-71064.2 Yes

MoleculeName和 catabolism.Type这2列是我们要的。

可以自己构建类似上面gcSample的list，然后自己写一个函数输入就行。

name <- unique(geneset$catabolism.Type)description <- rep(NA,length(name))names(description) <- namegenes <- lapply(name, function(name){ as.vector(geneset[geneset$catabolism.Type == name,"MoleculeName"])})names(genes) <- name

gmtinput <- list(name=name,description=description,genes=genes)get_gmt <- function(gmtinput,filename){ output <- file(filename, open="wt") lapply(gmtinput[["name"]],function(name){ outlines = paste0(c(name, gmtinput[["description"]][[name]], gmtinput[["genes"]][[name]]),collapse='\t') writeLines(outlines, con=output) }) close(output)}get_gmt(gmtinput=gmtinput,filename="data/catabolism.gmt")

我自己定义了一个输入对象gmtInfo

setClass("gmtInfo",slots=list(name="vector",description="vector",genes ="list"))gmtInfo <- new("gmtInfo",name=name,description=description,genes = genes)

定义用来处理gmtInfo对象的函数：

write.gmt1 <- function(filename,gmtInfo){ if(class(gmtInfo) == "gmtInfo"){ output <- file(filename, open="wt") lapply(gmtInfo@name,function(name){ writeLines(paste(c(name, gmtInfo@description[[name]],gmtInfo@genes[[name]]),collapse='\t'), con=output) }) close(output) }}write.gmt1(filename="data/catabolism1.gmt",gmtInfo = gmtInfo)

write.gmt2 <- function(filename,gmtInfo){ if(class(gmtInfo) == "gmtInfo"){ sink(filename) lapply(gmtInfo@name, function(name){ cat(paste(c(name, gmtInfo@description[[name]],gmtInfo@genes[[name]]),collapse='\t')) cat('\n') }) sink() }}write.gmt2(filename="data/catabolism2.gmt",gmtInfo = gmtInfo)

参考：

上次说的gmt函数(学徒作业)

https://blog.csdn.net/coding_Joash/article/details/120422166

PGSEA和GSVA你会怎么选择呢？

GSEA 相信看过我生信菜鸟团博客的朋友都已经耳熟能详了的,其需要样本的描述以及分组信息,来计算每个基因的差异度量对它们进行排序,然后走GSEA. 虽然有ssGSEA这样的单样本的分析,但仍然不够,也 ...
cox可以火山图为什么gsea结果不行

最近看到一个文献,是数据集:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE101668 GSM2711785 RKO-WT-rep1 ...
”基因集打分“GSEA算法详解

前两天介绍了一个开发中的单细胞数据分析相关R包,内置了,4(热图,气泡图,upset图,堆叠条形图)+4(密度散点图,半小提琴,山峦图,密度热图)美图,见 8种方法可视化你的单细胞基因集打分 ,蛮多小 ...
开局一个转录组，收获一篇science

很多人都说传统的bulk转录组测序"廉颇老矣",急急忙忙转向了单细胞转录组这样的热点技术. 诚然,单细胞CNS好文层出不穷,不过最近无意中看到了一个传统的bulk转录组测序的sci ...
三阴性乳腺癌表达矩阵探索笔记之GSEA

学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了! 下面是学徒写的<GEO数据挖掘课程>的配套笔记(第6篇) 文献解读数据下载及理解差异性分析差异基因的富集分析 TNBC定 ...
TCGA转录组差异分析后多种基因功能富集分析：从GO/KEGG到GSEA和GSVA/ssGSEA（含基因ID转换）

TCGA转录组数据在完成差异分析后,我们通常希望系统地获取这些成百上千的差异基因的功能信息,帮助我们分析下游实验的思路.面对大量的差异基因,逐个查询基因功能是不切实际的.所以我们需要借助基因功能富集分 ...
clusterProfiler|GSEA富集分析及可视化

GSEA(Gene Set EnrichmentAnalysis),即基因集富集分析,无需设定阈值来区分上调下调基因,使用所有的基因进行分析. GO 和 KEGG 可参考:R|clusterProfi ...
200块的代码我的学徒免费送给你，GSVA和生存分析

(现在学习量和弹幕都非常少,大家的机会来了哦!) https://www.bilibili.com/video/av81874183 前奏最近做的生存分析都是奇奇怪怪的,从来没有重复出作者的图.哈哈 ...
生信文献 | 在基底细胞样乳腺癌中，ANXA4通过与ANXA1相互作用激活JAK-STAT3信号通路

文章地址: https://pubmed.ncbi.nlm.nih.gov/32552056/ 标题:ANXA4 Activates JAK-STAT3 Signaling by Interactin ...
生信文献 | ANXA8在胃癌中的预后价值

题目:Prognostic Value of ANXA8 in Gastric Carcinoma Gene : ANXA8 同文章[生信文献 | 在基底细胞样乳腺癌中,ANXA4通过与ANXA1相互 ...
2021信息学奥赛（IOI）国家队名单出炉！（附物生信国家队排行榜，镇中PK人大附）

学科竞赛网讯今天,第33届国际信息学奥林匹克竞赛国家队选拔面试结果出炉.经过6天角逐虞皓翔.邓明扬.钱易.代晨昕4位同学将代表中国,出战今年将在新加坡举办的第33届国际信息学奥林匹克竞赛(IOI20 ...
【生信笔记】如何避免基因名称被Excel自动转换？

在进行生信分析时我们会发现,将测序数据用Microsoft Excel打开后,部分基因名会自动转换为日期或浮点. 例如,将下表中第一列的数据导入Excel后,将自动转换为第二列的内容: 一旦导入Exc ...
【生信笔记】Linux如何自动登录服务器账号？

在使用服务器时,往往需要进行密码登录,甚至有的需要先登录堡垒机,再登录开发机,输入过程较为繁琐,因此可以考虑将命令写成脚本的形式自动化登录. expect是一个能实现自动和交互式任务的解释器,它也能解 ...
【生信笔记】R语言将Excel文件按照列名拆分为多个文件

首先来看拿到这组数据,需要按照outcome的列名不同将数据保存为Paresthesia.csv和Dry mouth.csv两个文件,假如数据量少,我们一般在Excel进行筛选(保证列名存在,直接复制 ...
【生信笔记】数据框按照特定顺序修改列名

在前期我们为大家介绍了[R包荟萃]热图绘制工具:pheatmap包详解,其中想要绘制分组的热图时需要两个数据,即原始表达矩阵mat和分组信息annotation_col,其中annotation_co ...
【生信笔记】高速下载测序数据：Aspera的安装与使用

当我们需要一些NGS数据时,一般会去NCBI或者EBI的数据库中下载.但是当我们用wget下载时,时常会出现断开连接或者网络下载速度缓慢,对于几十G或者上百G的数据,下载无计可施,这是则可以使用Asp ...
【生信笔记】右键菜单打开WSL功能方法简介

在人工智能以及生物信息学发展迅速的现在,充分掌握相关技术是非常重要的,而由于系统的差异,导致很多软件需要在Linux或者Mac OS上运行,长期以来,在Windows系统上解决这一难题的方式是安装虚拟 ...

生信笔记 | 自定义GSEA分析中的gmt格式文件

相关推荐