R语言GSEA分析(二)
转换基因ID
如基因名是symbol,需要将基因ID转换为Entrez ID
格式。Entrez ID
实际上是指的Entrez gene ID
,是对应于染色体上一个gene location
的。每一个发现的基因都会被编制一个统一的编号,而Entrez ID
是指的来自于NCBI
旗下的Entrez gene
数据库所使用的编号。因为Entrez ID
具有特异性,所以后续分析更适合用Entrez ID
。
df_id<-bitr(df$SYMBOL, #转换的列是df数据框中的SYMBOL列 fromType = "SYMBOL",#需要转换ID类型 toType = "ENTREZID",#转换成的ID类型 OrgDb = "org.Hs.eg.db")#对应的物种,小鼠的是org.Mm.eg.db >'select()' returned 1:many mapping between keys and columns Warning message: In bitr(df$SYMBOL, fromType = "SYMBOL", toType = "ENTREZID", OrgDb = "org.Hs.eg.db") : 7.87% of input gene IDs are fail to map... #7.87%没有比对到就是没有转换成功
把两个数据框df
和 df_id
根据SYMBOL
列合并。
df_all<-merge(df,df_id,by="SYMBOL",all=F)#使用merge合并 head(df_all) #再看看数据 dim(df_all) #因为有一部分没转换成功,所以数量就少了。 > head(df_all) SYMBOL logFC ENTREZID 1 A2M -0.713519723 2 2 AAK1 -0.089497971 22848 3 AAMP -0.014536797 14 4 AARS2 0.077105219 57505 5 AASDHPPT -0.000560858 60496 6 ABCA1 0.436678052 19 > dim(df_all) [1] 4660 3
赞 (0)