GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序

  • 第一讲:GEO,表达芯片与R

  • 第二讲:从GEO下载数据得到表达量矩阵

  • 第三讲:对表达量矩阵用GSEA软件做分析

  • 第四讲:根据分组信息做差异分析

  • 第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析

  • 第六讲:指定基因分组boxplot指定基因list画热图

  • 第七讲:根据差异基因list获取string数据库的PPI网络数据

  • 第八讲:PPI网络数据用R或者cytoscape画网络图

  • 第九讲:网络图的子网络获取

  • 第十讲:hug genes如何找

虽然一直演示的表达芯片数据分析,这些芯片分析难点主要是在ID转换,因为不同公司设计的探针命名都不一样,在我4年前博客整理的芯片平台对应R包找:(16)芯片探针与基因的对应关系-生信菜鸟团博客2周年精选文章集

基本上你使用我的标准数据分析代码,下载到表达矩阵,走标准分析流程,火山图,热图,GO/KEGG数据库注释等等,肯定可以出对应的图表。最重要的3张图见:你确定你的差异基因找对了吗?

那如果是RNA-seq测序数据呢?

通常呢,RNA-seq测序数据并不会把其表达矩阵存储在Series Matrix File(s) 里面,所以 你使用我的标准代码:

rm(list = ls())  ## 魔幻操作,一键清空~
options(stringsAsFactors = F)#在调用as.data.frame的时,将stringsAsFactors设置为FALSE可以避免character类型自动转化为factor类型
# 注意查看下载文件的大小,检查数据 
f='GSE103611_eSet.Rdata'
# https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE103611
library(GEOquery)
# 这个包需要注意两个配置,一般来说自动化的配置是足够的。
#Setting options('download.file.method.GEOquery'='auto')
#Setting options('GEOquery.inmemory.gpl'=FALSE)
if(!file.exists(f)){
  gset <- getGEO('GSE103611', destdir=".",
                 AnnotGPL = F,     ## 注释文件
                 getGPL = F)       ## 平台文件
  save(gset,file=f)   ## 保存到本地
}
load('GSE103611_eSet.Rdata')  ## 载入数据
class(gset)  #查看数据类型
length(gset)  #
class(gset[[1]])
gset
# assayData: 352859 features, 48 samples

只需要把上面的GSE号替换即可,当然如果你不懂GSE号,就需要再细读表达芯片的公共数据库挖掘系列推文感兴趣的也可以去看看;

比如对 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE106292 上面的代码就拿不到表达矩阵

因为,这个是RNA-seq数据,作者会把自己的表达矩阵变成Excel表格,方便大家探索!

记住,我这里强调了是作者自己的表达矩阵,因为RNA-seq数据分析流程还不一样!参数不一样,软件不一样,数据库不一样,而且最后的表达矩阵的表现形式又不一样!是原始的counts还是RPKM,TPM都不一样!如果作者确实不上传其表达矩阵,你也没办法,只能是自己走RNA-seq数据分析流程:

这里面的知识细节太复杂了,我就不一一展开!建议大家看我们阅读量过10万的RNA-seq系列推文,比如:表达矩阵的归一化和标准化,去除极端值,异常值

现在给大家一个作业

我前面举例的  https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE106292  数据集,其实是一个WGCNA文献,你可以看看下载到的 Excel表格如何读入R里面,做出作者文章的那样的图,可以参考关键问题答疑:WGCNA的输入矩阵到底是什么格式,详细教程见:一文看懂WGCNA 分析(2019更新版)

这两个图难度非常大,基本上相当于半年作业的生信工程师经验了,如果你能做出来,发邮件给我你的全部思考分析过程,你可以获得我认可,毕竟相当于有了我7.6%的功力,已经是非常的了不起了!

写在最后

1

生信六周年全国巡讲

南宁、南京、福州

2

广州·数据挖掘课

2天带你玩转GEO

3

生信入门课全国巡讲

11月-福州、上海

生信入门课大纲

1

生信R语言入门

2

GEO数据挖掘

3

生信linux入门

4

转录组课题设计与数据分析

(0)

相关推荐

  • 转录组学习二(数据下载)

    转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标 ...

  • R语言GEO数据挖掘01-数据下载及提取表达矩阵

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. 这一节的内容包括应用 GEOquery包下载芯片数据,提取表达矩阵,提取m ...

  • R语言GEO数据处理(二)

    #1. GEO数据的下载 ##1.1 方法一:下载RAW Data数据 ##1.2 方法二:下载series Matrix表达数据 rt <- read.table("GSE56814 ...

  • GEO表达芯片平台 — GPL14951,注释文件探索过程

    最近jimmy老师在学徒群了扔了一个数据挖掘文献图表复现任务,作为老师的新晋小透明学徒,希望可以表现一下,在分析数据集GSE62133时,并没有其平台GPL14951相应的注释包,把这个探索过程分享一 ...

  • GEO数据挖掘只分析一张芯片,还能发文章吗

    曾经很多人问过我们,GEO数据挖掘只有一张芯片,还能发文章吗?我们的答 案:肯定能.今天就给大家分享一篇只分析了一张芯片的文章,这篇文章2018年8月份发表在BioMed Research Inter ...

  • GEO数据挖掘+实验验证,这样的生信发了4分+SCI

    参考文章:Bioinformatic analysis identifying FGF1 gene as a new prognostic indicator in clear cell Renal ...

  • 仿真技术助力制备高效VCSEL芯片器件

    仿真技术助力制备高质量VCSEL芯片 垂直腔面发射激光器(Vertical Cavity Surface Emitting Laser,VCSEL)具有体积小.阈值电流低.可单纵模输出.功耗低和集成度 ...

  • GeoDiver:GEO数据挖掘分析利器

    这才是GEO数据库挖掘的正确姿势. 前阵子,酸谈学社的大师兄Ewen给大家介绍了一个GEO数据集分析工具shinyGEO.本期小编就再来给大家介绍一个来自大英帝国的GEO数据分析神器-GeoDiver ...

  • (19)一个affymetrix表达芯片实战-生信菜鸟团博客2周年精选文章集

    这个实例上部分包括: 如何用R包下载GEO数据(只限单一平台,其余平台需要修改下面的代码) 如何对GEO的芯片数据归一化并且得到表达量矩阵, 如何用limma包做差异分析, 对找到的差异基因如何做GO ...

  • 机器学习算法之随机森林的R语言实现-表达芯片示例

    终于还是要发这个系列了,其实我还没有准备好,机器学习系列,有一个公众号做的非常好,是中科院上海马普所的几个同学做的,过两天我会在此推送他们的学习目录,供大家欣赏. 我就先抛砖引玉吧: 随机森林背景介绍 ...

  • 【视频讲解】- 小鼠表达芯片数据整合分析

    本讲涉及到的芯片分别是: GSE7762 GSE62346 GSE50382 视频里的示例会带领大家使用 GEOquery 包里面的getGEO函数下载每个表达芯片数据在GEO数据库里面的数据,解析获 ...