公共数据库还可以看ArrayExpress
提到公共数据库挖掘,通常是GEO里面的表达芯片数据,这些年随着NGS的爆发,转录组测序数据的表达矩阵分析也逐渐有后来居上的趋势,当然了,TCGA数据库的全组学数据也是宝藏。但是也架不住有一些癌症或者疾病确实比较稀有和特殊,在GEO和TCGA都找不到合适的数据集,其实还有另外一个选项:ArrayExpress
之所以想到要专门写教程来宣传ArrayExpress,是因为最近有粉丝发邮件问我一个wgcna问题,我发现他举例的文章是:Identification of hub genes and pathways associated with bladder cancer based on co-expression network analysis,非常老套的分析策略了,发表在Oncol Lett. 2017 Jul; 而且膀胱癌是TCGA里面有的,所以我下意识以为是TCGA数据挖掘,结果进去看了看数据集下载自ArrayExpress,使用了两个数据集
The dataset E-MTAB-1940 included 4 controls (samples from normal bladders) and 82 cases (samples from BC tissue); the dataset E-GEOD-3167 included 14 controls and 46 cases.
因为都是affymetrix的芯片,所以直接对其CEL原始芯片文件进行处理,然后:
Subsequently, the data were screened by the feature filter method of the genefilter package. Each probe was mapped to one gene using getSYMBOL, whoch is is a function in package annotate of the genefilter package and the probe was discarded if it did not match any genes. The two expression datasets were merged and synthetically analyzed using Batch Mean-centering, a merged data method (19), following adaptation according to Support Vector Machines, through the inSilicoMerging package (20).
在 8. ArrayExpress数据库的基因芯⽚原始数据处理,3D主成分图及聚类热 图 这个学徒作业,我们其实分享过ArrayExpress数据库,而且里面很清楚的讲解了 oligo::read.celfiles 可以处理affymetrix的CEL原始芯片文件,非常简单。
拿到表达矩阵后的差异分析,火山图,热图等等标准流程,基本上读一下我几年前在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了;
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够
当然了,如果是多个数据集整合,其实是已知一个批次效应,可以很容易的去除掉哈!或者另外一个思路,先差异分析后整合:多个数据集整合神器-RobustRankAggreg包
如果是前面粉丝咨询的wgcna,就需要看我在生信技能树多次写教程分享WGCNA的实战细节,见: