公共数据库还可以看ArrayExpress

2024-06-10 20:24:26

提到公共数据库挖掘，通常是GEO里面的表达芯片数据，这些年随着NGS的爆发，转录组测序数据的表达矩阵分析也逐渐有后来居上的趋势，当然了，TCGA数据库的全组学数据也是宝藏。但是也架不住有一些癌症或者疾病确实比较稀有和特殊，在GEO和TCGA都找不到合适的数据集，其实还有另外一个选项：ArrayExpress

之所以想到要专门写教程来宣传ArrayExpress，是因为最近有粉丝发邮件问我一个wgcna问题，我发现他举例的文章是：Identification of hub genes and pathways associated with bladder cancer based on co-expression network analysis，非常老套的分析策略了，发表在Oncol Lett. 2017 Jul; 而且膀胱癌是TCGA里面有的，所以我下意识以为是TCGA数据挖掘，结果进去看了看数据集下载自ArrayExpress，使用了两个数据集

The dataset E-MTAB-1940 included 4 controls (samples from normal bladders) and 82 cases (samples from BC tissue);
the dataset E-GEOD-3167 included 14 controls and 46 cases.

因为都是affymetrix的芯片，所以直接对其CEL原始芯片文件进行处理，然后：

Subsequently, the data were screened by the feature filter method of the genefilter package.
Each probe was mapped to one gene using getSYMBOL, whoch is is a function in package annotate of the genefilter package and the probe was discarded if it did not match any genes.
The two expression datasets were merged and synthetically analyzed using Batch Mean-centering, a merged data method (19), following adaptation according to Support Vector Machines, through the inSilicoMerging package (20).

在 8. ArrayExpress数据库的基因芯⽚原始数据处理，3D主成分图及聚类热图这个学徒作业，我们其实分享过ArrayExpress数据库，而且里面很清楚的讲解了 oligo::read.celfiles 可以处理affymetrix的CEL原始芯片文件，非常简单。

拿到表达矩阵后的差异分析，火山图，热图等等标准流程，基本上读一下我几年前在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了；

当然了，如果是多个数据集整合，其实是已知一个批次效应，可以很容易的去除掉哈！或者另外一个思路，先差异分析后整合：多个数据集整合神器-RobustRankAggreg包

如果是前面粉丝咨询的wgcna，就需要看我在生信技能树多次写教程分享WGCNA的实战细节，见：

除了利用SEER、TARGET数据，你还可以利用这个数据库做预测模型

除了利用SEER.TARGET数据,你还可以利用这个数据库做预测模型,这个数据库就是TCGA呀,TCGA也包含大量的临床信息,可以通过下载它的临床数据来进行预测模型,TCGA临床数据的下载方法有很多种 ...
GEO（Gene Expression Omnibus）：高通量基因表达数据库

#GEO是什么? GEO全称Gene Expression Omnibus data base,由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库(通过NCBI首页,All Database ...
【生信笔记】查找GEO数据集

A 什么是GEO数据库? GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库.它创建于2000年,收录了世 ...
数据库数据 | TCGA数据库33种癌症的 transcriptome profiling (RNA-Seq) 数据

该数据是我自己下载整理过的数据. 下载日期:2021年7月12日下载方式:TCGAbiolinks包数据类型:RData 变量名称:expDataTPM > ##加载数据,数据对象是一个数据 ...
表达谱芯片没有ncRNA信息怎么办

在ncRNA还没有研究之前,好多表达谱芯片是没有ncRNA的注释信息的.这也就导致说很多表达谱的芯片,没办法分析ncRNA.对于芯片的探针而言,可以通过重注释的办法来看一下是否能重新获得一部分ncRN ...
除了GEO，其实我们还可以挖掘这个数据库

很多人知道都GEO这个数据库,但是很多人忽略了这个数据库,这个数据库是什么呢?那就是--ArrayExpress ArrayExpress是什么? ArrayExpress是主要科学期刊推荐的存储库之 ...
一篇最基本生信分析文献解读

利用一周多的时间,我们把最最基本的生信套路来讲解了一遍.正好前几天一个小伙伴拿了一篇相关文献在咨询问题.这里就拿这篇文献来总结一下我们目前写的这些东西. 这次我们来讲解的这边文献是2019-10-12 ...
通常自己的目标基因要在公共数据库看是否影响生存

看到一篇文章提到了这个分析,其实这样的分析已经常规化了. 文章链接:https://www.nature.com/articles/s41467-018-04987-y 重点是作者对自己的生物学领域背 ...
从荒岛求生看公共数据库生信分析文章

最近一直沉迷于一个岛上生活的游戏,突然发现岛上求生的日子,其实和最近很多的利用公共数据库来挖掘生信文章很相似.因此也就像就着这个游戏来聊一下最基本的这类文章的分析思路.之后也就给大家来稍微的讲讲简单的 ...
摄影丨旅行时需注意的单反摄影技巧，还不快看起来！

我需要携带什么装备呢? 这个问题我想一定令不少人头痛吧?多带会加重负担,少带又怕要用时不够... 其实笔者通常会用以下的方法去决定: 相机个人旅行带一部便够,不过一定要记得带备用电池,不然在路上拍嗨 ...
45张看了开心的图片，看完还想看

地理学习号爱生活,爱教育,爱旅游,爱地理!老胡地理工作室 59篇原创内容公众号这些图片实在是太美了,看了还想看即便不是的自己种也替种植的人感到开心这丰收的果实太美了! 让我们再看一下这些 ...
山西208国道螺旋公路，13公里天路一步一景，登北顶还能看瀑布！

山西208国道螺旋公路，13公里天路一步一景，登北顶还能看瀑布！
太惊艳了，保你看了还想看，最后一张简直了...

太唯美了吧! 看一眼就喜欢上了! ▼ 一笑一颦一回眸, 动感迷人! ▼ 体态娴静美好的吹笛少女, 让人移不开眼睛! ▼ 你敢相信这是人工雕刻? ▼ 没有生命的木头在他们手里被塑造成如此栩栩如生的形象 ...
高中化学：21页基本概念汇总，你还在看的时候学霸都已经打印了

高中化学：21页基本概念汇总，你还在看的时候学霸都已经打印了
2020年这11部国产动画电影，除了《姜子牙》，你还想看哪部？

谁都不曾想到,2019年国内电影票房冠军竟然是一部国产动画<哪吒之魔童降世>,该片狂揽50.14亿元,一跃成为国内影史票房榜第二,仅次于吴京的<战狼2>. 回顾这几年的国产动画 ...
【攻壳机动队】除了寡姐的肉体还能看什么

6分不知道有多少人是被预告片里寡姐斯嘉丽·约翰逊的全身果体形象吸引进影院的.坦白讲我算其中之一,谁让咱就是个大俗人呢. 可我也还算是稍有点迷影精神的俗人.被很多人称为神作的剧场版[攻壳机动队]之前只 ...

公共数据库还可以看ArrayExpress

相关推荐