GEO数据库可能遇到的问题 (二)

昨天我们介绍了在使用GEO数据可能遇到的一些问题(GEO数据库可能遇到的问题)。由于篇幅的关系,还有一些没有说完,今天就把剩下的问题和大家说一下吧。

1

为什么GEO2R分析后不显示基因名

有很多表达谱芯片我们在分析之后,都可以在分析结果里面看到相对应的基因名。

但是有时候我们在分析完一些芯片的结果之后,并没有看到基因名。例如下面GSE111762这个数据集。我们分析后是这样的:

结果里面只显示了另外一个ID和序列。

这是因为,我们在使用GEO2R进行分析的时候,其实是分两部分的

  1. 基于原始数据ID的差异表达分析。

  2. 分析完之后吧ID号和注释文件进行匹配。如果有基因名那就匹配上了。如果没有那就显示其他的芯片。

对于这个数据集,我们如果去看他们的注释文件的话(GPL15314)。会发现里面就是这样显示的:

2

如果没有基因名怎么办呢?

类似没有基因名的文件,可能是这个芯片在一定时间内有专利保护。人家可以不放出基因名的。这种情况的话~

  1. 有可能是GEO注释文件老了。可能这个芯片已经发出新的注释文件了,那这个时候就可以试着去公司网站上找找看。有的话,那最好了。

  2. 如果没有,还确实想要分析这个数据的话,可以试着基于序列来进行blast。寻找相对应序列在blast之后对应的基因是什么。这样也是一种自己注释基因的方式。不过呢,一个芯片有60000+条序列,如果只是用ncbi的blast这个网页工具。。。有可能就还没注释完网页就崩了。这个时候还是建议离线的blast工具好一些

  3. 如果连基因序列或者每一个探针对应的基因位置信息都没有的话。。。。那还是放弃吧。换别的吧。。。

3

差异分析后没有差异的结果怎么办

有可能在分析某一个数据集的时候,我们在做完GEO2R差异表达分析之后,然后发现没有差异基因。这个时候其实首先应该考虑的是:

  1. 自己的实验分组对不对?是不是自己本身的实验分组就有问题?

  2. GEO2R是基于芯片的矩阵数据来进行分析的,就是下图的这个数据。这个数据也是作者自己上传的,那作者上传的时候有可能就会过滤掉一些数据了。比如说有差异的那些结果。当然见过更厉害的,整个矩阵文件里面就没有数据。。不过毕竟自己的数据嘛,人家怎么做都是应该的。这个时候要是还想分析的话,可以试试下载更加原始的文件,也就是Supplementary file。不过这个东西就不能用GEO2R来分析了,就只能自己去找分析工具了,比如R语言。

1

甲基化芯片能不能用GEO2R分析

有时候我们在进行甲基化相关数据检索的时候,发现在甲基化数据下面也是有GEO2R的分析选项的。

这个其实也是可以用的,只不过分析的结果是基于某一个cg探针的结果。由于甲基化是是单一cg的影响可能不会那么大,所以都推荐说整体来评估一段区域的的甲基化改变情况。如果我们是为了找某几个cg来当作标志物的实话其实可以这样来做。但是如果是要评估甲基化整体的影响话,推荐还是正规的方法。目前比较推荐的还是R语言当中的CHAMP包来进行一个系列流程的分析。

写在最后

(0)

相关推荐

  • 想要AUC值高啊!做分类模型啊!放弃预后!

    最近在整理表观相关技术文献,包括各种甲基化芯片技术,27k,450k,850k,以及甲基化测序的 WGBS和RRBS其实它们应用,最后也是构建各种模型,比如分子分型啊,细胞比例他推断啊,分类模型或者预 ...

  • 这种套路,你造吗

    这篇文章题目:ZNF154 is a promising diagnosis biomarker and predicts biochemical recurrence in prostate can ...

  • GEO数据库可能遇到的问题

    昨天介绍完GEO2R之后其实该和大家说一下富集分析相关的东西了(昨日链接:GEO2R差异表达分析软件).但是,由于GEO数据库里面的数据种类比较多,所以经常我们用的这个数据集和其他数据集有区别,所以就 ...

  • 重磅!中文版GEO数据库来了!

    没有样本,没钱测序,如何拿别人的数据来发自己的文章呢? 公共数据库挖掘呀! 众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据(TCGA的0代码可视化 ...

  • GEO数据库使用教程及在线数据分析工具

    GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库.它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就 ...

  • 从GEO数据库下载得到表达矩阵 一文就够

    在第一讲我们详细介绍了GEO数据库的基础知识及规律,也了解了如何利用官方R包GEOquery来探索GEO数据库,当然,我的生信菜鸟团博客里面也从很多其它角度解析过它,欢迎大家自行搜索学习.总得来说,从 ...

  • 一万人陪你学习GEO数据库挖掘知识(公益视频听课笔记分享)

    耗费半年的时间精心制作了成套的生物信息学入门视频教程,并且在生信技能树联盟平台发布了这个长达74个小时全套生物信息学入门视频:生信技能树视频课程学习路径,这么好的视频还免费! 在B站看了看,大家学的热 ...

  • GEO数据库中国区镜像横空出世

    接收到太多的粉丝求助,想下载个表达矩阵做一下数据挖掘偏偏第一步就卡在了,数据文件下载半天毫无动静,或者下载到99%就卡死了.如果我恰好在电脑旁,通常会帮忙下载后微云或者百度云传递给粉丝,但这毕竟不是长 ...

  • GEO数据库中国区镜像奔走相告啊

    最近还是大量粉丝留言表示自己因为疫情困在家里,想做数据挖掘混个本科毕业论文,但是看完我的GEO数据挖掘视频后,想下载个数据集,就被卡死了,实在是巧妇难为无米之炊! 这个不怪大家,我给大家的免费的GEO ...

  • 读取GEO数据库的单细胞转录组表达矩阵文本文件的一种方式

    最近在读AUCell包的文档,链接是:http://bioconductor.org/packages/release/bioc/html/AUCell.html,这个包的教程我已经写完了, 在 :使 ...

  • 上传数据到GEO数据库实战笔记

    师兄的文章要送审,编辑让把RNA-seq的数据传到GEO数据库上,今天就在传这个数据. 之前没传过数据,今天就是一边学一边搞这个. 一.注册账号 先注册一个GEO账号 二.准备工作 选择Data ty ...