GEO二代测序表达数据下载数据库

在GEO公共数据检索的时候,发现有一个数据集想要分析,但是发现是二代测序的数据,没有相关的原始数据处理经验,要怎么办呢?
二代测序对于没有生信基础的人的难点

之前我们在介绍GEO分析基础的时候,提到过利用目前的个人电脑以及一些网络工具分析工具,我们能分析就是一些基因芯片的数据,但是对于二代测序的数据的话,分析起来就有一些困难了。主要的困难在于二代测序的数据的原始数据是fastq格式的,例如下图就是一个fastq的文件的一部分,它的主要内容就是检测到的序列是什么。

对于这样的数据,我们肯定是经过一定的处理才能把它转换为基因的表达量的,而就是在原始数据—基因表达量的这个过程,基本上我们的个人电脑和没有基础的人很难进行操作。只要二代测序的数据到了基因表达那种的表格形式的数据了,基本上一些分析我们也就可以来进行操作的。

这个其实就类似于我们用TCGA的数据一样的,我们从TCGA下载到的其实就是基因表达的表格数据。对于最原始的数据那没有一定的技能和资源是很难进行分析的。

那要是发现GEO里面有一个二代测序的数据很好,特别想使用怎么办呢?这次就给大家推荐一个把GEO的二代测序的数据经过处理转换为基因表达数据的的数据库,这个数据库就是ARCHS4数据库

(https://amp.pharm.mssm.edu/archs4/index.html)
ARCHS4数据库介绍

ARCHS4数据库是一个把GEO数据库的一些人和鼠的二代测序的数据进行统一流程前期分析的数据库。通过分析,最终把原始的fastq的数据转换为了表格数据。这样我们就可以使用了。

数据库的使用很简单,我们只需要在数据检索的地方检索想要查看的数据集就行。这里的话,我们可以输入想要获得的GSE ID号码,可以输入GSM样本号码,同时也可以输入组织样本等等。

在输入之后,就可以获得这个样本具体的信息。我们可以点击R的按钮可以获取R语言用来下载数据的代码。

这个代码,虽然是让我们获取目标数据集的表达数据,但是第一步还是要下载目标物种的所有数据。这个数据有多大呢?人的数据有7个G,老鼠的数据有5个G。这个对于个人的下载的任务量来说还是很大的。

那既然下载检索到的数据集需要很长的时间,有没有简单的方法来进行分析的呢?这个呢,如果我们在检索的时候只是检索的是GSE数据集,同时只是相对这个数据集进行简单的常用的数据分析的话(差异表达呀、富集分析呀这种的),那我们可以通过这个数据库链接的另外一个软件来进行分析。例如,我们在检索GSE81547的时候。结果里面就有这么一个链接。

点击Biojupies,首先可以看到这个数据集的基本信息;点击差异基因表达的按钮,就可以对这个数据集进行分析了。

通过下图,我们就可以看到,这个软件可以分析从差异—富集的常规分析。我们需要做的就是决定要做什么分析,然后点击ADD添加即可。

这样我们就可以对了解一个数据集基本的数据了。但是如果我们检索的是某一个组织类型,那么获得的数据集就不能使用这个软件进行分析了,就需要下载数据自己分析了。

数据的下载

对于原始数据的下载,数据库提供了所有相关经过统一流程分析后的数据,包括count数据和tpm数据,同时也提供了目前数据库纳入的所有GSE信息。

对于这么大的数据,数据库默认的提供的是一整个R语言格式的矩阵文件。首先我们在使用的时候肯定不会全部使用的,所以如果每次都数据加载开始的话,每次加载一个7个G的文件还是很麻烦的,而且提供的是一个R语言格式的文件,这样对于没有R语言基础的同学很难进行操作。所以我们就把数据库里面的count数据下载了下来。同时把这个数据集按照GSE ID号来进行行拆分,这样我们在使用目标数据集的时候就可以直接加载目标数据集即可了。另外,对于数据集所有数据的基本信息,我们也提供了一个表格,我们可以在里面检索数据库包含的数据以及基本的样本信息。

所以呢,还是老规矩,需要的话,可以转发朋友圈(无分组)5分钟后截图发送后台或者打赏作者来获得ARCHS4数据库 所有的count数据哦!

PS:一般而言count可以用于差异表达分析,如果要做基因之间的比较的话,需要用到tpm的数据。这个数据量就太大了,如果需要就自己想办法吧。如果没有很大型的储存装备的话,建议还是说可以从count入手,寻找自己想要的数据集,然后找到了想要分析了,可以自己再转tpm即可。

GEO数据库可能遇到的问题2020-04-03
GEO数据库可能遇到的问题 (二)2020-04-02
GEO2R差异表达分析软件2020-04-02
GEO数据集详细介绍2020-04-02

合作或转载请后台联系~

(0)

相关推荐

  • RNA芯片和测序技术的比较(学徒作业)

    有学员提出来了一个问题,就是可以比较同样实验设计的表达量探索研究,一个研究使用的是芯片,一个是测序,看看两者的差异基因情况的overlap情况.其实这样的例子非常多,比如下面这样的展现方式: 下面给大 ...

  • 【生信笔记】查找GEO数据集

    A 什么是GEO数据库? GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库.它创建于2000年,收录了世 ...

  • 哈?确定这是我零代码能复现的非肿瘤文章吗!

    解螺旋公众号·陪伴你科研的第2541天 零代码复现非肿瘤文章 大家好,我是濤濤.众所周知,仙桃生信工具www.xiantao.love一直致力于协助大家在进行生信研究提供便利性.最近,仙桃生信工具又推 ...

  • GEO(Gene Expression Omnibus):高通量基因表达数据库

    #GEO是什么? GEO全称Gene Expression Omnibus data base,由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库(通过NCBI首页,All Database ...

  • GEO数据纯生信准3分SCI思路

    研究背景: 卵巢癌在全球与妇科癌症相关的死亡中排名第五.到目前为止,尚未完全了解卵巢癌的肿瘤发生和预后的分子机制.这项研究旨在发现参与卵巢癌的hub基因和治疗药物. 研究方法: 从Gene Expre ...

  • 技术贴 | 宏转录组专题 | DDBJ数据库:宏转录组测序数据下载

    本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读 DDBJ(DNA Data Bank of Japan)是与NCBI的GenBank,EMBL的EBI数据库齐名的世 ...

  • 二代测序数据拼接之原理篇

    前前后后接触了一些基因组和转录组拼接的工作,而且后期还会持续进行.期间遇到了各种各样莫名其妙的坑,也尝试了一些不同的方法和软件,简单做一个阶段性小结,本篇是原理部分,下周的同一时间更新实战部分. 62 ...

  • 文章测序数据下载碰到的问题的小总结(南京站学员分享)

    我目前的项目主要参考了一篇文献,我想借重复这篇文章的数据分析及表格制作来巩固学习3天的生信技能树培训内容.我翻到文章最后找到了数据的获取方式: 载入下载页面后一看有两个"数据大小" ...

  • 三阴性乳腺癌表达矩阵探索之数据下载及理解

    学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了!(视频观看方式见文末) 下面是<GEO数据挖掘课程>的配套笔记(第二篇) 了解数据挖掘 公共数据库:(数据来源) GEO和TCG ...

  • 如何直接用Seurat读取GEO中的单细胞测序表达矩阵

    如何直接用Seurat读取GEO中的单细胞测序表达矩阵

  • 【数据库】SRA数据库介绍及数据下载

    [数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...

  • GEO数据下载,真的有这么难吗

    GEO数据下载真的好难吗?有些学员说真的好难呀,我下载了一个星期都下载不了,老是断,每次没有下载完就断了.就下载个数据就用了一个星期?有没有搞错,别人一个星期连文章都搞定了,而你只能下载数据的过程中徘 ...

  • GEO circRNA测序分析数据库

    关于 GEO 这个大型的储存好多公共测序数据的数据库,我们在之前进行过详细的介绍[[GEO数据库数据库介绍]].其中也介绍了可以通过 [[4.差异表达分析软件GEO2R]] 来对一些表达谱的芯片进行差 ...

  • 【测序实验】二代测序文库读长的影响因素

    二代测序文库读长的影响因素-实验角度简介 一.现市场上,常见的文库长度种类 1)life的Ion Torrent平台: 该平台主要用于临床快速检测.产前诊断.疾病panl扩增子测序 PGM 测序仪:2 ...