SRA数据库简介

2024-06-13 08:19:43

简介

SRA是NIH的高通量测序数据的主要档案，是国际核苷酸序列数据库协作（INSDC）的一部分，包括NCBI序列阅读档案（SRA），欧洲生物信息学研究所（EBI）和DNA数据库。日本（DDBJ）。提交给三个组织中任何一个的数据在它们之间共享。

特点

存档来自各种高通量测序平台的原始测序数据和比对信息，比如Illumina。

二代测序流程

image.png

数据

SRA接受来自各种测序项目的数据，包括涉及人类受试者或其宏基因组的临床重要研究，其可能包含人类序列。

根据SRA数据产生的特点，将SRA数据分为四类：

Studies-- 研究课题
Experiments-- 实验设计
Runs-- 测序结果集
Samples-- 样品信息

SRA中数据结构的层次关系为：Studies->Experiments->Samples->Runs.

Studies是就实验目标而言的，一个study 可能包含多个Experiment。
Experiments包含了Sample、DNA source、测序平台、数据处理等信息。
一个Experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads。

SRA数据库用不同的前缀加以区分：

ERP或SRP表示Studies；
SRS 表示 Samples；
SRX 表示 Experiments；
SRR 表示 Runs；

如何寻找并了解SRP

1.在文章中寻找GSE号（以GSE111229为例）

2.打开GEO数据库，输入GSE号

image.png

3.可通过Linux下载

4.打开NCBI，搜索SRP号

image.png

5.得研究基本信息

image.png

参考来源：生信技能树

赞 (0)

看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析

距离公布要带500个优秀本科生入门生物信息学的活动不到一个月,虽然真正入选不到一百,但是培养成绩喜人,出勤率接近百分之百,大部分人在短短两个星期就完成了R基础知识学习,Linux认知,甚至看完了转录组 ...
踩坑日志 | kingfisher 公共测序数据 SRA/Fastq 下载神器！

导言前几天看到基因课的东哥提了一下kingfisher,一个看起来就是极度便利的公共测序数据下载工具.我非常感兴趣,但也确实没时间折腾,于是继续丢给师弟去看看(事实上,他肯定也有类似需求....). ...
超实用干货贴 | 转录组测序原始数据如何上传到NCBI数据库？

转录组测序(RNA-Seq)是当下生物医学科研领域的热点技术,在SCI论文中频频亮相.但是无论是以RNA-Seq为试验主体的论文,还是以RNA-Seq为分析辅助手段的论文,在发表之前总是绕不开一个问题 ...
转录组学习二（数据下载）

转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标 ...
SRA数据库不仅仅是可以存放fastq原始数据

最近刷单细胞文章看到了一个很有意思数据存放细节,这个文献的标题是:<Single-cell sequencing links multiregional immune landscapes an ...
MAC版: 保姆式SRA Toolkit下载原始数据

本期和大家分享糯米饭在使用SRA Toolkit下载NCBI-SRA原始数据的一些Tips,时间宝贵,直接上干货. 1.明确Project:SRP119720,打开浏览器,输入: https://w ...
为什么同样的人类病人遗传隐私保护政策各个科学研究团队遵守情况不一样

最近接触的单细胞文献比较多,发现不同文章的测序数据公布的地方很不一样,有的不让下载,有的是需要授权审核才能下载,有的是完全公开下载.很有意思,分享一下: 有的是干脆不让下载当我们想下载病人测序原始数 ...
【数据库】SRA数据库介绍及数据下载

[数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...
什么，ENA和SRA数据库存放的单细胞转录组测序数据并不一致啊？

是时候把生信技能树的舞台交给后辈! 粉丝来稿作者:黑川五郎写在前面单细胞转录组以10X公司为主流,单细胞天地公众号详细介绍了cellranger流程,大家可以自行前往学习,如下: 单细胞实战(一 ...
【生信笔记】高速下载测序数据：Aspera的安装与使用

当我们需要一些NGS数据时,一般会去NCBI或者EBI的数据库中下载.但是当我们用wget下载时,时常会出现断开连接或者网络下载速度缓慢,对于几十G或者上百G的数据,下载无计可施,这是则可以使用Asp ...
ngs组学数据分析上下游分析都可以基于R语言吗？

前些日子我们<生信技能树>的工程师做了一个ATAC-seq的项目,给客户汇报结果的时候,照例提供了全套代码.不过这次是从fq文件开始,所以大量代码都是在Linux平台的命令行而已,虽然给了 ...
【生信笔记】查找GEO数据集

A 什么是GEO数据库? GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库.它创建于2000年,收录了世 ...
【Linux 笔记】Linux 基本操作 - 04. 利用SRA数据实践文本处理

笔记接上篇[Linux 笔记]Linux 基本操作 - 03. shell脚本编程.笔记大部分源于生信技能树的B站视频教程[生信技能树]生信人应该这样学linux(更新至第14集),如有需要,可去欣赏 ...
北京基因组所数据库介绍（类似sra和ebi）

基因组学在生物学科的发展中,具有划时代的意义.同时,很多人在刚进入生物信息学领域时,最先接触的也往往是组装基因组,注释基因组.这在我们生信技能树的公号里有详细的教程,需要者可去公号get资源.前面ji ...