TCGAbiolinks数据下载TCGA数据

2024-06-24 20:27:29

欢迎来到医科研，这里是白介素2的读书笔记，跟我一起聊临床与科研的故事。

TCGAbiolinks数据下载TCGA数据

下载TCGA数据的方法有很多，但比较好用的包我认为就是TCGAbiolinks,TCGAbiolinks是一个可用于检索，下载，并准备TCGA数据用于下游分析的R包，该包发表在
著名的 核酸研究 杂志上。
TCGAbiolinks的优点在于具备一体化的下载整合，无需再使用复杂的方法对下载的单个数据重新进行整合，新手及临床医生尤其适合，我们的目的就是分析数据，没有必要去做些非必须的事。
UCSC xena 本来是一个很好的工具，但有一个问题是它存储的数据是log2(x+1) 转换的 RSEM nomalized data，关于这个数据有文章去使用，但我不确定能否直接用limma去做后续分析。笔者曾试图搞清楚这个数据究竟如何使用，发现众说纷纭，似乎UCSCxena本身也没有给出一个很清晰的答案，因此就表达谱数据而言，UCSCxena并不是最好的选择，当然也有说把log2转换的数据再转换回来的，总觉得并不合适。

load package

1if (!requireNamespace("BiocManager", quietly = TRUE)) 2 install.packages("BiocManager") 3if (!requireNamespace("BiocManager", quietly = TRUE)) 4 install.packages("TCGAbiolinks") 5library(TCGAbiolinks) 6library(DT) 7library(dplyr) 8library(SummarizedExperiment)

数据来源-根据TCGAbiolinks的官方说明

不同的数据来源 Legacy 与 harmonized
GDC Legacy Archive:以前在CGHUB和TCGA数据门户中存储的数据的原始数据，由TCGA数据协调中心（DCC）托管，在该门户中用GRCH37（HG19）和GRCH36（HG18）作为参考基因组
GDC harmonized database:可用数据与grch38（hg38）使用gdc生物信息学流程进行协调，该流程提供了生物标本和临床数据标准化的方法，简单讲就是对数据进行了一定标准化处理。harmonized数据库包括转录谱数据，甲基化数据，miRNA数据，但缺少芯片数据

数据检索

1query.met <- GDCquery(project = "TCGA-COAD", 2 data.category = "DNA Methylation", 3 legacy = FALSE, 4 platform = c("Illumina Human Methylation 450")) 5query.exp <- GDCquery(project = "TCGA-COAD", 6 data.category = "Transcriptome Profiling", 7 data.type = "Gene Expression Quantification", 8 workflow.type = "HTSeq - FPKM-UQ") 9query.exp[1:5,1:5] 10query.met[1:5,1:5] 11datatable(getResults(query.exp, cols = c("data_type","cases")), 12 filter = 'top', 13 options = list(scrollX = TRUE, keys = TRUE, pageLength = 5), 14 rownames = FALSE)

mRNA Expression

1query <- GDCquery(project = "TCGA-BRCA",# Cancer type 2 data.category = "Transcriptome Profiling", 3 data.type = "Gene Expression Quantification", 4 workflow.type = "HTSeq - Counts"# raw count 5 ) 6GDCdownload(query, 7 directory = "./project",# 8 method = "api", 9 files.per.chunk = 100)# 10data <- GDCprepare(query) 11count_data=assay(data) 12count_data[1:5,1:5] 13dim(count_data)##56537 1222 14 15## clinical information 16colData(data)[1:5,1:5] 17 18## save data 19#save(count_data,file = "BRCA_count.Rdata")

clinical data

1clinical <- GDCquery_clinic(project = "TCGA-BRCA", type = "clinical") 2clinical[1:5,1:5] 3dim(clinical)## 1097 68 4 5## save 6#save(clinical,file="BRCA_clinical.Rdata") 7#write.csv(clinical,file="TCGAbiolinks-BRCA-clinical.csv") 8 9## clinical-2 10clinical_2<-colData(data) 11#write.csv(clinical,file="TCGAbiolinks-BRCA-clinical.csv") 12 13## 获取所有TCGA的临床信息 14library(data.table) 15library(dplyr) 16library(regexPipes) 17clinical <- TCGAbiolinks:::getGDCprojects()$project_id %>% 18 regexPipes::grep("TCGA",value=T) %>% ## TCGA 19 sort %>% 20 plyr::alply(1,GDCquery_clinic, .progress = "text") %>% 21 rbindlist 22dim(clinical) 23clinical[1:5,1:5] 24#readr::write_csv(clinical,path = paste0("BRCA_clin_indexed.csv"))

miRNA data

1query <- GDCquery(project = "TCGA-BRCA", 2 data.category = "Transcriptome Profiling", 3 data.type = "miRNA Expression Quantification", 4 workflow.type = "BCGSC miRNA Profiling") 5## 检束结果 6results<-getResults(query) 7dim(results) 8results[1:5,1:5] 9colnames(results) 10 11## download data 12GDCdownload(query, 13 method = "api", 14 files.per.chunk = 20)# 减少下载失败风险 15mir_exp<- GDCprepare(query = query, 16 summarizedExperiment=F)# set F 17 18## 数据结构 19dim(mir_exp) 20mir_exp[1:5,1:5] 21 22## save data 23#save(mir_exp,file="BRCA_miRNA_raw.Rdata")

总结

除了下载功能以外，TCGAbiolinks还包括了一些数据分析挖掘功能：

差异分析
富集分析
整合其它组学数据的关联分析
一定的可视化功能：PCA,heatmap等等

笔者认为，这些功能的好处在于能够比较方便的用简单几行代码做一些固定的分析，恰恰这也是它的缺点，这样的话包的灵活性就大打折扣了，不能够很好的整合用户的其它分析流程。考虑到这一点，我可能不会过多的使用它的其它分析功能

参考资料

TCGAbiolinks Vignettes(https://www.bioconductor.org/packages/devel/bioc/vignettes/TCGAbiolinks/inst/doc/download_prepare.html)
TCGAbiolinks文章1(https://www.ncbi.nlm.nih.gov/pubmed/26704973)
TCGAbiolinks文章2(https://www.ncbi.nlm.nih.gov/pubmed/)

TCGA数据分析系列（二）：UALCAN数据库

UALCAN:(http://ualcan.path.uab.edu/index.html)是一个综合的.用户友好的.交互式的web资源,用于分析癌症组学数据.UALCAN的设计目的是: 提供对公开的 ...
TCGA-miRNA批次矫正后数据集介绍

前段时间,我们对于批次效应有关的东西进行了一些介绍.其中包括 [[批次效应]] [[批次效应去除工具]] 对于经常使用的TCGA数据库而言,同样也有批次效应存在.对于这样的批次,在公布之前也经过一定的 ...
肿瘤miRNA靶点预测数据库

miRNA作为ncRNA的一类.其主要发挥功能的主要方式是通过和基因形成双向互补链进而来影响基因的表达.因此通过miRNA和基因序列是否互补就可以遇到miRNA可能的靶基因了.这个基本上就是经典的预测 ...
TCGA学习01：数据下载与整理

前言交代 1.学习参考之前参加了生信技能树花花老师的TCGA数据挖掘试讲课,收获很多,最近整理一下上课笔记,同时参考了老师的简书相关教程.生信入门的朋友也可微信加入生信星球公众号,个人觉得很好的一个 ...
手把手教你下载TCGA数据（代码+视频+答疑+服务）

现在TCGA数据下载的代码满天飞,例如以使用TCGAbiolinks下载为例: if (!requireNamespace("BiocManager", quietly = TRU ...
生信教程（一）实例展示如何使用TCGA数据库

相对于基础实验来说,生信分析已经越来越融入科研工作者的生活中,作为基础实验的验证和辅助手段,帮许多老师省下了很多工作,许多老师已经很熟练的在使用了生信分析这个当下,此次分享,主要是针对还没有熟练生信分 ...
2.593分的SCI文章，教你们把miRNA、靶基因以及临床表型串联起来，就用这个电视机……

看你们都无心看文献,那就给你们看看神奇工具吧 ,今天给你们讲的这个--就是--微型电视机-- 卖身契许冠杰 - 钜片名曲选呃,实际上就是一个miRNA的小工具, 其实还蛮有意思的-- 首先随便输入 ...
TCGAbiolinks下载TCGA数据

欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事. TCGAbiolinks数据下载TCGA数据下载TCGA数据的方法有很多,但比较好用的包我认为就是TCGAbiolinks,T ...
手把手教你用R语言下载TCGA数据：UCSCXenaTools – sci666

各位朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,之前给大家推出了四个推文,全部是无代码进行数据下载,如果我们想进一步提升自己的水平,那我们从今天开始,开启R语言编程下载TCGA数据教程推 ...
TCGA数据下载—TCGAbiolinks包参数详解

TCGA是目前使用最多的肿瘤组学数据库,虽然群主已经录制TCGA系列视频教程: 悄咪咪的上线了TCGA知识图谱视频教程(B站和YouTube直达) 里面也提到了各种下载工具,但是作为学徒的我,学习过后 ...
整理从TCGA下载的数据

如果从TCGA官网网页下载数据,或者使用gdc-client工具下载的数据,都是以单个的文件夹形式存储,并且文件夹中的为压缩文件,所以,下载数据后,第一步就是如何把这些文件复制在同一个文件夹中,以利于 ...
TCGA数据下载方式小结

之前对TCGA做了简单的了解,粗略了解了什么是TCGA,TCGA是做什么的等,接下来肯定是要学会如何下载TCGA数据,毕竟只有下载了数据才能继续学习官网常规下载 TCGA自2016年改版后,下载方式 ...
UCSC xena 浏览器才是最简单的TCGA数据下载途径

不知道为什么总是有人问我TCGA数据下载这么简单的问题,这问题简单到如何下载人类的hg19.fa这个参考基因组一下,就是http://hgdownload.cse.ucsc.edu/goldenpat ...
生信小技巧第8课，加上 TCGA的28篇教程- 批量下载TCGA所有数据

长期更新列表: 视频讲解-R爬取生信软件列表到思维导图生信技巧第3课-请你务必学好R语言 broad官网出品的必须神器 IGV 资料大全,含视频生信技巧第5课-生信人必须安装的软件好神奇啊,两 ...
TCGA的28篇教程- 数据下载就到此为止吧

长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的R ...

TCGAbiolinks数据下载TCGA数据