tcga数据下载

各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,之前给大家推出了四个推文,全部是无代码进行数据下载,如果我们想进一步提升自己的水平,那我们从今天开始,开启R语言编程下载TCGA数据教程推文。还记得它吗?

UCSC-XENA

或许你看了之前的推文,了解到了该网站,甚至亲自操作了一番,你这个时候或许会说,这种感觉不正是像极了爱情吗?

今天,我们学习一下,基于UCSC-XENA开发出的R包UCSCXenaTools.

在提到UCSCXenaTools该包的时候,我们或许需要了解一下该包的前身XenaR包,这个包提供了一个简单的UCSC Xena接口,可以获取一些UCSC Xena存储的信息,包括GDC、TCGA、ICGC、GTEx、CCLE等数据库的上千个数据集。特别是TCGA(hg19版本)的一部分数据UCSC做了非常好的标准化处理,但是有将近四年没有更新,UCSCXenaTools便是在此基础上开发出来的

1. UCSCXenaTools安装极其简单:

2. 加载该包:

可以看到,这里它还提供了github的地址,以及如果用这个包,如何在文章中引用。

3.使用XenaHub()可以获取所有的资源,另外可以通过参数指定感兴趣的,包括hosts,cohorts以及datasets。结果返回一个XenaHub对象。Hosts函数:Get hosts of XenaHub object;Cohorts函数:Get cohorts of XenaHub object;Datasets函数:Get datasets of XenaHub object

4. 为了简化hosts()的输入,我们可以使用hostName指定我们想要搜索TCGA的内容,如下:

结果如下:

5. 可以看到有1629个数据集,太多了。下面使用XenaFilter ()函数进行过滤,比如我们下载临床数据,如下,返回的对象依然是XenaHub:

6. 假如你只想选择跟肺癌相关的数据集,这个时候你还需要再加一些条件:

7. 如果你很清楚你想要做的,可以使用dplyr的管道操作符进行连续过滤,不过过滤后返回的还是XenaHub对象:

8. 检索下载,先构建一个query对象(当前还没有用类封装),就是一个数据框,存储了主机地址,下载的url等:

9.数据下载

默认XenaDownload函数将下载数据到当前目录的Xena_Data目录下,如果数据已经下载,将提示并不会下载,可以使用force=TRUE强制下载。

10. 数据下载之后就可以将数据导入R,背后用的是readr包的read_tsv函数

结果如下:

这个时候,我们就发现临床信息就被读进R里面了。

Ok,今天的教程主要是带大家体验TCGA基于R语言的第一种数据下载方式,下期我们继续推出TCGA的第二种编程方式下载,今天的数据下载先讲到这,下期再见。

代码获取方式:关注公众号:百味科研芝士,后台回复关键字“UCSC”,获取R代码

(0)

相关推荐

  • 零代码、无实验复现最新8+SCI,傻瓜式剩下高招!(附详细操作教程)

    解螺旋公众号·陪伴你科研的第2590天 无代码生信复现 大家好,我是Jerry,今天我给大家分享一篇最新的单基因泛癌生信文章,该文章是发表于Frontiers in Immunology杂志上,最新影 ...

  • 拼凑6个网页工具图表还不够那就再加上6个组学

    学TCGA数据库并不是为了发"套路"文章,那些基本上是本科生毕业设计的水准,但是阅读这样的文章的确可以很大程度上帮助大家认识TCGA数据库,主要是了解它可以做什么,比如我昨天在生信 ...

  • 基因在任意癌症表达量相关性

    2 序言 第四单元第一讲:计算基因在任意癌症表达量相关性 课程链接在:http://jm.grazy.cn/index/mulitcourse/detail.html?cid=53 从题目可以看到,这 ...

  • 开发自己的TCGA数据库下载器就是怎么简单

    如果你不懂代码,不懂网站规则,那么最简单的就是直接使用UCSC xena 浏览器啦!!!网站:https://xenabrowser.net/datapages/ 理论上也可以完成大部分数据探索的,甚 ...

  • 聊UCSC xena的数据下载问题

    作者:白介素2UCSC xena数据存储中心总览UCSC xena的数据 存储仓库主要包括的数据有以下这些:TCGA hubPan-Cancer Atlas HubICGC hubUCSC Toil ...

  • 转录本定量本来就不是一件容易的事情

    gtf文件大家都了解,基因或者外显子的坐标相对独立,但是转录本很不一样,同一个基因的不同转录本共用外显子,这样的话它们的坐标其实很多都是overlap的,这样,我们的二代测序的100bp或者150bp ...

  • 泛癌全基因数据分析工具推荐:UCSC XENA

    前两天我们介绍了一下刚刚发表的泛癌的全基因组在线数据工具汇总的文章.同时也介绍了一下关于ICGC的使用,在那个文章里面提到了五个在线分析PCAWG的工具,今天就来介绍另外一个:UCSC XENA. 1 ...

  • 如何使用UCSC XENA综合性分析某一个基因在癌症当中的作用

    写在前面 前几天我们介绍了UCSC XENA的基本使用过程.今天我们就基于UCSC XENA来简单的设计一个简单的课题. 之前在介绍ICGC数据库使用的时候,我们可以通过ICGC数据库来进行整个基因组 ...

  • 2021第二期__微信群答疑笔记

    下面是2021第一期生信入门微信群答疑精选200题 有免疫相关基因集下载的地方吗?还是有专门的包解决这个问题 搜索我们生信技能树公众号历史教程,请看:免疫相关基因数量到底是多少个 老师,课前安装的软件 ...

  • TCGA数据下载方式小结

    之前对TCGA做了简单的了解,粗略了解了什么是TCGA,TCGA是做什么的等,接下来肯定是要学会如何下载TCGA数据,毕竟只有下载了数据才能继续学习 官网常规下载 TCGA自2016年改版后,下载方式 ...

  • UCSC xena 浏览器才是最简单的TCGA数据下载途径

    不知道为什么总是有人问我TCGA数据下载这么简单的问题,这问题简单到如何下载人类的hg19.fa这个参考基因组一下,就是http://hgdownload.cse.ucsc.edu/goldenpat ...

  • TCGA数据下载—TCGAbiolinks包参数详解

    TCGA是目前使用最多的肿瘤组学数据库,虽然群主已经录制TCGA系列视频教程: 悄咪咪的上线了TCGA知识图谱视频教程(B站和YouTube直达) 里面也提到了各种下载工具,但是作为学徒的我,学习过后 ...

  • TCGA数据下载与ID转换

    咱公众号也不能只做一个系列,所以经过深思熟虑,打算将来慢慢增加一些内容,主要有以下几个系列 TCGA数据分析系列 GEO数据分析系列 "老板给一个基因,我该怎么办"系列 文献阅读系 ...

  • TCGA的28篇教程- 数据下载就到此为止吧

    长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的R ...

  • TCGA学习01:数据下载与整理

    前言交代 1.学习参考 之前参加了生信技能树花花老师的TCGA数据挖掘试讲课,收获很多,最近整理一下上课笔记,同时参考了老师的简书相关教程.生信入门的朋友也可微信加入生信星球公众号,个人觉得很好的一个 ...

  • 手把手教你用R语言下载TCGA数据:UCSCXenaTools – sci666

    各位朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,之前给大家推出了四个推文,全部是无代码进行数据下载,如果我们想进一步提升自己的水平,那我们从今天开始,开启R语言编程下载TCGA数据教程推 ...

  • TCGAbiolinks下载TCGA数据

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事. TCGAbiolinks数据下载TCGA数据 下载TCGA数据的方法有很多,但比较好用的包我认为就是TCGAbiolinks,T ...

  • TCGAbiolinks数据下载TCGA数据

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事. TCGAbiolinks数据下载TCGA数据 下载TCGA数据的方法有很多,但比较好用的包我认为就是TCGAbiolinks,T ...