TCGA的28篇教程-所以癌症的突变全景图
长期更新列表:
使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)TCGA的28篇教程- 数据下载就到此为止吧TCGA的28篇教程- 指定癌症查看感兴趣基因的表达量TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析TCGA的28篇教程-整理GDC下载的xml格式的临床资料
TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
TCGA的28篇教程-数据挖掘三板斧之ceRNA
通过前面的讲解我们都学会了如何下载TCGA数据库的各种数据,而且有心人都发现了下载途径多种多样,下载数据只是分析的起点,现在我们就讲解其中一个小应用哦。
数据来源于生信技能树前面讲解的TCGA的XENA
网盘链接: https://share.weiyun.com/56URQ3a
MAF格式的突变数据的全景图
有了MAF格式的突变数据,比如TCGA里面的乳腺癌的1000个左右的样本的突变信息,就很容易走maftool这个包,进行绘图,代码如下:
require(maftools)
options(stringsAsFactors = F)
laml = read.maf(maf = 'GDC/TCGA.BRCA.mutect.c6a029e5-0ea3-410d-9e67-360bdfee2914.DR-7.0.somatic.maf.gz',
clinicalData = 'TCGA_BRCA_filter_phe.tsv')
oncoplot(maf = laml, top = 30, fontSize = 12,
clinicalFeatures =c('ER','PR','HER2'),
sortByAnnotation = T)
就可以出图如下:
是不是觉得很神奇,简单几行代码就出了这么复杂的图!!!
代码里面的 somatic.maf.gz 文件直接下载即可。
但是TCGA_BRCA_filter_phe.tsv 这个文件需要自己根据TCGA里面对样本的描述的表型信息进行整理。
整理如下格式:
普通的人,用excel表格整理就好了。
会R的可以尝试R代码哦!
如果你不会整理,可以查看我们前面的教程:TCGA的28篇教程-整理GDC下载的xml格式的临床资料
自己的肿瘤外显子数据分析流程
当然,如果你是自己的测序数据,想得到跟TCGA的一样的突变数据,也可以根据下面的教程慢慢分析。
生信技能树GATK4系列教程
然后是 CNV相关工具
还有vcf和maf的工具:
值得一提的是,教程虽然放在这里了,事实上你真正拿到数据实践的时候会遇到各种问题的,这就是目前主流的生信工程师的意义所在。
而且,maftools本身一个集成了很多肿瘤外显子下游分析的工具包,不仅仅是画全景图,希望你喜欢。
突变更重要的是分组
这么简单粗暴的查看某个癌症全部样本的突变全景图已经意义不大,毕竟本来就是公开的数据了,我们要想利用这些信息,必须结合自己的实际生物学问题。
比如你们可以看我GitHub里面的这3个代码,就是利用突变信息的一个非常棒的例子:
https://github.com/jmzeng1314/tcga_example