TCGA数据分析系列(一)
肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件。
TCGA中数据类型主要有以下几种
mRNA:mRNA芯片或者RNA-Seq测得的mRNA表达量
microRNA:microRNA芯片或者microRNA-Seq测得的microRNA表达量
Clinical:病人的一般情况、诊治情况、生存情况、肿瘤分期等随访信息
Copy Number:SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值
Mutation:肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化
Protein:蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量
Methylation:甲基化芯片测得的DNA甲基化数据
TCGA的样本命名
Project:所有TCGA样本名均以这个开头
TSS: Tissue source site,组织来源编码
详见组织来源编码Participant:参与者编号
Sample:其中编号01~09表示肿瘤,10~19表示正常对照,最常见的是01和11
Vial:在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; B表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用B的样本数据
Portion:同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用
Analyte:分析的分子类型,对应关系如下所示
Plate:在一系列96孔板中的顺序,值大表示制板越晚
Center:测序或鉴定中心编码
TCGA数据下载方式
TCGA下载方式有很多种,主要包括
R语言下载
官网下载
在线数据库下载
小工具下载
以后我们会逐个介绍
TCGA在线分析数据库
TCGA在线分析数据库有已经很多,以后我们会选择既重要又好用的工具来学习
下回见。