准考证号,身份证号码,TCGA样本条形码的区别
TCGA教程足够多了,有学员不理解TCGA样本编号问题,所以一个简单的比喻来阐述一下。
准考证号
这个大家从小就接触过,这里以四六级准考证号码解析为例,四六级准考证号一共由15位组成(如下图)
提醒:这种方法仅供参考,可能会有误差。最好是找到当时跟自己一个考场的同学,问问他们的准考证号,再结合自己的信息进行推算,这样成功的机率比较大哦~
是不是瞬间就理解了?
再看看身份证号码
早期'身份证号码’叫'社会保障号’,为15位,1999年开始更名为公民身份证号码,即第二代身份证,为18位,且终身不变。
公民身份号码是特征组合码,由前十七位数字本体码和最后一位数字校验码组成。排列顺序从左至右依次为六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。
最后看我们需要记忆的TCGA编码
接触和分析过TCGA数据的朋友肯定会经常处理TCGA barcode的前15位(有时12位),实际从上图可以看出TCGA的barcode设计总共有28位之多。每一个短横杠衔接的都是含不同意义的序列,如下所示:
具体每一个字段介绍自己看官网
参考:https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/
将barcode的组成从层次结构(树)来看,是这样的:
数据类型非常多
不同的数据之间需要关联,同一个病人有多种数据,甚至一种数据也有多个,比如转录组数据某病人就有癌症和癌旁,都需要用ID来进行关联和区分。
写在最后
因为这个学员问题比较简单,没有资格列入我的TCGA 28篇教程,所以大家就随意看看哈!
TCGA的28篇教程-使用R语言的cgdsr包获取TCGA数据(cBioPortal)
TCGA的28篇教程-使用R语言的RTCGA包获取TCGA数据 (离线打包版本)
TCGA的28篇教程-使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)
TCGA的28篇教程-批量下载TCGA所有数据 ( UCSC的 XENA)