从TCGA下载的甲基化数据格式解读
谢京合关注
0.5022020.10.28 17:56:10字数 844阅读 600
我的天,第一次接触甲基化数据,真是令人头大。
那就先从TCGA上下载某一种癌症的甲基化数据开始吧。
1、下载。
数据的下载和RNA数据的下载方式是一样的,只不过你现在需要选择的是“dna methylation”。
其他操作和RNA数据一样:下载gdc_manifest文件,然后用gdc-client进行下载。
download -m gdc_manifest_20201028_063434.txt -d E:/11.甲基化/rawdata
提示:下载起来很慢。如果上百个文件,需要下载好几个小时。
2、数据格式。
下载下来很多个文件夹,每个文件夹里面包含一个txt文件和另外一个文件夹。
我们只需要关注那个txt文件。
这个文件包含有11列,分别为Composite Element,Beta Value,Chromosome,Start,End,Gene Symbol,Gene Type,Transcript ID,Position to TSS,CGI Coordinate,Feature Type。
接下来就对每一列分表表示什么意思进行解读。
Composite Element:A unique ID for the array probe associated with a CpG site,和CpG位点相关的数据探针的唯一ID;
Beta Value:Represents the ratio between the methylated array intensity and total array intensity, falls between 0 (lower levels of methylation) and 1 (higher levels of methylation)——这个是衡量甲基化程度的值,一般情况下大于0.6就是完全甲基化,0.4到0.6之间是部分甲基化,小于0.4是没有甲基化。
Chromosome:The chromosome in which the probe binding site is located——意思是探针结合在染色体的编号。
Start 和 End:The start/end of the CpG site on the chromosome——CpG site 一般的长度为300—3000bp,所以长度一般是在这个范围。
Gene Symbol:The symbol for genes associated with the CpG site. Genes that fall within 1,500 bp upstream of the transcription start site (TSS) to the end of the gene body are used.——和CpG site相关的基因名字。
Gene Type:A general classification for each gene (e.g. protein coding, miRNA, pseudogene)——基因的类型,包括protein coding, miRNA, pseudogene。
Transcript ID:Ensembl transcript IDs for each transcript associated with the genes detailed above——就是和CpG site相关的基因的Ensembl transcript 编号。
这里我刚开始的时候也很懵逼,一个CpG site对应的Gene Symbol只有一个,但是相同的Gene Symbol对应很多个不同的Ensembl transcript ID。因为之前搜索人的基因 都是用Ensembl gene ID是唯一的。所以这里需要注意你所关注的基因的转录本有多少个,你具体关注哪一个。
Position to TSS:Distance in base pairs from the CpG site to each associated transcript's start site(TSS)——就是CpG site到对应基因起始位点的具体,有正负之分。正的表示在基因上游;负的表示在基因内部或者下游。
CGI Coordinate:The start and end coordinates of the CpG island associated with the CpG site——这里要搞清楚CpG island和CpG site的区别。
这里从丁香园摘抄的一些资料仅供参考,也希望研究甲基化的大佬们交流学习:
在基因的末端通常存在一些富含双核苷酸“CG”的区域,称为“CpG岛”(CpG island)。在人类基因组内,存在有近3万个CpG岛;在大多数染色体上,平均每100万碱基含有5~15个CpG岛,其中有1.8万多个CpG岛的GC含量为60%~70%。通常,这些CpG岛不仅是基因的一种标志,而且还参与基因表达的调控和影响染色质的结构。CpG岛是基因组中富含CpG的单拷贝非甲基化基因座,在一些肿瘤基因中具有CpG岛结构,是发生甲基化的区域。我想应该是只有在CpG岛中可以被甲基化的基因座才能被成为是CpG位点吧。
Feature Type:The position of the CpG site in reference to the island: Island, N_Shore or S_Shore (0-2 kb upstream or downstream from CGI), or N_Shelf or S_Shelf (2-4 kbp upstream or downstream from CGI)——自己翻译吧。