从TCGA下载的甲基化数据格式解读

谢京合关注

0.5022020.10.28 17:56:10字数 844阅读 600

我的天,第一次接触甲基化数据,真是令人头大。
那就先从TCGA上下载某一种癌症的甲基化数据开始吧。
1、下载。
数据的下载和RNA数据的下载方式是一样的,只不过你现在需要选择的是“dna methylation”。
其他操作和RNA数据一样:下载gdc_manifest文件,然后用gdc-client进行下载。

download -m gdc_manifest_20201028_063434.txt -d E:/11.甲基化/rawdata

提示:下载起来很慢。如果上百个文件,需要下载好几个小时。

2、数据格式。
下载下来很多个文件夹,每个文件夹里面包含一个txt文件和另外一个文件夹。
我们只需要关注那个txt文件。
这个文件包含有11列,分别为Composite Element,Beta Value,Chromosome,Start,End,Gene Symbol,Gene Type,Transcript ID,Position to TSS,CGI Coordinate,Feature Type。
接下来就对每一列分表表示什么意思进行解读。

Composite Element:A unique ID for the array probe associated with a CpG site,和CpG位点相关的数据探针的唯一ID;

Beta Value:Represents the ratio between the methylated array intensity and total array intensity, falls between 0 (lower levels of methylation) and 1 (higher levels of methylation)——这个是衡量甲基化程度的值,一般情况下大于0.6就是完全甲基化,0.4到0.6之间是部分甲基化,小于0.4是没有甲基化。

Chromosome:The chromosome in which the probe binding site is located——意思是探针结合在染色体的编号。

Start 和 End:The start/end of the CpG site on the chromosome——CpG site 一般的长度为300—3000bp,所以长度一般是在这个范围。

Gene Symbol:The symbol for genes associated with the CpG site. Genes that fall within 1,500 bp upstream of the transcription start site (TSS) to the end of the gene body are used.——和CpG site相关的基因名字。
Gene Type:A general classification for each gene (e.g. protein coding, miRNA, pseudogene)——基因的类型,包括protein coding, miRNA, pseudogene。

Transcript ID:Ensembl transcript IDs for each transcript associated with the genes detailed above——就是和CpG site相关的基因的Ensembl transcript 编号。

这里我刚开始的时候也很懵逼,一个CpG site对应的Gene Symbol只有一个,但是相同的Gene Symbol对应很多个不同的Ensembl transcript ID。因为之前搜索人的基因 都是用Ensembl gene ID是唯一的。所以这里需要注意你所关注的基因的转录本有多少个,你具体关注哪一个。

Position to TSS:Distance in base pairs from the CpG site to each associated transcript's start site(TSS)——就是CpG site到对应基因起始位点的具体,有正负之分。正的表示在基因上游;负的表示在基因内部或者下游。

CGI Coordinate:The start and end coordinates of the CpG island associated with the CpG site——这里要搞清楚CpG island和CpG site的区别。

这里从丁香园摘抄的一些资料仅供参考,也希望研究甲基化的大佬们交流学习:

在基因的末端通常存在一些富含双核苷酸“CG”的区域,称为“CpG岛”(CpG island)。在人类基因组内,存在有近3万个CpG岛;在大多数染色体上,平均每100万碱基含有5~15个CpG岛,其中有1.8万多个CpG岛的GC含量为60%~70%。通常,这些CpG岛不仅是基因的一种标志,而且还参与基因表达的调控和影响染色质的结构。CpG岛是基因组中富含CpG的单拷贝非甲基化基因座,在一些肿瘤基因中具有CpG岛结构,是发生甲基化的区域。我想应该是只有在CpG岛中可以被甲基化的基因座才能被成为是CpG位点吧。

Feature Type:The position of the CpG site in reference to the island: Island, N_Shore or S_Shore (0-2 kb upstream or downstream from CGI), or N_Shelf or S_Shelf (2-4 kbp upstream or downstream from CGI)——自己翻译吧。

(0)

相关推荐

  • 甲基化套路

    和甲基化有关的. 可以先了解下甲基化: 450k甲基化基础 450K甲基化芯片数据处理传送门 450k甲基化芯片常用工具包:ChAMP和minfi等. 甲基化的一些预备知识 甲基化程度的量化 imag ...

  • 识别癌症甲基化驱动基因

    MethylMix: an R package for identifying DNA methylation-driven genes. 本文参考:识别甲基化驱动的癌症基因 GetData函数,怎么 ...

  • 学一学DNA甲基化芯片分析流程

    今天是生信星球陪你的第778天 大神一句话,菜鸟跑半年.我不是大神,但我可以缩短你走弯路的半年~ 就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~ 这里有豆豆和花花的学习历程,从新手 ...

  • 为何要劳民伤财做同样的数据

    文章<BRCA1 Promoter Methylation Status in 1031 Primary Breast Cancers Predicts Favorable Outcomes F ...

  • TCGA数据库的各个癌症甲基化芯片数据重新分析

    我这里先列出学徒作业,大家需求下载头颈癌里面的口腔癌的甲基化芯片信号值矩阵,然后挑选有N-T配对的32个病人的数据进行差异分析,就走我们介绍的champ流程即可! 理论上你掌握了这个分析策略,换成任何 ...

  • 不同的DNA甲基化有助于茶树中的重复基因进化和冷响应

    Divergent DNA methylation contributes to duplicated gene evolution and chilling response in tea plan ...

  • MethSurv:TCGA甲基化分析工具

    导语 DNA甲基化是当前研究最多的表观遗传修饰,对于促进胚胎发育,基因组印记和X染色体失活等重要生物过程至关重要.在甲基化研究的技术手段中,HM450K芯片在癌症甲基化组数据集中占主导地位.TCGA数 ...

  • 甲基化信号值矩阵差异分析哪家强

    前面我们介绍了一些背景知识,主要是理解什么是DNA甲基化,为什么要检测它,以及芯片和测序两个方向的DNA甲基化检测技术.具体介绍在:甲基化的一些基础知识,也了解了甲基化芯片的一般分析流程 . 但是我留 ...

  • 转录组高级分析之融合基因

    一般来说,数据分析的任何一个点都会有成百上千个实验室在为之努力,比如比对,定量,可变剪切,融合基因这些步骤,那么同时也会有很多工具测评的文章,比如针对融合基因的随便搜一下,就可以发现下面两个: 201 ...

  • 第41周生信文献分享:肝癌复发的CpG甲基化信号特征

    发表于2017年,杂志是 JOURNAL OF CLINICAL ONCOLOGY 影响因子26.303 , 文章是 CpG Methylation Signature Predicts Recurr ...

  • 根据甲基化探针信号值把样本分成CIMP组

    看到文章 PLoS Genet. 2016 ,提到了 CpG island methylator phenotype (CIMP) subtype 分组的细节 Methylation datasets ...

  • MethyCancer:癌症相关甲基化基因数据库

    导语 癌症被列为所有人类疾病中最致命的杀手之一.研究表观遗传修饰的改变模式,最重要的是是弄清DNA甲基化事件如何调节癌基因激活,肿瘤抑制基因沉默和染色体不稳定性,在肿瘤发生中起关键作用. 人类DNA甲 ...

  • BRCA的甲基化信号分型(逆向收费读文献2019-11)赠送一篇文章思路

    栏目起源 逆向收费读文献社群 (2018-01-07) 逆向收费读文献社群 (2018-06-09) 逆向收费读文献社群(第二年通知)(2019-01-26) 大概有50人加入吧,成功坚持下来的朋友们 ...

  • 使用MethylMix包识别甲基化驱动的癌症基因

    真正做生信工具(R包,软件,网页)的很少,但是需要用工具的却超级多,比如:GEPIA2详解(中国智造-肿瘤数据库),主要是看表达量和生存,引用就是(1659+130),再比如GDCRNATools这个 ...