甲基化相关的习题背景补充
最近我在《生信技能树》安排了两个甲基化相关的学徒作业:
有学徒表示虽然看了我在B站免费分享的视频课程《甲基化芯片(450K或者850K)数据处理 》,详见:免费视频课程《甲基化芯片数据分析》,但是课程过于强调实操,很多背景知识大家比较缺乏,所以学徒自告奋勇补充了一些甲基化基础知识,供大家学习!
DNA甲基化
定义:DNA甲基化(DNA methylation)是研究得最清楚、 也是最重要的表观遗传修饰形式,主要是基因组 DNA上的胞嘧啶第5位碳原子和甲基间的共价结合,胞嘧啶由此被修饰为5甲基胞嘧啶(5-methylcytosine,5mC) 哺乳动物基因组中5mC占胞嘧啶总量的2%-7%,约70%的5mC存在于CpG二连核苷 在结构基因的5’端调控区域, CpG二连核苷常常以成簇串联形式排列,这种富含CpG二连核苷的区域称为CpG岛(CpG islands),其大小为500-1000bp,约56%的编码基因含该结构 影响:基因调控元件(如启动子)所含CpG岛中的5mC会阻碍转录因子复合体与DNA的结合 DNA甲基化一般与基因沉默相关联 非甲基化一般与基因的活化相关联 而去甲基化往往与一个沉默基因的重新激活相关联
DNA甲基化状态的遗传和保持:
DNA复制后,新合成链在DNMT1的作用下,以旧链为模板进行甲基化。(缺乏严格的精确性,95%)
甲基化并非基因沉默的原因而是基因沉默的结果,其以某种机制识别沉默基因,后进行甲基化
DNA全新甲基化引发因素可能包括:
DNA本身的序列、成分和次级结构 RNA根据序列同源性可能靶定的区域 特定染色质蛋白、组蛋白修饰或相当有序的染色质结构
DNA去甲基化:
主动去甲基化: -
复制相关的去甲基化:
全新甲基化|甲基化状态保持|去甲基化:
DNA甲基化的分布:
转座子 逆转录病毒衍生的重复序列 大多数功能基因的编码区
Roles of DNA methylation:
甲基化芯片
甲基化芯⽚主要是450K和850K,都是采⽤了两种探针Infinium Ⅰ 和Infinium Ⅱ对甲基化 进⾏测定;
Infinium I采⽤了两种bead(甲基化M和⾮甲基化U)
II只有⼀种bead(即甲基化和⾮甲基化在⼀起)
这也导致了它们在后续荧光探测的不同,450K采⽤了两种荧光探测信号(红光和绿光)。
850k
编码区域与增强子区域范围广泛覆盖的唯一组合
每份样本分析超过850,000个甲基化位点,可达单核苷酸分辨率
● 实验分析方法可重现性高
技术平行重复性>98%
● 简单的工作流程
PCR-free(无需聚合酶链式反应)的操作,结合强大的Infinium HD Assay实验分析方法
● 与福尔马林固定、石蜡包埋样本兼容
可提供适用于福尔马林固定、石蜡包埋样本的甲基化研究实验方案
Infinium MethylationEPIC BeadChip芯片基于业界领先的Infinium HumanMethylation450 BeadChip芯片的基础上开发,包含原有90%以上的CpG,外加新增的350,000个位于增强子区域的CpG。该实验分析方法能够在单个CpG位点的水平上提供定量甲基化测量,可适用于正常及福尔马林固定、石蜡包埋(FFPE)样本,为深入了解表观遗传变化提供了强大的检测分辨率。
表达谱芯片 | 甲基化芯片 |
---|---|
.cel | .idat |
基因表达矩阵 | 甲基化信号矩阵 |
下载甲基化芯片的两种方式
下载原始idat原始文件:
library(GEOquery)
getGEOSuppFiles("GSE68777") #或者自己上官网下载untar("GSE68777/GSE68777_RAW.tar", exdir = "GSE68777/idat") # minfi ⽆法读取压缩的idat⽂件,所以需要解压
head(list.files("GSE68777/idat", pattern = "idat"))
idatFiles <- list.files("GSE68777/idat", pattern = "idat.gz$", full = TRUE)
rgSet <- read.metharray.exp("GSE68777/idat")
rgSet
save(rgSet,file = 'GSE68777_minfi_rgSet.Rdata')
下载甲基化信号值矩阵:
require(GEOquery)
require(Biobase)
GSE80559 <- getGEO("GSE80559")
beta.m <- exprs(GSE80559[[1]])
甲基化信号值矩阵3个层次的差异分析
DMP:DMP代表找出Differential Methylation Probe(差异化CpG位点) DMR:DMR代表找出Differential Methylation Region(差异化CpG区域) DMB:Block代表Differential Methylation Block(更⼤范围的差异化region区域)
专有名词 | 概念 |
---|---|
beta | One single beta matrix to do filtering. (default = myImport$beta). |
M | One single M matrix to do filtering. (default = NULL). |
pd | pd file related to this beta matrix, suggest provided, because maybe filtering would be on pd file. (default = myImport$pd) |
intensity | intensity matrix. (default = NULL). |
Meth | Methylated matrix. (default = NULL). |
UnMeth | UnMethylated matrix. (default = NULL). |
detP | Detected P value matrix for corresponding beta matrix, it MUST be 100% corresponding, which can be ignored if you don't have.(default = NULL) |
beadcount | Beadcount information for Green and Red Channal, need for filterBeads.(default = NULL) |
Beta和M值的差别
M-values具有更好的统计特性,更适合用于进行下游的统计分析(差异分析等) Beta-values更加容易解释,更能说明生物学上的意义
β值的具体意义
任何等于或大于0.6的β值都被认为是完全甲基化的 任何等于或小于0.2的β值被认为是完全未甲基化的 β值在0.2和0.6之间被认为是部分甲基化的
其它学徒作业目录如下:
生信编程直播课程优秀学员作业展示1 生信编程直播课程优秀学员学习心得及作业展示3 生信编程直播课程优秀学员作业展示2 给学徒的GEO作业 这个WGCNA作业终于有学徒完成了! 上次说的gmt函数(学徒作业) 拖后腿学徒居然也完成作业,理解RNA-seq数据分析结果 肿瘤外显子视频课程小作业 ChIPseq视频课程小作业 Agilent芯片表达矩阵处理(学徒作业) 学徒作业:TCGA数据库单基因gsea之COAD-READ 学徒作业-在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵 学徒作业-指定基因在指定组织里面的表达量热图 学徒作业-我想看为什么这几个基因的表达量相关性非常高 学徒作业:给你8个甲基化探针, 你在tcga数据库进行任意探索 学徒作业-根据我的甲基化视频教程来完成2015-NPC-methy-GSE52068研究 RNA芯片和测序技术的比较(学徒作业) 学徒作业-单基因的tcga数据挖掘分析 ATCC终于出来了organoids资源 拿到7个DDR通路的基因集-学徒作业 绘图本身很简单但是获取数据很难 都说lncRNA只有部分具有polyA尾结构,请证明 学徒作业-hisat2+stringtie+ballgown流程 学徒任务-探索DNA甲基化的组织特异性 用WES和RNA-Seq数据提取到的somatic SNVs不一致 《GEO数据挖掘课程》配套练习题