EpiDISH-根据甲基化信号值推断样品的细胞成分

2024-05-07 02:46:54

传统的甲基化信号值通常是芯片，比如illumina公司的27K,450K,850K的甲基化芯片，它们检查的通常是细胞混合物，比如绝大部分肿瘤组织样品其实是混合了上皮细胞，基质细胞和免疫细胞。如果我们感兴趣肿瘤组织的纯度，或者说肿瘤的免疫浸润情况，就可以使用同样的反卷积方法来。这个时候EpiDISH包就可以派上用场：

集成3大算法

EpiDISH 包的例子倾向于使用 RPC 方法，全部的3个算法是：

(Robust Partial Correlations-RPC(Teschendorff et al. 2017),
Cibersort-CBS(Newman et al. 2015),
Constrained Projection-CP(Houseman et al. 2012)),

自带4个参考数据集

看 BMC Bioinformatics 发表于2017的文章：《A comparison of reference-based algorithms for correcting cell-type heterogeneity in Epigenome-Wide Association Studies 》，里面有详细介绍这4个参考数据集如何制作的

two whole blood subtypes reference,
one generic epithelial reference with epithelial cells, fibroblasts, and total immune cells,
one reference for breast tissue

可以很容易看到这些参考数据集都被打包好了，data(package = 'EpiDISH')

Data sets in package 'EpiDISH’:

DummyBeta.m Dummy beta value matrix LiuDataSub.m Whole blood example beta value matrix centBloodSub.m Whole blood reference of 188 tsDHS-DMCs and 7 blood cell subtypes centDHSbloodDMC.m Whole blood reference of 333 tsDHS-DMCs and 7 blood cell subtypes centEpiFibFatIC.m Reference for breast tissue centEpiFibIC.m Reference for genenric epithelial tissue

我们首先看看上皮细胞的参考数据集，在EpiDISH 包给命名为 centEpiFibIC.m

library(EpiDISH) data(centEpiFibIC.m) # 可以看到是3个细胞类型的716个甲基化探针 dim(centEpiFibIC.m) head(centEpiFibIC.m) pheatmap::pheatmap(centEpiFibIC.m, show_rownames = F)

可以看到是每个细胞亚群都有自己的特异性甲基化芯片探针：

上皮细胞的参考数据集

感兴趣的可以去看文献，这些探针是如何得到的。

> dim(centEpiFibIC.m) [1] 716 3 > head(centEpiFibIC.m) Epi Fib IC cg16509569 0.97905062 0.97827048 0.006030438 cg05596756 0.97643990 0.98184238 0.006086343 cg11802899 0.97407930 0.97413265 0.006219681 cg02026204 0.96812178 0.97424952 0.005418776 cg16622899 0.01658659 0.01585706 0.984393223 cg24002183 0.02297836 0.02369267 0.975103840

再看看其中一个血液组成评价数据集，centDHSbloodDMC.m

> data(centDHSbloodDMC.m) > dim(centDHSbloodDMC.m) [1] 333 7 > head(centDHSbloodDMC.m) B NK CD4T CD8T Mono Neutro Eosino cg01024458 0.034 0.962 0.969 0.958 0.987 0.992 0.991 cg11661493 0.037 0.954 0.971 0.964 0.958 0.962 0.962 cg21596498 0.060 0.980 0.989 0.989 0.980 0.976 0.984 cg05205074 0.049 0.954 0.967 0.961 0.967 0.979 0.986 cg17232476 0.045 0.962 0.969 0.958 0.932 0.980 0.976 cg14936008 0.065 0.976 0.980 0.983 0.977 0.983 0.986 > pheatmap::pheatmap(centDHSbloodDMC.m,show_rownames = F)

可以看到也是基本上符合认知，NK,CD4,CD8会比较接近，都是T细胞。

血液组成评价数据集

上皮细胞混合物的分解

使用起来非常简单，就是 epidish 函数调用即可，它需要一个甲基化信号值矩阵，如下所示：

data(DummyBeta.m) # 可以看到是10个甲基化样品，每个都是节选了 2000个甲基化探针 dim(DummyBeta.m) DummyBeta.m[1:4,1:4] out.l <- epidish(beta.m = DummyBeta.m, ref.m = centEpiFibIC.m, method = "RPC" ) out.l$estF # 各个样品的各个细胞比例 pheatmap::pheatmap(out.l$estF) rowSums(out.l$estF)

3种细胞比例之和在每个样品都是1，可以看到10个样品各自的细胞组成差异很大：

10个样品各自的细胞组成

免疫细胞混合物的分解

使用起来非常简单，就是 epidish 函数调用即可，它需要一个甲基化信号值矩阵，如下所示：

data(LiuDataSub.m) BloodFrac.m <- epidish(beta.m = LiuDataSub.m, ref.m = centDHSbloodDMC.m, method = "RPC")$estF head(BloodFrac.m) pheatmap::pheatmap(BloodFrac.m) boxplot(BloodFrac.m)

可以看到绝大部分样品都是以 Neutro 为主，占比超80% ，剩余的6种免疫细胞比例含量都很低：

免疫细胞含量分解

高级函数hepidish做两次分解

第一次分解可以把肿瘤样品区分成为上皮细胞，基质细胞和免疫细胞，第二次分解就针对免疫细胞进行细分亚群，使用方法如下：

data(centBloodSub.m) frac.m <- hepidish(beta.m = DummyBeta.m, ref1.m = centEpiFibIC.m, ref2.m = centBloodSub.m[,c(1, 2, 5)], h.CT.idx = 3, method = 'RPC') frac.m boxplot(frac.m)

这个其实挺适合肿瘤免疫微环境的分解，值得试试看！

最高级用法 CellDMC

这个看起来是做Epigenome-Wide Association Studies(EWAS)，有点超纲了，下次再讲解！

甲基化背景知识

甲基化测序的 WGBS和RRBS，还有芯片是最高频的3种甲基化技术，其中甲基化芯片数据处理我是有视频课程的，首先需要阅读我在生信技能树的甲基化系列教程，目录如下：

然后就可以看我在B站免费分享的视频课程《甲基化芯片（450K或者850K）数据处理》

教学视频免费在：https://www.bilibili.com/video/BV177411U7oj
课程配套思维导图：https://mubu.com/doc/1cwlFgcXMg

肿瘤免疫细胞比例推断背景知识

肿瘤微环境是肿瘤细胞生存和发展的土壤，其中浸润到肿瘤局部的免疫细胞介导了肿瘤免疫微环境，tumor immune microenvironment, 简称TIME。肿瘤的免疫疗法作用于免疫微环境，肿瘤免疫微环境的异质性与免疫疗法的不同响应率必然存在这密切的关系，免疫微环境有望作为一种biomaker来指导临床治疗，筛选能够从免疫疗法中获益的肿瘤患者群体。

研究肿瘤免疫微环境组成的技术手段有很多，基于测序技术和生物信息学分析的方法是目前较为流程的一种策略。通过转录组测序，可以获得肿瘤样本中不同基因的表达量数据，通过对应的生物信息学软件，可以得到肿瘤免疫微环境中各种细胞的表达量，从而对肿瘤微环境进行分型，识别浸润的免疫细胞亚群，比较不同亚群的表达情况，结合生存分析，进一步筛选某种微环境亚型或者免疫细胞亚群作为biomarker。

基于转录组的算法策略

基于基因表达谱数据，分析肿瘤免疫微环境组分的软件有很多，大致分成了以下3种策略

1. marker gene

将不同免疫细胞对应的marker genes作为基因集合, 采用类似GSEA的算法来评估样本中高表达的基因在不同免疫细胞的基因集合中是否富集,该策略对应的软件如下

TIminer
xCell
MCP-counter

2. 反卷积

卷积和反卷积是深度学习中常见的算法，将每个样本看做是多种免疫细胞的混合，采用线性回归拟合出每种免疫细胞的组分和表达量与最终混合后的关系，通过反卷积算法，提取每种免疫细胞的表达特征,该策略对应的软件如下

CIBERSORT
TIMER
EPIC
quanTIseq

3. NMF非负矩阵分解

类似突变特征分析，NMF算法也可以用于从基因表达谱中提取免疫细胞表达谱特征，该策略对应的软件如下

deconf
ssKL
ssFrobenius

参考文献：

1. Hackl H, Charoentong P, Finotello F, et al. Computational genomics tools for dissecting tumour-immune cell interactions. Nat Rev Genet 2016;17:441-58.

2. Finotello, Francesca, and Zlatko Trajanoski. Quantifying Tumor-Infiltrating Immune Cells from Transcriptomics Data. Cancer Immunology, Immunotherapy: CII 67, no. 7 (2018): 1031–40.

15+分的纯生信：胃癌m6A和肿瘤免疫微环境

虽然MC目前2018年的IF是10.679,但是我们之所以说是15+分呢,是因为MC在6月就要公布在2019年的影响因子是15.96分,说不定还能在这段时间努努力,突破到16分! (图片来源:桑格助手 ...
免疫治疗如何杀死肿瘤细胞？

了解更多癌症科普知识,请点击上方蓝字关注「拯救肝癌」公众号专家视频疾病科普,解答你的每一份疑惑~
纯生信10分，m6A甲基化修饰与肿瘤微环境

m 6 A regulator-mediated methylation modification patterns and tumor microenvironment infiltration c ...
Cell Metabolism | 氨基酸如何支持免疫（下）

氨基酸支持核酸和蛋白质修饰氨基酸为甲基化提供甲基.蛋氨酸除了对硫代谢具有重要作用外,还为蛋白质和核苷酸的甲基化提供甲基来调节它们的功能(图2和3).组蛋白和DNA甲基化可以通过改变DNA对转录复合物 ...
5+分新思路：公开数据库+简单实验验证！

Prognostic and predictive value of PD-L2 DNA methylation and mRNA expression in melanoma PD-L2甲基化和m ...
一文带你学会如何通过多维度的分析来论证同一个假设

Multi-dimensional omics characterization in glioblastoma identifies the purity-associated pattern an ...
乳腺癌中肿瘤相关成纤维细胞：表观遗传调节与治疗干预策略

肿瘤相关成纤维细胞(cancer-associated fibroblasts,CAFs)是肿瘤微环境中最主要的成分之一,在肿瘤的发生发展中发挥着必不可少的作用.肿瘤相关成纤维细胞由于不同的起源而具有 ...
如果想发4+分但是分析想要简单点，你要这样补实验！

大家好,今天和大家分享的是2020年1月发表在Frontiers in Oncology(IF:4.848)上的一篇文章,"UBASH3B Is a Novel Prognostic Bio ...
甲基化信号值的差异分析也许不应该是看logFC

甲基化的一些基础知识甲基化芯片的一般分析流程有意思的是,甲基化分析其实和普通的mRNA表达矩阵分析有很多概念问题是无法迁移的,包括质量控制,WGCNA分析,哪怕是简单的差异分析都有区别. 标准差异 ...
甲基化信号值矩阵差异分析主要图表

差异分析永远是最平易近人的策略,我们前面整理的各种系列教程,miRNA的,lncRNA的,mRNA芯片或者测序,circRNA系列的,都会得到表达矩阵,然后走差异分析.只不过是不同统计学分布的表达矩阵 ...
甲基化信号值矩阵差异分析哪家强

前面我们介绍了一些背景知识,主要是理解什么是DNA甲基化,为什么要检测它,以及芯片和测序两个方向的DNA甲基化检测技术.具体介绍在:甲基化的一些基础知识,也了解了甲基化芯片的一般分析流程 . 但是我留 ...
根据甲基化探针信号值把样本分成CIMP组

看到文章 PLoS Genet. 2016 ,提到了 CpG island methylator phenotype (CIMP) subtype 分组的细节 Methylation datasets ...
850K甲基化芯片的TSS附近信号值曲线绘制

本来呢,这应该是一个教程,但最近是过年休假期间,我也不能无限制的回答粉丝提问,所以借<生信技能树>的便利给他发一个有偿求图的的宣传: 很可惜,我没有现成代码,所以无法"举手之劳& ...
BRCA的甲基化信号分型（逆向收费读文献2019-11）赠送一篇文章思路

栏目起源逆向收费读文献社群 (2018-01-07) 逆向收费读文献社群 (2018-06-09) 逆向收费读文献社群(第二年通知)(2019-01-26) 大概有50人加入吧,成功坚持下来的朋友们 ...
使用DSS包多种方式检验差异甲基化信号区域

因为一个有趣的原因,我们来一起学一个R包吧一个背景哺乳动物基因组CpG位点通常集中在称为CpG岛(CpG island,CGI)的区域中,并且已知人基因启动子~60%含有CpG岛.CpG岛上下游不 ...
PH值不变化或变化太大？这些信号你看懂了吗？

作者:肖建春肖健聪我们许多技术员在服务于养殖户时,都会用到测水,其中有一项指标就是酸碱度,对于这个酸碱度,总是认为在某一范围内,比如7.5至8.5之间就认为是正常的,当超过这一范围,就是认为不好. ...
样品空白值偏高，可能是这些原因

当空白试验值偏高时,影响因素有很多,例如:试验用水.试剂.量器和容器的沾污.测量仪器的性能及试验环境的状态等,需要具体案例具体分析. 空白试验测得的结果称为空白试验值.在进行样品分析时所得的值减去空白 ...