基于DNA甲基化的分子亚型构建发5+分
Molecular subtypes based on DNA methylation predict prognosis in colon adenocarcinoma patients基于DNA甲基化的分子亚型预测结肠癌患者预后
一. 文章背景
本文研究的疾病是结肠腺癌(Colon Adenocarcinoma,COAD),分析的数据是TCGA-COAD队列的甲基化芯片数据,RNA-seq数据以及临床数据。作者想要通过对COAD组织甲基化芯片的分析,根据样本的甲基化水平将其区分为不同的分子亚型;并且基于COAD患者癌组织甲基化水平建立预后预测模型,以改善对COAD预后的评估。
二. 文章思路
三. 结果解析
1. 在训练集中识别与COAD患者预后相关的CpG位点
作者将下载的TCGA-COAD队列甲基化数据(27K,450K两种芯片)经过滤,质控处理后得到共424个COAD样本(癌组织样本,患者都有超过30天的随访数据)的22830个甲基化位点信息用于后续分析。以450K芯片中的样本为训练集。针对所有CpG位点进行单因素COX回归分析(变量还包括TMN分期,年龄,stage,性别),得到864个显著影响COAD患者OS水平的CpG位点。之后对这864个CpG位点进行多因素COX回归分析(变量还包括TMN分期,年龄,stage),识别出356个独立的与COAD患者预后相关的CpG位点。
2. 一致性聚类识别基于DNA甲基化的COAD分子亚型
以训练集样本356个潜在的COAD预后相关CpG位点数据为输入,用concensus clustering包进行一致性聚类。图1为确定聚类个数的筛选过程:
A:CDF图,为K取不同值时的累积分布函数图,用于判断K取何值时CDF到达一个近似最大值。考虑CDF下降坡度小的K值
B:Delta Area Plot,展示K和K-1相比,CDF曲线下面积的相对变化(除K=2外)。此处K=5之后,CDF面积仅小幅增长。
C:不同聚类数目下,聚类一致性得分平均值(红)和变异系数(蓝)的变化
图1.筛选一致性聚类的聚类数
为确保识别的COAD患者的分子亚型足够多,作者最后决定取K=7。
A:一致性矩阵热图,训练集中271名COAD患者被分为7种分子亚型
B:7种分子亚型对应样本的预后相关CpG位点信号值热图
图2. 一致性矩阵以及对应样本CpG位点信号值热图
3. 分析7种分子亚型的预后价值以及在临床特征上的差异
A:对7种分子亚型进行Kaplan-Meier生存分析,存在显著差异(p<0.05)。其中聚类3,4中患者的预后最好,而聚类7中患者的预后最差
B-E:用棘状图展示了7种分子亚型的患者在临床stage,TNM分期上的差异
F:箱线图展示了7种分子亚型的患者在年龄上的差异
图3.分析不同分子亚型在预后以及临床特征上的差异
4. 注释预后相关CpG位点并基因功能富集分析
对上文356个与预后相关的CpG位点进行基因组注释,共对应到了415个基因的启动子区域。
A:对415个基因进行功能富集分析,有18个显著富集的通路
B:作者用Cytoscape中的Enrichment Map插件去分析这18个通路的相关作用关系
C:训练集样本中376个基因(不是所有基因都有表达量)的表达量热图。可以看到不同亚型的样本中,这些基因的表达模式不同,说明DNA甲基化水平可以一定程度反映这些基因的表达量
图4. 对CpG位点对应的基因的分析
5. 识别亚型特异的CpG位点
A:在7个分子亚型的样本间对356个CpG位点进行差异分析,识别出36个分子亚型特异的CpG位点。其中亚型4有最多的特异CpG位点(18个),与其它亚型相比都处于低甲基化状态(图中红色圈出)
箱线图:7种亚型的样本的CpG甲基化水平(经过Z标准化),亚型4的甲基化水平最低
B:对A图中36个CpG位点注释的基因进行功能富集分析,它们显著富集在14条通路当中。但这些通路只富集在亚型2,4,7中,且不同亚型富集的通路不一样,说明不同亚型有自己的基因表达特征和通路特征
图5. 分析亚型特异的CpG位点
6. 建立并评估COAD患者的预后预测模型
作者对亚型4中的特异CpG位点进行后续分析,因为其样本量最大并且有最多的特异CpG位点。它的18个特异CpG位点都为低甲基化的。作者提取了训练集所有样本中这18个CpG位点的信号数据,据此重新进行层次聚类,分为了高低甲基化组。之后对高低甲基化组进行生存分析。
A:训练集中所有样本的18个特异CpG位点的信号值热图。可以看到横坐标样本被聚成了2类,红色为高甲基化组,青色为低甲基化组
B:高低甲基化组进行生存分析结果,高甲基化组有着更差的预后
高甲基化组更差的预后说明这些特异的CpG位点可能作为预后标志
图6. 18个特异CpG位点可能作为COAD的预后标志
在确定这18个特异甲基化位点有预后价值后,作者进一步根据它们在训练集中构建COX比例风险模型,得到Risck Score的公式,并计算每个样本的风险得分。
A:以风险得分预测样本的预后水平的ROC曲线,曲线下的面积AUC=0.81,预测效果较好
B:检验样本的甲基化水平是否随风险得分改变而改变。横坐标是样本,根据风险得分由小到大排列。纵坐标分别是风险得分(上),病人总生存时间(中),甲基化位点(下)。看到热图中样本的平均甲基化值随着样本的风险得分增大而增大(红色圈出)
C:以风险得分=1.336303为截取值(由ROC曲线得到的最优临界点),将训练集样本分为高低风险组,进行生存分析。高风险组有着更差的预后水平,而高低风险组又与高低甲基化水平相关
图7. 构建COX比例风险模型
为进一步检验COX比例风险模型预测病人预后的能力,作者在测试集(27K芯片样本,n=151)中进行预测
A:测试集中样本根据计算得到的风险得分有小到大排列,并根据上文的截取值分为高低风险组(红色低风险组,蓝色高风险组)。这里给出测试集中样本在18个特异CpG位点上的信号值的热图。可以看出样本的风险得分随特异CpG位点上的信号值增高而增高
B:对测试集中的高低风险组进行生存分析,高风险组有着更差的预后
结果说明作者根据COAD患者18个特异甲基化位点构建的COX比例风险模型在预测COAD患者预后水平上有一定临床意义
图8. 在测试集中检验COX比例风险模型
小结
今天的文献分享到这里就结束了,本文基于TCGA-COAD患者的甲基化数据进行生信分析,先对样本以及两个甲基化芯片中CpG位点严格过滤,再在训练集中通过单/多因素COX回归找到与预后相关的甲基化位点,并对其对应的基因进行功能,表达量上的分析。下一步,为了分亚型,以这些甲基化位点为输入进行一致性聚类,结果分为7类并分析了类间在预后以及临床特征上的差异。为构建预后模型,作者先分析亚型特异的CpG位点,根据亚型4中18个特异CpG位点为输入,再聚类为高低甲基化组,生存分析确定有预后价值。再以其为输入构建COX比例风险模型,在训练集和验证集中评估预测能力。