仅用公开数据集发4+分纯生信数据挖掘

Computational Detection of Breast Cancer Invasiveness with DNA Methylation Biomarkers用DNA甲基化生物标志计算检测乳腺癌侵袭性

一、文章背景

乳腺癌是最常见的女性恶性肿瘤,有多种分子亚型。乳房X线可以早期诊断出非侵袭性乳腺癌,但40%的乳腺癌会发生转移,是导致高死亡率的主要原因。目前转移性乳腺癌的治疗方法十分有限。肿瘤的发生和转移并不是随机发生的,在一定程度上可以预测,比如乳腺癌主要转移至骨髓和肺,因此预测工具对指导临床诊断和治疗方案的选择十分重要。

癌症特异性DNA甲基化改变与许多恶性肿瘤密切相关,原发性和转移性癌症基因组损伤的研究表明,一些特异性DNA甲基化改变会导致肿瘤转移和侵袭。本篇文章中,作者用转移淋巴结的DNA甲基化数据研究乳腺癌的侵袭性。为了克服数据和转移性样本不足的问题,作者用一种基于DNA甲基化标志的新方法鉴定样本,并构建了一个识别侵袭性乳腺癌的分类器。

二、分析流程

GSE58999:44对原发性乳腺癌和区域转移样本

GSE66695:80个原发性乳腺癌样本和40个正常样本

TCGA:766个原发性乳腺癌样本和97个正常样本

作者用393806个探针计算了数据集中任意两个匹配样本间的欧几里得距离,用四分法移除了距离过大的异常样本对,从GSE58999获得了40对侵袭性原发性乳腺癌和淋巴结转移样本。同样方法计算GSE66695样本的距离,作者认为乳腺癌样本和淋巴结转移样本间距离越大,样本为非侵袭性乳腺癌的可能性越大。因此,如果一个样本与40个转移淋巴结间的最小距离比匹配样本间的最大距离大10个单位,就把样本定义为非侵袭性。最后,作者一共得到20例非侵袭性样本,和40例侵袭性样本以及40例正常样本组成训练集。

三、结果解读

1.筛选特征

作者首先用Robust EB和SAM进行差异甲基化分析(logFC≥1.5,p-value<0.01)。肿瘤-正常匹配组织中Robust EB识别到8653个CpG差异位点,SAM识别到14096个差异CpG位点。侵袭性-非侵袭性组中Robust EB识别到11808个CpG差异位点,SAM识别到7329个CpG差异位点。为了进一步降低FDR,作者又筛选了Robust EB和SAM的重合位点,两组中分别得到7888和6461个差异甲基化位点。

Robust EB用每个CpG位点的log表达值拟合线性模型,计算moderated t-statistic,moderated F-statistic以及差异甲基化的log-odds,通过执行robust hyperparameter estimation筛选差异甲基化位点。(limma包)

SAM在每个位点设置一个d-statistic,用一个结果变量如转移使这些位点相关,并基于d-statistic降序排列CpG位点

在肿瘤的发生发展中,很多甲基化位点在全基因组范围的改变是一连续的过程,从而产生许多冗余特征。因此,作者接下来用4种降维方法(MRMD,mRMR,PCA和FA)筛选特征构建分类器,表1展示了4种方法筛选的CpG位点数目。

表1.CpC位点数量及4种DNA甲基化分类器的预测能力

2.基于DNA甲基化生物标志物的分类器

接下来,作者在降维结果的基础上,建立了基于DNA甲基化的BRCA侵袭性分类器,将原发性乳腺癌分为侵袭性或非侵袭性。使用随机森林训练分类器,并用10折交叉验证证实其分类器的精度,结果表明4组训练精度都较好(表1),预测正常组织的精度高达99%,预测侵袭性的精度高达95%。

3.TCGA乳腺癌测试集验证分类器预测能力

作者进一步从TCGA下载了BRCA HM450 DNA甲基化数据和临床数据,用766个原发性乳腺癌样本和97个正常样本组成测试集。结果表明(表1),4个分类器对正常样本的预测精度高达96.9%,和训练集预测精度几乎一致。然而,4个降维方法对BRCA侵袭性的预测结果均出现明显的差异。

作者又结合了一些转移相关的临床特征来评估分类器,用超几何分布检验证实预测样本是否与一些临床特征有关,如肿瘤的T期、N期、HER2状态及淋巴结转移(LN+),这些指标都反映高侵袭性。用4个分类器对每一个指标进行超几何分布检验,比较结果如图1所示:MRMD分类器预测为侵袭性的样本显著富集T3、N3、HER2+等与肿瘤转移的有关的因子。PCA分类器和FA分类器预测中HER2-和HER2+有显著意义。这些结果均证实分类器预测能力良好。

图1.两个肿瘤群中临床指标的富集分析结果

4.侵袭性和非侵袭性组的甲基化差异

富集分析结果表明,MRMD降维的分类器预测能力最佳,保留了134个差异甲基化位点(表1),因此作者进一步聚焦于这134个CpG位点。基于这134个位点的甲基化水平,对20个随机挑选的样本进行非监督的层次聚类。结果如图2,每一列对应样本,每一行对应一个CpG位点,颜色由红到蓝表示甲基化水平降低。结果表明,侵袭性和非侵袭性样本的这些甲基化位点甲基化水平出现显著差异,说明分类器的预测能力良好。

图2.20个随机样本基于134个差异甲基化探针的聚类

5.转移相关的基因

上述134个CpG位点对应了共98个基因,比较这98个基因和文献中的转移性癌相关基因,作者发现其中12个基因已证实为与转移性癌有关,这12个中又有5个和乳腺癌转移有关(表2)。这表明作者的分类器可以有效检测与癌症转移有关的CpG甲基化位点,并为更多有关基因的发现提供新的信息。

表2.已知的转移相关基因及其文献描述

考虑到mRMR只需5个位点即可对训练集分类,作者分析了这5个位点的对应基因。结果表明2个位点位于基因体,剩下3个位点还没有注释,这5个位点可能成为乳腺癌转移的生物标志物。

6.BMMP网站

为了促进乳腺癌转移的研究,作者研发了一个基于Java的预测乳腺癌侵袭性的网站——BMMP(BRCA甲基化转移预测),通过MRMD的降维分类模型预测侵袭性。

小结

浸润性和非浸润性乳腺癌的临床表现和预后明显不同,临床治疗方法也不同。识别并预测肿瘤浸润性会对乳腺癌研究产生根本性影响。在本篇研究中,作者根据乳腺癌的DNA甲基化模式推断肿瘤的侵袭性。使用两种差异甲基化分析方法识别侵袭性和非侵袭性乳腺癌的差异甲基化CpG位点。减少冗余特征后,构建了一个基于甲基化的侵袭性分类器,将原发性乳腺癌分为侵袭性或非侵袭性。最后,通过比较某些临床因素在预测样本中的富集程度来验证分类器的可靠度。尽管这种方法可以指导乳腺癌转移的研究,但仍然有一些局限性。例如,乳腺癌高度异质,因此特定的分类器对于不同亚型的样本可能具有不同的预测准确性。考虑到这一点,作者选择了包括四种疾病亚型的样本作为训练集。本篇文章的分类器可以评估乳腺癌的浸润性,有望未来的临床诊断和治疗提供帮助。

(0)

相关推荐