基于拉普拉斯约束的半监督模糊C均值算法
基于拉普拉斯约束的半监督模糊C均值算法
近年来,聚类分析在模式识别、图像处理和数据挖掘中得到了广泛的应用。它试图将数据集划分为不同的组,使得同一集群中的数据点具有较高的相似性,而不同集群中的数据点具有较低的相似性。到目前为止,已经开发了许多聚类算法,包括层次聚类、谱聚类和模糊c均值聚类(FCM)等。
作为半监督聚类,可以采用不同的方法来控制聚类过程。传统的模糊聚类算法对未知样本的使用率较低,针对于该问题,相关领域学者经过不断研究提出了半监督模糊聚类。由于模糊c均值(FCM)是最经典的算法之一,一些相关的工作已经被提出,来约束半监督模糊c均值,例如在隶属度中加入半监督项。在汉斯出版社《应用数学进展》期刊中,有学者表明半监督模糊聚类算法通过将少量的数据类别标签作为监督信息加入到模糊聚类算法中,使其在整个聚类迭代优化过程中发挥一定的监督作用。
SFCM算法是一种经典的半监督聚类算法,它以标签信息作为先验知识。该算法将已知的类别标签集成到隶属度矩阵中,指导隶属度矩阵的优化,约束项中所含的先验信息则会对隶属度矩阵的优化起监督作用,并创建最合理的模糊划分,以此提高聚类效果。
半监督聚类方法分为基于相似度的聚类方法和基于搜索的聚类方法,有学者提出了一个框架,对由边缘信息构造的加权拉普拉斯矩阵进行优化更新。重要的是,结合稀疏性的概念,进一步引入惩罚项,使每个样本的对象簇成员具有适当的稀疏性。该算法不仅保证了软聚类算法在实际应用中的鲁棒性,而且考虑到隶属度数量较少,避免了性能下降。
根据不同聚类评价算法的适用范围,提出了一种特征加权模糊半监督聚类算法(SFFD)。该算法基于完全自适应的距离函数、特征权重和两两约束构造一个统一的目标函数,用于在两两约束下搜索最优原型参数和最优特征权重。同时,给出了四种不同的模糊聚类有效性评价算法,采用不同的算法来评估SFFD算法的有效性,得到不同输入数据集的最优聚类数,从而确定聚类形成过程中的聚类数。文章中提出的半监督模糊聚类算法充分利用了已知的信息样本,以最小信息熵对应的聚类数作为整个样本的最优聚类数,以此得到的聚类中心是模糊聚类的原始聚类中心。
本文在研究模糊c均值聚类(FCM)算法的基础上,通过加入正则项来约束FCM,提出了一种基于拉普拉斯约束的模糊c均值(FCML)算法,给出了FCML算法的迭代结果,并对其进行非负证明,即uij经过多次迭代后,其最终结果仍为非负数,以此来证明该算法的有效性。文章提出了基于拉普拉斯约束的半监督模糊c均值(SFCML)算法,该算法通过引入一些监督信息来改进FCML算法,可以在不提供先验信息的情况下充分利用先验信息来对未标记样本进行部分标记,合理有效地利用部分已识别样本的类别信息,从而提高半聚类算法的聚类性能,其最终结果具有和FCM算法一样简洁的隶属度与聚类中心的迭代公式。
最后,将文章中提出的基于拉普拉斯约束的模糊c均值(FCML)算法及基于拉普拉斯约束的半监督模糊c均值(SFCML)算法与原始模糊c均值(FCM)的聚类性能进行了检验和评价。
本文在经典FCM算法的基础上引入了拉普拉斯算法进行约束,提高聚类的抗噪性能以及提取重要的属性特征,并将最终迭代结果进行非负验证。其次,利用少量标记信息进行数据预处理,构造半监督聚类算法SFCML来对FCML算法进行改进。此外,由于SFCML的目标函数是基于FCM的,它继承了聚类算法FCM的大部分优点。本文在真实数据集上进行算法对比实验,实验结果进一步验证了本文提出的SFCML算法的有效性。
文章链接:https://doi.org/10.12677/AAM.2021.102049