你可能用了一个"假的"Kmeans

2024-08-01 15:30:17

年三十晚，想起之前写Kmeans聚类的一些感悟。

今天在高铁上，看了一本书，书上又再次出现了这么一句话，我觉得挺好，大体意思是：

在写代码这个事情上，没有人能告诉你怎么做一定对，但是总有人能告诉你，怎么做一定不对

其实在数据分析上，也是如此。分享成功是没有意义的，或者并没有太多价值，反而，分享失败或总结错误，往往能给自己甚至是别人带来更多警示。

在我的认知里面，聚类的方法有很多，但我基本只会用层次聚类里面的hclust（这里以R语言内置函数为例，因为TBtools的聚类算法都是重新用Java实现并以R语言的算法为参照）和动态聚类里面的Kmeans。

其中，今天主要要聊的是R语言Kmeans函数的坑！！！

Kmeans聚类的大概逻辑是：

1. 设置K个初始聚类中心（存在非常多的选择方法，随机选择几个样本点是比较常用的做法）

2. 按照样本点与聚类中心的距离，将所有样本点各自分配到一个中心（距离最近），这样就得到K个聚类中心

3. 针对K个聚类中心，分别重新计算聚类中心的中心点（存在较多的中心点计算方法，一般直接计算平均值）

4. 分别计算每个聚类中心的平方差，并加和

5. 比较4.计算得到的平方差总和与上一次迭代结果的平方差总和，如果大于上一次平方差总和，那么就结束并输出上一迭代的结果，如果小于上一次平方差综合，那么就继续重复2-5，直到收敛。

这个算法的实现简单粗暴，但是算法本身也存在一些问题

1. 初始聚类中心的个数，和初始聚类中心的选择，直接影响最终结果

2. 按照迭代终止条件，很容易得到一个局部最优值

前者已有报道的改善方法，包括先做hclust，然后kmeans，取距离最大的点

后者也有较多的改善方法提出，包括后续用退火算法，遗传算法等...嗯。。。我差点也在TBtools里面加上退火算法了....

虽然有以上问题，也有挺多的应对方法被提出，然而，被广泛使用的，依然是default mode的Kmeans（虽然默认的Kmeans本身也有很多类别，类别之间没有太多差距，无需担心）

以下必然是中文资料，甚至包括英文资料里面，我个人对R语言内置函数Kmeans的参数理解，

kmeans(x, centers, iter.max = 10, nstart = 1,

algorithm = c("Hartigan-Wong", "Lloyd", "Forgy",

"MacQueen"), trace=FALSE)

x: numeric matrix of data, or an object that can be coerced to

such a matrix (such as a numeric vector or a data frame with

all numeric columns). # 输入的向量

centers: either the number of clusters, say k, or a set of initial

(distinct) cluster centres. If a number, a random set of

(distinct) rows in 'x’ is chosen as the initial centres.    # 输入初始聚类中心向量或者初始聚类中心个数

iter.max: the maximum number of iterations allowed.    # 设置迭代次数

nstart: if 'centers’ is a number, how many random sets should be

chosen?    # 如果前述输入的是初始聚类中心个数，那么设置重复进行Kmeans的次数，最终会从所有Kmeans执行结果中选择一个最优的

algorithm: character: may be abbreviated. Note that '"Lloyd"’ and

'"Forgy"’ are alternative names for one algorithm.    # 以下略，因为确实没太大影响

object: an R object of class '"kmeans"’, typically the result

'ob’ of 'ob <- kmeans(..)’.

method: character: may be abbreviated. '"centers"’ causes

'fitted’ to return cluster centers (one for each input

point) and '"classes"’ causes 'fitted’ to return a vector

of class assignments.

trace: logical or integer number, currently only used in the default

method ('"Hartigan-Wong"’): if positive (or true), tracing

information on the progress of the algorithm is produced.

Higher values may produce more tracing information.

R语言内置Kmeans函数里面，设置了两个默认参数，往往并不合适

1. iter.max = 10 设置这个参数，意味着迭代10次之后，即使未收敛，也直接终止并输出结果，这就意味着，连局部最优都尚未达到...这个当然可能节省时间，但是在我们做数据分析过程中，Kmeans实在太快，没必要卡10次，或者最好不要只卡10次，建议更高....如果不是脚本执行，那么可以直接默认10次出结果，因为如果未收敛，R会出警告信息；然而脚本执行，那么就要注意啦。。。比如夸张点，你调整到100

2. nstart = 1 这个参数，怎么说呢，存在风险。往往我们并没有预制的聚类心中列表，那么就会随机选择K个样本点并开始迭代，nstart的次数，意味着重新选择并迭代的次数。也就相当于对统一数据运行多少次Kmeans聚类分析，这样会得到多个结果，Kmeans这个函数会选择一个最优的输出（也就是聚类内平方差总和最低的结果）。如果这个设置为1，那么得到局部最优的几率就比较大，相反这个值设置越高，那么就是对不同起始聚类中心集合进行不同次数的Kmeans，那么就更有可能得到全局最优（这个才是我们想要的）。...R语言是不会提示是不是全局最优的。一般，不是很着急的话，这个值应该调整在20~25（运行时间也会大概在20~25倍，一般一样是秒速，除非数据集合真的也不小）

总体上，我只是想说，其实，你可能用了一个“假的”Kmeans。。。。

ML之Kmeans：利用自定义Kmeans函数实现对多个坐标点(自定义四个点)进行自动(最多迭代10次)分类

ML之Kmeans:利用自定义Kmeans函数实现对多个坐标点(自定义四个点)进行自动(最多迭代10次)分类输出结果核心代码 #!/usr/bin/python # -*- coding:utf- ...
机器学习，KMeans聚类分析详解

来源:数据STUDIO 作者:Jim 大量数据中具有'相似'特征的数据点或样本划分为一个类别.聚类分析提供了样本集在非监督模式下的类别划分.聚类的基本思想是'物以类聚.人以群分',将大量数据集中相似的 ...
R语言聚类有效性：确定最优聚类数分析IRIS鸢尾花数据和可视化

原文链接:http://tecdat.cn/?p=22879 数据集概述这个数据集常用于数据概述.可视化和聚类模型.它包括三个鸢尾花品种,每个品种有50个样本,以及一些属性.其中一个花种与其他两个花 ...
基于拉普拉斯约束的半监督模糊C均值算法

基于拉普拉斯约束的半监督模糊C均值算法近年来,聚类分析在模式识别.图像处理和数据挖掘中得到了广泛的应用.它试图将数据集划分为不同的组,使得同一集群中的数据点具有较高的相似性,而不同集群中的数据点具有 ...
Python学习之迭代器和生成器有什么不同？

迭代器和生成器区别是什么?相信很多人在初学Python的时候对它们都很好奇,接下来我们一起来看看它们的区别吧. 迭代器是一个更抽象的概念,任何对象,如果它的类有next方法和iter方法返回自己的本身 ...
K-means聚类：原理简单的聚类算法

对于监督学习而言,回归和分类是两类基本应用场景:对于非监督学习而言,则是聚类和降维.K-means属于聚类算法的一种,通过迭代将样本分为K个互不重叠的子集. 对于K-means聚类而言,首先要确定的第 ...
OSCA单细胞数据分析笔记9—Clustering

对应原版教程第10章http://bioconductor.org/books/release/OSCA/overview.html "物以类聚,人以群分" 分群步骤即将基因表达( ...
基于K-Means聚类算法的主颜色提取

重磅干货,第一时间送达 01.简介本期我们将一起实现基于K-Means聚类算法的主色提取.在深入研究代码之前,让我们先了解一下K-Means算法的背景知识. 02.K均值类聚算法 K-Means算法 ...
史上最污孕妇成了爱情电影女主，这是一个假的黄阿丽吧

5月底网飞上线了一部爱情喜剧<Always Be My Maybe>,中国内地把它译成<两大无猜>. 女主角是黄阿丽. 是的,就是那个挺着孕肚在台上单人脱口秀的黄阿丽,有人总结 ...
焦虑的妈妈缺失的爸爸替罪羊的孩子，很多家庭正经历一个假的婚姻

家庭总是希望治疗时能像变戏法一样马上制造出奇迹.把家中所有的困扰纷争一举消除,然而治疗又如演奏交响乐,时而低沉,时而奔放,究竟何时会奏出震撼心弦的音符.有待指挥者治疗师和乐团家庭密切的合作才行.家庭从 ...
【直播】我的基因组48:我可能测了一个假的全基因组

背景知识我的测序结果我对前面步骤call到的vcf格式的变异位点文件进行了X,Y染色体的简单统计,代码如下: cat jmzeng.freebayes.vcf |grep -w 'chrY'|g ...
那片星空那片海，我好像看到一个假的冯绍峰

" 你变成了美人鱼,我却哭了一地珍珠. 那片星空那片海,我好像看到一个假的冯绍峰 by冰镇红糖水前两天<那片星空那片海>首播,秉着对冯叔和郭老公的爱,以及刚追完<鬼怪&g ...
广西：一个假的“南方沿海省份”

这是一个内部非常多元化.但也正因此缺乏有效内部整合机制的省份.在这种情况下,它虽享有极具优势的地理位置和种种资源,但却无法充分发挥出自己的潜力. 本文由无冕财经(wumiancaijing)原创首发 ...
我可能过了一个假的母亲节

满屏都是母亲节快乐,但恐怕这句问候,只适合送给自己的母亲.送给其他任何人,都难免尴尬. 说的人未必认真,听得人未必认真,应和者更多是逢场作戏.时至今日,点赞之交,充满泡沫的朋友圈,冲淡了真正的友情.每 ...
我可能遇到了一个假的哲学大师

最近在看冯友兰先生的<中国哲学简史>,是一本给外国人介绍中国哲学的书.但里面的很多内容又冗长又重复,啰嗦一大堆,最后的结论居然是yes or no均可. 简史里面无时无刻不在赞扬中国人,抬 ...
【汇算清缴实务】一个简单的固定资产加速折旧，你居然错了，因为你遇到了一个假的会计老师！

马上就有人"引经据典"式给出三种处理办法: 第一种方法:购进时税务上一次性扣除,会计上也一次性计入成本费用. 第二种方法:购进时,先计入固定资产,然后同时全额计提折旧. 第三种办法 ...
【赠书】如何避免读到一个假的曾国藩

前言写书评这种事儿以前也干过,多是在豆瓣或者论坛上,乘着挑灯夜读后的快感,热血沸腾,拉拉杂杂撒下点感性文字,用语之尖刻,构思之迷乱,事后读来甚觉惭愧.唯独,这一次,替"网红"写书 ...

你可能用了一个"假的"Kmeans

相关推荐