如何利用K-Means将文件夹中图像进行分类？

2024-06-12 19:48:39

重磅干货，第一时间送达

K-Means聚类是最常用的无监督机器学习算法之一。顾名思义，它可用于创建数据集群，从本质上将它们隔离。

现在，我们将做一个简单的示例，将文件夹中的图像进行分离，该文件夹既有猫也有狗的图像。并且将创建两个单独的文件夹（群集），我们将介绍如何自动确定K的最佳值。

猫和狗的图像数据集

首先，我们将从导入所需的库开始。

import numpy as npimport tensorflow as tfimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn.metrics import silhouette_scoreimport cv2import os, glob, shutil

然后我们会从文件夹中的图像读取所有的图像并对其进行处理，以提取特征提取。我们将图像大小调整为224x224，以匹配模型输入层的大小以进行特征提取。

input_dir = 'pets'glob_dir = input_dir + '/*.jpg'images = [cv2.resize(cv2.imread(file), (224, 224)) for file in glob.glob(glob_dir)]paths = [file for file in glob.glob(glob_dir)]images = np.array(np.float32(images).reshape(len(images), -1)/255)

现在，我们将在MobileNetV2（传输学习）的帮助下进行特征提取。当然我们可以使用ResNet50，InceptionV3等，但是MobileNetV2速度很快，而且资源也不是很多。

model = tf.keras.applications.MobileNetV2(include_top=False,weights=’imagenet’, input_shape=(224, 224, 3))predictions = model.predict(images.reshape(-1, 224, 224, 3))pred_images = predictions.reshape(images.shape[0], -1)

现在，我们已经实现了提取功能，现在可以使用KMeans进行聚类了。

k = 2kmodel = KMeans(n_clusters = k, n_jobs=-1, random_state=728)kmodel.fit(pred_images)kpredictions = kmodel.predict(pred_images)shutil.rmtree(‘output’)for i in range(k): os.makedirs(“output\cluster” + str(i))for i in range(len(paths)): shutil.copy2(paths[i], “output\cluster”+str(kpredictions[i]))

输出结果如下：

小狗：

猫：

另外我们如何确定数据集的K值？我们可以使用轮廓法或肘部法确定它。我们将在这里使用轮廓法，当然这两种方法都可获得最可靠的结果，所以能直接确定K。

当我们将马的图像添加到原始数据集中时，我们来确定K的值。

sil = []kl = []kmax = 10for k in range(2, kmax+1): kmeans2 = KMeans(n_clusters = k).fit(pred_images) labels = kmeans2.labels_ sil.append(silhouette_score(pred_images, labels, metric = ‘euclidean’)) kl.append(k)

现在，我们将绘制图像：

plt.plot(kl, sil)plt.ylabel(‘Silhoutte Score’)plt.ylabel(‘K’)plt.show()

如我们所见，K的最佳值为3，我们还成功创建了第三个集群：

结论

如我们所见，K-Means聚类是用于图像分离的出色算法。在某些时候，我们使用的方法可能无法提供准确的结果，我们可以尝试使用其他卷积神经网络对其进行修复，或者尝试将图像从BGR转换为RGB，然后进行处理。

下载1：OpenCV-Contrib扩展模块中文版教程

CV之FE：基于TF进行FE——去除异常(被损坏)图像和单通道图像

CV之FE:基于TF进行FE--去除异常(被损坏)图像和单通道图像输出结果去除了异常(被损坏)图像 .单通道图像设计思路 1. 部分代码实现 import tensorflow as tf f ...
9种常用的机器学习算法实现

陈雷慧(豆苗) 淘系技术简介根据机器学习的任务或应用情况的不同,我们通常把机器学习分为三大类: 1.监督学习(Supervised Learning,SL),这类算法的工作原理是使用带标签的训练数 ...
训练一个自己的分类 | 【包教包会，数据都准备好了】

参考:https://blog.csdn.net/m0_37935211/article/details/83021723 前言: 在找工作的时候,经常被问到你自己有没有做过什么项目,我回答跑过手写数 ...
使用 CNN 进行图像分类 - 理解计算机视觉

介绍在计算机视觉中,我们有一个卷积神经网络,它非常适用于计算机视觉任务,例如图像分类.对象检测.图像分割等等. 图像分类是当今时代最需要的技术之一,它被用于医疗保健.商业等各个领域,因此,了解并制作 ...
这也能画？

有意思的图片其实就是一个单细胞的降维聚类分群,特殊之处在于它出现了一个能被人类想象力丰富起来的造型,所以就有了左边他们全体实验室自己摆pose并且着装不同颜色衣服的模拟. 非常的形象,理论上这样的单 ...
ML之K-means：基于(完整的)手写数字图片识别数据集利用K-means算法实现图片聚类

ML之K-means:基于(完整的)手写数字图片识别数据集利用K-means算法实现图片聚类输出结果设计思路核心代码 metrics.adjusted_rand_score(y_test, y_ ...
k-means聚类算法原理总结

k-means算法是非监督聚类最常用的一种方法,因其算法简单和很好的适用于大样本数据,广泛应用于不同领域,本文详细总结了k-means聚类算法原理 . 目录 1. k-means聚类算法原理 2. k ...
从文件夹中提取符合条件的记录

先来看数据源,在快递寄送信息表的文件夹中,存放了多个结构一致的工作簿: 打开一个工作簿看看,里面就是每一年度的详细记录了: 再来看看汇总表,这里使用数据验证(数据有效性)功能制作了一个下拉菜单,在下拉 ...
调用Dos中的Dir命令遍历目标文件夹内所有文件、以及所有子文件夹中的所有文件

调用Dos中的Dir命令 Sub ListFilesDos() Set myFolder = CreateObject("Shell.Application").BrowseFor ...
遍历文件夹中文件

Sub LoopAllExcelFilesInFolder() Dim wb As Workbook Dim myPath As String Dim myFile As String Dim my ...
怎么只读取文件夹中最近一天的表格？PQ里这个筛选真方便！

前期,我写了较多关于用PQ进行数据汇总的文章,形成了一个系列: <年终必用!批量汇总多Excel表:从入门到处理各种特殊情况>. 另还录制了系列视频进行免费发布: <[免费系列视频] ...
一、仅列出目标文件夹中所有文件。（不包括子文件夹、不包括子文件夹中的文件）

Sub ListFilesTest()With Application.FileDialog(msoFileDialogFolderPicker)If .Show Then myPath$ = .Se ...
二、仅列出目标文件夹中所有子文件夹名。（不包括目标文件夹中文件、不包括子文件夹中的文件或子文件夹）

Sub ListFilesTest() With Application.FileDialog(msoFileDialogFolderPicker) If .Show Then myPath$ = . ...
三、遍历目标文件夹内所有文件、以及所有子文件夹中的所有文件。

Sub ListFilesTest() With Application.FileDialog(msoFileDialogFolderPicker) If .Show Then myPath$ = . ...
Win10文件夹中图片怎么调换位置？

现在很多用户都会将文件放在电脑上,但是文件多累,就会杂乱,有用户想要给Win10文件夹中图片调换位置,但是发现Win10文件夹中的图片用鼠标不能随意拖到改变位置的,不像桌面上的文件这么方便.那么文件夹 ...
Excel VBA 每日一场景将总表拆分填入对应的文件夹中

今天我们的场景是工作表的拆分当然今天的拆分并不是简单的拆分拆分之后还需要将对应的数据写入工作薄,并且将工作簿放到对应的文件夹下一下子好像有不少的要求,不方,我们先来看看场景场景模拟这是我们今 ...

如何利用K-Means将文件夹中图像进行分类？

相关推荐