第117天:机器学习算法之 K 近邻

所谓“K 近邻(K-nearest neighbor,K-NN)”,顾名思义,指的是“K 个最近的邻居”,属于一种监督学习的方法。

1. 工作原理

简单地介绍一下 K 近邻算法的工作机制:首先给定一组训练集,作为算法的参照;然后给出特定的测试对象,也就是不带标签的测试数据,算法会在训练集中找到某种意义上与之最接近的 K 个训练数据,并根据这 K 个训练数据的标签来判定测试数据的类型(分类问题)或数值(回归问题)。

从 K 近邻算法的原理可以看出,得到训练数据之后其实并不存在所谓的“训练过程”,我们只需要“守株待兔”,等待外部输入一个测试数据,再与训练数据进行比较即可。这也是 K 近邻算法被称作“懒惰学习(lazy learning)”算法的原因。

1.1 距离度量

这里我们说的“某种意义上”,其实指的就是某种距离度量的方法。所谓“距离”,可以简单地理解为两个数据之间的差别,我们使用距离度量的方法可以定量地求出两个数据之间的差别到底有多大。其中我们最熟悉的一种距离度量方法就是“欧氏距离”,也就是我们最熟悉的“直线距离”。

在二维平面上,欧氏距离就表现为勾股定理。对于任意 N 维数据  和  ,欧氏距离的通用计算公式为:

使用这个公式,我们可以用数值精确地衡量任意给定数据之间的差异程度。

此外还有诸如曼哈顿距离、(国际象棋)棋盘距离等各种距离度量方式。曼哈顿距离其实就是两点间各维度距离之差的和,就像在一个规划整齐的街区开车一样。

1.2 直观解释

通俗地讲,K 近邻算法的中心思想就是一种我们人人都明白、大家都认可的生活经验:人以类聚,物以群分。

对于特定的某个人,要尽快地对他有一个全面的认识,我们通常习惯观察他的朋友圈(咳,注意不是指微信朋友圈),与他交往最多的几个人基本上就能够反映他本人的大部分特质。

对于现实世界的其他对象也一样,这些对象的抽象——数据——当然也不例外。对于给定的测试数据,我们可以考察与之相似度最高的几个数据,这些数据普遍具有的特征,我们自然而然地认为也会是这个测试数据的特征。

1.3 关于 K 值

K 值的选取看起来好像是比较随便的,但其实也是一门学问。也可以认为是 K 近邻算法的一个超参数,也就是由研究者手动设置、不为算法自动调整的参数。

K 值选得太大了固然不好。最极端的情况,如果不管不顾直接设置 K = N,也就是训练数据总的样本数,那么此时不论给定什么样的测试数据,都会得出相同的结果——算法会直接取训练数据样本中存在最多的标签作为测试数据的标签。这样一来,数据之间的差异完全被抹杀,体现不出任何的分类或是回归的价值。“千人一面”并不是我们追求的社会主义。

那 K 选得太小又有没有问题呢?还是有的。同样考虑最极端的情况——K = 1,这也就是 K 近邻算法的一个特例,所谓的“最近邻算法”。当测试数据的标签仅仅取决于与之最接近的一个训练数据时,我们都知道事情肯定遭了糕了——某个数据的偏差原本只是个例,但却好巧不巧地影响到了我们对测试数据的判断。

从以上分析我们可以得出一个社会意义上的教训:独裁是不好滴,盲目扩大的民主同样是遗祸无穷滴~ 集中民主是个好东西。

书归正传,认真地说,通过以上分析,我们可以得出一个结论:K 的值不适宜太大,但也不应当过小。这就比较麻烦了,因此一方面,K 值的设置是一个经验性的工作;另一方面,我们可以利用手头的训练数据,随机留出一部分作为测试数据来进行反复测试,从而选取一个较为适宜的 K 值。并且通常来说,这个“适宜的 K 值”不会太大。

1.4 决策方式

K 近邻算法的决策方式很多,我们简单介绍两种适用于不同问题的方式。

1)分类问题

对于分类问题,一般采用多数表决制,也就是说,K 个近邻中,占比最大的标签即为测试数据的标签。

2)回归问题

对于回归问题,可以采用加权平均法,也就是说,K 个近邻中,根据与测试数据的距离远近分别赋予不同的权值,然后求平均。

2. 算法实现

为减小阅读负担,本文仅给出分类问题的 K 近邻算法实现。回归问题的实现留待读者探索。

另外由于作者水平所限,代码如有问题还望读者不吝指正。

严格地讲,根据李航老师《统计学习方法》一书的内容,正式应用 K 近邻算法的时候还应当构建 kd 树,以方便检索近邻,提高算法效率。毕竟,在真正的工业应用上,算法面对的都是百万量级及以上的数据,如果不使用精心设计的数据结构来提升检索效率,将会带来成本的大幅提高和竞争劣势。

但是此处我们仅仅是为了了解 K 近邻算法,对该算法有一个感性的体会,因此就不涉及 kd 树的实现了(其实是作者嫌这部分有点麻烦哈哈哈哈——当然也是为了减轻读者阅读负担,否则还需要再介绍一下 kd 树的原理,篇幅就有点冗长了)。

2.1 划分数据

我们使用一个经常被作为机器学习算法基准测试的数据集——鸢尾花数据集,作为本文的示例数据集。

读者可从 https://www.kaggle.com/uciml/iris 下载,也可从本文配套代码获取。

简单介绍一下这个鸢尾花数据集,总共有 150 份鸢尾花的各项尺寸数据,均匀分属三种不同的鸢尾花,即 setosa、versicolor、virginica 三种鸢尾花各 50 份数据(作者水平所限,对于具体的种名就不做翻译了,以免造成误解,大家知道是三种不同的鸢尾花就好)。

其中的尺寸数据包括萼长、萼宽、瓣长、瓣宽四项,单位均为厘米,对应于每份数据,都有一个相应的类别标签以及数据本身在数据集中的 id。部分数据示例如下:

Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species1,5.1,3.5,1.4,0.2,Iris-setosa2,4.9,3.0,1.4,0.2,Iris-setosa...51,7.0,3.2,4.7,1.4,Iris-versicolor52,6.4,3.2,4.5,1.5,Iris-versicolor...101,6.3,3.3,6.0,2.5,Iris-virginica102,5.8,2.7,5.1,1.9,Iris-virginica...

我们要做的就是根据给定的四项长度数据,通过 K 近邻算法来判断某个实例属于哪一种鸢尾花。

而现在的一个问题是,我们只有一个数据集,无法另外找到一个真实的鸢尾花数据。因此我们需要对原始数据集进行划分,用其中的一部分作为训练集,另一小部分作为测试集。这个比例由读者自行抉择,我们选择 4:1 的比例,即每中鸢尾花选择 40 份数据作为训练集,留出 10 份作为测试集。

注意,此处训练集和测试集的选择要具有随机性,以此尽量避免过多引入不必要的人为误差。

首先,读取数据:

import pandas as pdiris = pd.read_csv('iris.csv').to_numpy()

pd.read_csv()读取 CSV 文件后返回的是一个 DataFrame 类型的数据,使用to_numpy()方法可以将其转换为 Numpy 数组。

然后初始化各个数据的容器:

train_data = [] # 训练数据,与测试数据按 4:1 比例划分test_data = [] # 测试数据train_target = [] # 训练数据对应标签test_target = [] # 测试数据对应标签

由于总共三个类别,分别是 0~49,50~99,100~149,因此使用循环,并设置一个偏移量offset,在此基础上对数组进行切片:

import numpy as np
for i in range(3): offset = 50 * i data = iris[offset+0:offset+50, :]
np.random.shuffle(data) # 就地随机打乱
train_data.extend(data[0:40, 1:5].tolist()) train_target.extend(data[0:40, 5].tolist()) test_data.extend(data[40:, 1:5].tolist()) test_target.extend(data[40:, 5].tolist())

为了方便将数据装入准备好的容器,我们使用tolist()方法,将切片后的数据转换为列表。

然后为了便于利用 Numpy 的性能(这里影响其实不大)及其各种函数(主要原因),我们再将这些准备好的数据转换为 Numpy 数组:

train_data = np.array(train_data)test_data = np.array(test_data)train_target = np.array(train_target)test_target = np.array(test_target)

到这里,我们需要的数据就准备好了。

2.2 计算距离

这一步我们来计算测试数据与训练数据的距离。

首先准备好“距离”的容器:

distance = []

随后遍历测试集中的每个数据;对于这每个测试数据,又都需要遍历训练集中的每个数据,距离度量我们选择欧氏距离:

for i in range(len(test_data)): sub_dist = [] for j in range(len(train_data)): dif_array = test_data[i] - train_data[j] dist = np.sqrt(np.sum(dif_array * dif_array)) sub_dist.append(dist) distance.append(sub_dist)
distance = np.array(distance)

其中,sub_dist用于存储对于特定的测试数据,对应每个训练数据的“距离”,保存为一维列表。distance则是由若干个sub_dist组成的二维列表。最后把distance也转换为 Numpy 数组。

距离计算这一步也就完成了。

2.3 求解结果

同样的,首先我们初始化结果的容器:

results = []

这一步就需要用到“K 近邻”中的这个 K 了。为使程序更灵活,我们选择在运行时由用户指定 K 值:

K = int(input("请输入 K 值:"))

然后根据distance的大小,可以知道总共有多少个测试数据,使用np.argsort()获取升序排序后的前 K 个距离的索引。再用这个索引组成的数组筛选训练数据的标签。最后使用Counter类中的most_common()方法获取出现频率最高的元素,加入准备好的容器:

for i in range(len(distance)): index = np.argsort(distance[i])[:K] result = train_target[index] species = Counter(result).most_common(1)[0][0] results.append(species)

此时,results中即保存了 K 近邻算法全部的结果。

2.4 评估结果

先初始化一个正误计数器:

right = 0

分别取出测试数据的预期类别和实际类别,并打印;判定预期类别和实际类别是否相符,视相符情况决定是否增加计算器的值:

for i in range(len(results)): print('Right Species = ', test_target[i], \ ', \tReal Species = ', results[i]) if results[i] == test_target[i]: right += 1

这样,还可以求得 K 近邻算法的正确率,并打印:

right_rate = right / len(results)print("Right Rate: ", right_rate)

到这一步,整个算法的实现也就完成了。

接下来我们可以运行看看。

2.5 运行示例

以下是一个运行结果的示例:

PS D:\justdopython\KNN> python KNN.py--------------------------------------------------------------------------------请输入 K 值:5--------------------------------------------------------------------------------Right Species = Iris-setosa , Real Species = Iris-setosaRight Species = Iris-setosa , Real Species = Iris-setosaRight Species = Iris-setosa , Real Species = Iris-setosaRight Species = Iris-setosa , Real Species = Iris-setosaRight Species = Iris-setosa , Real Species = Iris-setosaRight Species = Iris-setosa , Real Species = Iris-setosaRight Species = Iris-setosa , Real Species = Iris-setosaRight Species = Iris-setosa , Real Species = Iris-setosaRight Species = Iris-setosa , Real Species = Iris-setosaRight Species = Iris-setosa , Real Species = Iris-setosaRight Species = Iris-versicolor , Real Species = Iris-versicolorRight Species = Iris-versicolor , Real Species = Iris-versicolorRight Species = Iris-versicolor , Real Species = Iris-versicolorRight Species = Iris-versicolor , Real Species = Iris-virginicaRight Species = Iris-versicolor , Real Species = Iris-versicolorRight Species = Iris-versicolor , Real Species = Iris-versicolorRight Species = Iris-versicolor , Real Species = Iris-versicolorRight Species = Iris-versicolor , Real Species = Iris-virginicaRight Species = Iris-versicolor , Real Species = Iris-versicolorRight Species = Iris-versicolor , Real Species = Iris-versicolorRight Species = Iris-virginica , Real Species = Iris-virginicaRight Species = Iris-virginica , Real Species = Iris-virginicaRight Species = Iris-virginica , Real Species = Iris-virginicaRight Species = Iris-virginica , Real Species = Iris-virginicaRight Species = Iris-virginica , Real Species = Iris-virginicaRight Species = Iris-virginica , Real Species = Iris-virginicaRight Species = Iris-virginica , Real Species = Iris-virginicaRight Species = Iris-virginica , Real Species = Iris-virginicaRight Species = Iris-virginica , Real Species = Iris-virginicaRight Species = Iris-virginica , Real Species = Iris-virginica--------------------------------------------------------------------------------Right Rate: 0.9333333333333333--------------------------------------------------------------------------------

3. 总结

本文带大家初步认识了所谓的 K 近邻算法,并一步步给出了具体的算法实现。如果有同学感觉慢慢堆砌代码有点枯燥,本文在“示例代码”中也给出了上述代码的完整实现,可以前往“示例代码”处直接下载对应代码运行看看结果,这样或许会更有兴趣一点。

激发出兴趣之后,希望读者能够重新实现以下本文描述的代码。

另外,考虑到萼片和花瓣的尺寸范围可能存在一定的差异,其实在算法实现中需要有一个“归一化”的步骤,本文省略了这个步骤。读者可以自行实现再看看结果。

示例代码:https://github.com/JustDoPython/python-100-day/tree/master/

参考资料

https://book.douban.com/subject/26708119/
https://book.douban.com/subject/10590856/
https://www.kaggle.com/uciml/iris
https://blog.csdn.net/pipisorry/article/details/51822775
https://cloud.tencent.com/developer/ask/153164
系列文章

第 116 天:机器学习算法之朴素贝叶斯理论

第 115 天:Python 到底是值传递还是引用传递

第 114 天:三木板模型算法项目实战

第 113 天:Python XGBoost 算法项目实战

第 112 天:机器学习算法之蒙特卡洛

第 111 天:Python 垃圾回收机制

从 0 学习 Python 0 - 110 大合集总结
(0)

相关推荐

  • 10分钟掌握Python-机器学习小项目

    学习机器学习相关技术的最好方式就是先自己设计和完成一些小项目. Python 是一种非常流行和强大的解释性编程语言.不像 R 语言,Python 是个很完整的语言和平台,你既可以用来做研发,也可以用来 ...

  • R语言-multiROC package

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. 找ROC相关的包 Sys.setlocale('LC_ALL','C') ...

  • tidyr总结篇-续

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. tidyr总结篇  gather(data,key="" ...

  • 第120天:机器学习算法之 K 均值聚类

    本文我们来学习一下另一种经常听到的机器学习算法-- K 均值聚类. 这个名字确实跟"K 近邻"有些相像,但是要明确的是,"K 近邻"中的"K" ...

  • R机器学习:分类算法之K最邻进算法(KNN)的原理与实现

    从今天开始给大家写机器学习算法,这个东西并不是大多数人想象的那么高深,也不是说编程的人,搞计算机的人才能学习使用,医学领域.社会科学领域的研究越来越多运用机器学习的,在我的理解中每个人都应该掌握基本的 ...

  • R语言非参数方法:使用核回归平滑估计和K-NN(K近邻算法)分类预测心脏病数据

    原文链接:http://tecdat.cn/?p=22181 本文考虑一下基于核方法进行分类预测.注意,在这里,我们不使用标准逻辑回归,它是参数模型. 非参数方法 用于函数估计的非参数方法大致上有三种 ...

  • K近邻算法(KNN)原理小结

    目录 1. KNN算法原理 2. KNN算法三要素 3. KNN算法之暴力实现原理 4. KNN算法之KD树实现原理 5. KNN算法之训练样本不平衡情况 6. 算法优缺点 1. KNN算法原理 KN ...

  • 常见的人工智能机器学习算法优缺点

    众所周知机器学习是人工智能领域中的主要领域之一,机器学习算法有很多,例如:分类.回归.聚类.推荐.图像识别领域等等.要想找个合适算法是非常不容易的,为了能够寻找到合适的算法,需要明白机器学习算法的优缺 ...

  • 机器学习算法集锦:从贝叶斯到深度学习及各自优缺点

    本文转自:视学算法 在我们日常生活中所用到的推荐系统.智能图片美化应用和聊天机器人等应用中,各种各样的机器学习和数据处理算法正尽职尽责地发挥着自己的功效.本文筛选并简单介绍了一些最常见算法类别,还为每 ...

  • 教程 | 算法太多挑花眼?教你如何选择正确的机器学习算法

    选自Hackernoon 作者:Rajat Harlalka 机器之心编译 参与:Geek AI.张倩 机器学习算法虽多,却没有什么普适的解决方案.决策树.随机森林.朴素贝叶斯.深度网络等等等等,是不 ...

  • 为什么机器学习算法难以优化?一文详解算法优化内部机制

    作者|小舟 来源|机器之心 损失线性组合是正确的选择吗?这篇文章或许能够给你答案. 在机器学习中,损失的线性组合无处不在.虽然它们带有一些陷阱,但仍然被广泛用作标准方法.这些线性组合常常让算法难以调整 ...

  • 普林斯顿博士:手写30个主流机器学习算法,全都开源了!

    机器之心报道 参与:思源.一鸣.张倩 用 NumPy 手写所有主流 ML 模型,普林斯顿博士后 David Bourgin 最近开源了一个非常剽悍的项目.超过 3 万行代码.30 多个模型,这也许能打 ...