终于有人把准确率、精度、召回率、均方差和R²都讲明白了

2024-04-30 07:10:39

在真实场景中，模型很少能成功地预测所有的内容。我们知道应该使用测试集的数据来评估我们的模型。但是这到底是如何工作的呢？

简短但不是很有用的答案是，这取决于模型。人们已经提出了各种评分函数，它可用于在所有可能的场景中评估训练模型。好消息是，很多评分函数实际上是scikit-learn的metrics模块的一部分。

让我们快速了解一些最重要的评分函数。

来源：大数据DT（ID：hzdashuju）

01 使用准确率、精度和召回率评分分类器

在二值分类任务中只有两个不同的类标签，有许多不同的方法来度量分类性能。一些常见的评估指标如下所示：

accuracy_score：准确率（accuracy）计算测试集中预测正确的数据点数，并返回正确预测的数据点的比例。以将图片分类为猫或狗为例，准确率表示正确分类为包含猫或狗的图片比例。该函数是最基本的分类器评分函数。
precision_score：精度（precision）描述了一个分类器不把包含狗的图片标记为猫的能力。或者说，在分类器认为测试集所有包含猫的图片中，精度是实际包含一只猫的图片比例。
recall_score：召回率（recall，或者敏感度）描述了一个分类器检索包含猫的所有图片的能力。或者说，测试集所有包含猫的图片中，召回率是正确识别为猫的图片比例。

假设我们有一些ground truth（正确与否取决于我们的数据集）类标签，不是0就是1。我们使用NumPy的随机数生成器随机生成数据点。显然，这意味着只要我们重新运行代码，就会随机生成新数据点。

我们希望你能够运行代码，并总是得到和书中相同的结果。实现此目的的一个很好的技巧是固定随机数生成器的种子。这会保证你在每次运行脚本时，都以相同的方式初始化生成器：

1）我们使用下列代码可以固定随机数生成器的种子：

import numpy as np

np.random.seed(42)

2）然后，选取（0, 2）范围内的随机整数，我们可以生成0或1的5个随机标签：

y_true = np.random.randint(0, 2, size=5)y_true

Out:

array([0, 1, 0, 0, 0])

在文献中，这两类有时也被称为正样例（类标签是1的所有数据点）和负样例（其他所有数据点）。

假设我们有一个分类器试图预测之前提到的类标签。为方便讨论，假设分类器不是很聪明，总是预测标签为1。通过硬编码预测标签，我们可以模拟这种行为：

y_pred = np.ones(5, dtype=np.int32)y_pred

Out:

array([1, 1, 1, 1, 1], dtype=int32)

我们预测的准确率是多少？

如前所述，准确率计算测试集中预测正确的数据点数，并返回测试集大小的比例。我们只是正确地预测了第二个数据点（实际标签是1）。除此之外，实际标签是0，而我们预测为1。因此，我们的准确率应该是1/5或者0.2。

准确率指标的一个简单实现可总结为：预测的类标签与实际类标签相符的所有情况。

test_set_size = len(y_true)

predict_correct = np.sum(y_true == y_pred)

predict_correct / test_set_size

Out:

0.2

scikit-learn的metrics模块提供了一个更智能、更便捷的实现：

from sklearn import metrics

metrics.accuracy_score(y_true, y_pred)

Out:

0.2

这并不难，不是吗？但是，要理解精度和召回率，我们需要对I型错误和II型错误有大致的了解。让我们来回忆一下，通常把类标签为1的数据点称为正样例，把类标签为0（或–1）的数据点称为负样例。然后，对特定数据点进行分类，可能会产生以下4种结果之一，如表3-1的混淆矩阵所示。

▼表3-1 4种可能的分类结果

让我们进行一下分析。如果一个数据点实际是正样例，并且我们也将其预测为正样例，那么我们就预测对了！在这种情况下，将结果称为真阳性。如果我们认为数据点是正样例，但是该数据点实际是一个负样例，那么我们错误地预测了一个正样例（因此就有了假阳性这个术语）。

类似地，如果我们认为数据点是负样例，但是该数据点实际是一个正样例，那么我们就错误地预测了一个负样例（假阴性）。最后，如果我们预测了一个负样例，而且该数据点确实是一个负样例，那么我们就找到了一个真阴性。

在统计学假设检验中，假阳性也称为I型错误，而假阴性也称为II型错误。

让我们在模拟数据上快速计算一下这4个评估指标。我们有一个真阳性，实际标签是1，并且我们预测为1：

truly_a_positive = (y_true == 1)

predicted_a_positive = (y_pred == 1)

# You thought it was a 1, and it actually was a 1true_positive = np.sum(predicted_a_positive * truly_a_positive)true_positive

Out:

1

类似地，一个假阳性是我们预测为1，但ground truth却是0：

# You thought it was a 1, but it was actually a 0false_positive = np.sum((y_pred == 1) * (y_true == 0))false_positive

Out:

4

现在，我相信你已经掌握了窍门。但是我们必须做数学运算才能知道预测的负样例吗？我们的并不是很聪明的分类器从不会预测为0，因此（y_pred==0）应该不会是真的：

# You thought it was a 0, but it actually was a 1false_negative = np.sum((y_pred == 0) * (y_true == 1))false_negative

Out:

0

# You thought it was a 0, and it actually was a 0true_negative = np.sum((y_pred == 0) * (y_true == 0))true_negative

Out:

0

让我们再来绘制一个混淆矩阵，如表3-2所示。

▼表3-2 混淆矩阵

要保证我们做的都是正确的，让我们再计算一下准确率。准确率应该是真阳性数据点数量加上真阴性数据点数量（即所有正确预测的数据点数）除以数据点总数：

accuracy = np.sum(true_positive + true_negative) / test_set_sizeaccuracy

Out:

0.2

成功了！接着给出精度，为真阳性数据点数除以所有正确预测的数据点数：

precision = np.sum(true_positive) / np.sum(true_positive + false_positive)precision

Out:

0.2

在我们的例子中，精度并不比准确率好。让我们用scikit-learn查看一下我们的数学运算：

metrics.precision_score(y_true, y_pred)

Out:

0.2

最后，召回率是我们正确分类为正样例占所有正样例的比例：

recall = true_positive / (true_positive + false_negative)recall

Out:

1.0

metrics.recall_score(y_true, y_pred)

Out:

1.0

召回率太棒了！但是，回到我们的模拟数据，很明显，这个优秀的召回率得分仅仅是运气好而已。因为在我们的模拟数据集中只有一个标签为1，而我们碰巧正确地对其进行了分类，所以我们得到了一个完美的召回率得分。

这是否就意味着我们的分类器是完美的呢？未必如此！但是我们却发现了3个有用的评估指标，似乎从互补的方面度量了我们分类器性能。

02 使用均方差、可释方差和R平方评分回归

在涉及回归模型时上述评估指标就不再有效了。毕竟，我们现在预测的是连续输出值，而不是区分分类标签。幸运的是，scikit-learn还提供了一些其他有用的评分函数：

mean_squared_error：对于回归问题，最常用的误差评估指标是对训练集中每个数据点的预测值和真实目标值之间的平方误差（所有数据点的平均值）进行度量。
explained_variance_score：一个更复杂的评估指标是度量一个模型对测试数据的变化或分配的可解释程度。通常使用相关系数度量可释方差的数量。
r2_score：R2得分（R平方）与可释方差得分密切相关，但使用一个无偏方差估计。它也被称为决定系数（coefficient of determination）。

让我们创建另一个模拟数据集。假设我们的观测数据看起来像是x值的一个sin函数。我们从生成0到10之间等间距的100个x值开始。

x = np.linspace(0, 10, 100)

可是，真实数据总是有噪声的。为了尊重这一事实，我们希望目标值y_true也是有噪声的。我们通过在sin函数中加入噪声来实现：

y_true = np.sin(x) + np.random.rand(x.size) - 0.5

这里，我们使用NumPy的rand函数在[0,1]范围内加入均匀分布的噪声，然后通过减去0.5将噪声集中在0周围。因此，我们有效地将每个数据点上下抖动最大0.5。

假设我们的模型足够聪明，能够计算出sin(x)的关系。因此，预测的y值如下所示：

y_pred = np.sin(x)

这些数据是什么样子的呢？我们可以使用matplotlib对其进行可视化：

import matplotlib.pyplot as plt

plt.style.use('ggplot')

%matplotlib inline

plt.figure(figsize=(10, 6))plt.plot(x, y_pred, linewidth=4, label='model')plt.plot(x, y_true, 'o', label='data')plt.xlabel('x')plt.ylabel('y')plt.legend(loc='lower left')

Out:

<matplotlib.legend.Legend at 0x7f3c2220f048>

生成的线图如图3-2所示。

▲图3-2 使用matplotlib生成的可视化结果

确定我们的模型预测性能最直接的评估指标是均方误差。对于每个数据点，我们看预测值和实际y值之间的差异，然后对其进行平方。再计算所有数据点的平方误差的平均值：

mse = np.mean((y_true - y_pred) ** 2)mse

Out:

0.08531839480842378

为了方便计算，scikit-learn提供了自有的均方误差实现：

metrics.mean_squared_error(y_true, y_pred)

Out:

0.08531839480842378

另一个常见的评估指标是测量数据的分散或变化：如果每个数据点都等于所有数据点的均值，那么数据中就没有分散或变化，我们就可以用一个数据值来预测所有未来的数据点。这将是世上最无聊的机器学习问题。

但我们发现这些数据点通常会遵循一些我们想要揭示的未知的、隐藏的关系。在前面的例子中，这就是导致数据分散的y=sin(x)关系。

我们可以测量能够解释的数据（或方差）的分散程度。这通过计算预测标签和实际标签之间的方差来实现；这是我们的预测无法解释的所有方差。如果用数据的总方差对这个值进行归一化，我们就得到未知方差的分数（fraction of variance unexplained）：

fvu = np.var(y_true - y_pred) / np.var(y_true)fvu

Out:

0.163970326266295

因为这个评估指标是一个分数，其值在0到1之间。我们可以从1中减去这个分数，得到可释方差的分数：

fve = 1.0 - fvufve

Out:

0.836029673733705

让我们用scikit-learn验证我们的数学运算：

metrics.explained_variance_score(y_true, y_pred)

Out:

0.836029673733705

完全正确！最后，我们可以计算出所谓的决定系数或者R²。R²与可释方差分数密切相关，并将先前计算的均方误差和数据中的实际方差进行比较：

r2 = 1.0 - mse / np.var(y_true)r2

Out:

0.8358169419264746

通过scikit-learn也可以获得同样的值：

metrics.r2_score(y_true, y_pred)

Out:

0.8358169419264746

我们的预测与数据拟合得越好，与简单的平均数相比，R²得分的值越接近1。R²得分可以取负值，因为模型预测可以是小于1的任意值。一个常量模型总是预测y的期望值，独立于输入x，得到的R2得分为0：

metrics.r2_score(y_true, np.mean(y_true) * np.ones_like(y_true))

Out:

0.0

关于作者：阿迪蒂亚·夏尔马（Aditya Sharma），罗伯特·博世（Robert Bosch）公司的一名高级工程师，致力于解决真实世界的自动计算机视觉问题。曾获得罗伯特·博世公司2019年人工智能编程马拉松的首名。

【图像分类】基于Pascal VOC2012增强数据的多标签图像分类实战

接着上一次的多标签分类综述,本文主要以Pascal VOC2012增强数据集进行多标签图像分类训练,详细介绍增强数据集制作.训练以及指标计算过程,并通过代码进行详细阐述,希望能为大家提供一定的帮助! ...
基于机器学习的脑电病理学诊断

机器学习(Machine learning, ML)方法有可能实现临床脑电(Electroencephalography, EEG)分析的自动化.它们可以分为基于特征的方法(使用手工制作的特征)和端到 ...
高分遥感影像城市建成区提取方法

GIS前沿今天以下文章来源于测绘学术资讯 ,作者国土资源遥感测绘学术资讯大地测量.卫星导航.无人机/航空/航天摄影测量.自动驾驶.地图.GIS.地图史等等学术.技术和资讯.105319275@QQ ...
使用HOG对卫星图像中的船舶进行分类

我在浏览Kaggle数据集时发现了这个有趣的机器学习数据集( https://www.kaggle.com/rhammell/ships-in-satellite-imagery).该机器学习数据集包 ...
神经网络的准确率和鲁棒性不能兼得？不，让我们来仔细看看

作者丨东瓠编辑丨极市平台极市导读针对目前对抗攻击领域存在的一个痛点问题:神经网络鲁棒性的提升会伴随着准确率的下降,本文提出了一个新的研究视角.从数据集的内在属性出发,发现神经网络在一定条件下可以 ...
准确率、召回率、精确度、F1分数和混淆矩阵

介绍准确率.召回率.精确度和F1分数是用来评估模型性能的指标.尽管这些术语听起来很复杂,但它们的基本概念非常简单.它们基于简单的公式,很容易计算. 这篇文章将解释以下每个术语: 为什么用它公式不 ...
终于有人把MACD精准逃顶和抄底的方法讲...

终于有人把MACD精准逃顶和抄底的方法讲透彻了,这个方法90%的股民都不知道,只送给有缘人,4个要点,所有新老股民收藏!!! 1 通过我多年的实盘经验得出,当股票形成死叉后又会出现变成金叉甚至出现&q ...
终于有人把业务中台、数据中台、技术中台都讲明白了

导读:2015年阿里巴巴提出"大中台,小前台"的中台战略,通过实施中台战略找到能够快速应对外界变化,整合阿里各种基础能力,高效支撑业务创新的机制. 阿里巴巴中台战略最早从业务中台和 ...
终于有人把前台、中台、后台都讲明白了

导读:很多人提到中台时自然会问:"既然有中台,那是否有前台和后台?它们各自的职责又是什么呢?"本文为你详细解答. 作者:欧创新邓頔来源:大数据DT(ID:hzdashuju) ...
华为工程师终于把困扰我多年的「操作系统和计算机网络」讲明白了

写在前面计算机网络.计算机操作系统这两个"兄弟"是所有开发岗位都需要"结拜"的,不管你是 Java.C++还是测试.对于后端开发的童鞋来说,计算机网络的重要性 ...
终于有人把「专注力」讲明白了！

关于专注力,我们可能从来没有正确的理解过. 其实,有时候注意力不集中,不是你的错,想获得专注力,也并没有你想象中的那么难.以下,Enjoy: 常识君|有话说作者:Ray先森来源:管理的常识(ID: ...
终于有人把「专注力」讲明白了

关于专注力,我们可能从来没有正确的理解过. 其实,有时候注意力不集中,不是你的错,想获得专注力,也并没有你想象中的那么难.以下,Enjoy: 作者:Ray先森来源:管理的常识(ID:Guanlide ...
终于有人发声了：主力想在低位吸筹，散户不肯割肉主力怎么办？

庄家是股票市场上一个特殊的群体,他们拥有着雄厚的资金实力.灵通的消息来源还有专业的操盘团队,在股票市场上盈利的可能性和幅度都是普通散户无法比拟的.因此,大多数庄家介入的股票,都会有比较大的上涨幅度.股 ...
终于有人把「内卷」给讲明白了！！！

作者:王见现来源:大数据DT(ID:hzdashuju) 1. 什么是内卷很久很久以前,地球上有一个小镇.小镇上有很多鞋店,这些鞋店每天上午10点开门,中午12点到下午2点午休,下午2点到晚上6点 ...

终于有人把准确率、精度、召回率、均方差和R²都讲明白了

相关推荐