理解过拟合和欠拟合,这三大理论绝不能绕过

全文共2306字,预计学习时长5分钟

对机器学习模型而言,最糟糕的两种情况无非是构建无用的知识体系,或是从训练数据集中一无所获。在机器学习理论中,这两种现象分别被称为过拟合和欠拟合,是现代深度学习解决方案中的两大挑战。

深度学习中的过拟合就像人们产生的错觉,是由于算法开始推断不存在于数据集的模式而产生的;欠拟合则更像学习障碍,阻止人们获取相关知识去完成既定任务。

尽管过拟合十分重要,但要解决这一问题并不容易,深度学习应用常采用针对某个算法的技术以避免过拟合。如果考虑到人们也极易发生过拟合,进而转化为对机器学习模型的主观评价,那么这个问题就会变得更加严峻。想想上周你有多少次出于刻板印象来评价事物?一定很多。

今天,本文将提出三种不同的理论,这些理论有助于理解机器学习模型中的过拟合和欠拟合问题。

毫无疑问,我们错觉或幻想的有效性存在于深度学习算法训练所使用的数据集中,由此产生更加混乱的局面。在研究深度学习算法时会本能地考虑数据,而常常遗忘另一个同样重要的元素:知识。

在深度学习算法中,数据通常表示为一个或多个数据库中的持久记录,而知识通常表示为可以在数据中进行验证的逻辑规则。深度学习模型用于推断可应用于同一域的新数据集规则。可惜,对于深度学习者来说,强大的计算能力并不能直接构建知识而产生过拟合。

过拟合和欠拟合问题关系到机器学习模型基于初始训练示例构建相关知识的能力。概念上,欠拟合与机器学习算法无法从初始训练数据中推断出有效知识有关。与此相反,过拟合与创建的假设过于普通或抽象而又不切实际的假设模型有关。简单来说,欠拟合模型过于简单,而过拟合模型往往会产生错觉(想象不存在的东西)。

模型容量:量化机器学习模型中过拟合和欠拟合的主要因素

尝试制定一个简单的方法来理解机器学习算法中的过拟合和欠拟合。

典型的机器学习场景始于一组用于训练和测试算法性能的初始数据集。统计学表明,80%的数据集用作训练模型,剩余的20%用作测试。在训练阶段,输出模型会对训练数据产生一定的偏差,通常将其称为训练误差。同样,在测试阶段产生的偏差被称为测试误差。由此可见,机器学习模型的性能可以根据其完成两个基本事物的能力来判断:

1. 降低训练误差

2 . 缩小训练误差和测试误差差距

这两个简单的规则将有助于理解过拟合和欠拟合。基本上,如果模型无法遵循规则1,不能将训练集的误差降到较低水平,就会发生欠拟合。

如果模型无法遵循规则2,以至于训练误差和和测试误差之间的差距太大,就会发生过拟合。明白了吗?这两个简单的规则可以帮助我们量化机器学习算法中过拟合和欠拟合水平。

另一个有助于机器学习从业者处理欠拟合和过拟合的重要概念是容量。概念上,容量表示机器学习模型可以选择为解决方案的函数集。例如,la线性回归模型可以将形式为y = w * x + b的所有1次多项式作为容量(意味着所有可能的解)。

容量这一概念与机器学习模型高度相关。技术上,机器学习算法在其容量与其任务的复杂性及训练数据集的输入成正比时表现最佳。容量低的机器学习模型在解决复杂任务时是不切实际的,趋于欠拟合。而同时,容量高的模型则趋于过拟合。就此而言,容量表示衡量模型欠拟合或过拟合倾向的度量。

有助于理解机器学习模型中过拟合和欠拟合的三种理论

奥卡姆剃刀原理

奥卡姆剃刀原理是哲学思维在机器学习中的应用。这一古老的哲学理论可以追溯到1287年至1347年间,与托勒密等哲学家有关。奥卡姆的剃刀理论从本质上指出,如果用竞争性的假设来解释已知的观察结果,应该选择最简单的假设。从夏洛克·福尔摩斯到神探阿蒙,世界级的侦探无不运用奥卡姆剃刀原理,遵循最简单、最合乎逻辑的假设来揭开复杂的奥秘。

奥卡姆剃刀原理是日常生活中需要遵循的一个明智的哲学原则,但其在机器学习中的应用充其量只会带来争议。从计算的角度来看,在因资源昂贵而臭名昭着的算法世界中,简单的假设当然是首选。另外,简单的假设更容易在计算上推广。

然而,超简单假设的挑战在于,它们往往过于抽象,无法对复杂场景进行建模。因此,具有足够大的训练集和适当大小的维数模型应该选择足够复杂的假设,以降低训练误差。否则可能会导致欠拟合。

VC维

奥卡姆剃刀原理是一个很好的精简原则,但那些抽象的理想并没有直接转化为生活在数字世界中的机器学习模型。提出量化统计算法容量模型的统计理论的创始人Vapnik和Chervonekis(VC)提出了这一挑战。VC维是m的最大可能值,假设存在m个不同的x点的训练集,机器学习目标函数可以任意地标记该m个不同的x点。

VC维是统计学习的基石之一,也是许多引人关注的理论基础。例如,VC维帮助解释了随着训练集的大小增加,机器学习模型中的泛化误差和训练误差之间的差距减小,但随着模型的容量增长,相同的差距也会增加。换言之,具有大量训练集的模型更有可能选择近似正确的假设,但如果潜在假设太多,那么最终可能会得到错误的假设。

没有免费的午餐定理

没有免费的午餐定理指出,在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上都有相同的错误率。很多人将没有免费的午餐定理看作是反推数学理论,限制机器学习算法,迫使我们用有限的训练集来生成半绝对知识。

例如,在逻辑中,从有限集合的例子中推断出通用规则是“不合逻辑的”。对机器学习从业者而言,没有免费的午餐定理从另一个方向证明了只要观察足够,就没有比这更好的算法了。换言之,机器学习模型的作用不是找到一个通用的学习函数,而是找到一个能更好适应目标场景的假设。

过拟合和欠拟合仍然是机器学习应用中最严峻的挑战之一。VC维、奥卡姆剃刀原理和没有免费的午餐定理等理论为分析机器学习解决方案中过拟合和欠拟合问题的根源提供了强有力的理论基础。理解和量化机器学习模型的能力仍然是理解其过拟合和欠拟合倾向的基本步骤。

(0)

相关推荐