如何理解机器学习中的“偏差”和“方差”?
假设有如下未知的曲线(用虚线画出表示我们并不真正清楚该曲线的具体方程),因为未知,所以下面称为“上帝曲线”。在“上帝曲线”的附近会产生一些随机数据,这就是之后要用到的数据集:


可以看到线性回归比较简单,和“上帝曲线”相差较大,也就是“偏差”较大。而多项式回归可以较好的拟合“上帝曲线”,所以说该模型的“偏差”较小。


可见,较简单的线性回归变化不大,也就是说“方差”较小。而多项式回归对数据太敏感,变化太大,也就是说“方差”较大。因此带来的后果是,修改数据后对“上帝曲线”的拟合很糟糕。
综上,可以知道“偏差”和“方差”对机器学习的影响是:
(1)“欠拟合”:较简单的模型“偏差”较大,不能对数据集进行很好的拟合,从而与“上帝曲线”相差较大,这在机器学习中称为“欠拟合”。解决方案是选择“偏差”小的模型,即复杂度高的模型。
(2)“过拟合”:复杂的模型,可以较好地拟合当前数据集,但由于“方差”较大,反而和“上帝曲线”相距较远,这在机器学习中称为“过拟合”。解决方案是选择“方差”小的模型,即复杂度低的模型。
所以我们要选择恰当的复杂度的模型,其“偏差”和“方差”也都适度,才能“适度拟合”:

最后用一幅图来总结,由于“偏差”和“方差”的存在,在机器学习中我们要选择恰当的模型复杂度:

赞 (0)