深入剖析机器学习中的统计思想
现在机器学习中大家达成了一个共识: 如果你在用一个机器学习方法,而不懂其基础原理和解释性,这是一件非常可怕的事情。
统计强调推理,而机器学习则强调预测。执行统计信息时,需要推断生成数据的过程。 当你进行机器学习时,你想知道用什么样的变量,以及预测未来会是什么样子。
以统计思想的视角,了解数据分布、评估各种结果的概率、理解数据生成过程、模型解释性是关注的重点,而机器学习更多的关注的是预测的准确性,我们知道,模型的实际应用光有准确性是不够的,人类到现在还没有一个非常成功的机器(系统),工作的好却不能解释。所以机器学习中,统计思想的应用是非常重要的。
统计学与计算机学家之争
原来统计是在统计系,机器学习是在计算机系,这两个是不相来往的,而且互相都不认同对方的价值。专注于机器学习的计算机学家认为那些统计理论没有用,不解决问题;而统计学家则认为计算机学家只是在重新建造轮子,没有新意。
然而,随着机器学习的迅猛发展,统计学家认识到计算机学家正在做出的贡献,而计算机学家也认识到统计的理论和方法论的普遍性意义。
Boosting, SVM 和稀疏学习是机器学习界也是统计界,是近二十年来最活跃的方向,其实是二者相辅相成的结果。比如,SVM的理论其实很早被Vapnik等提出来了,但计算机界发明了一个有效的求解算法,而且后来又有非常好的实现代码被陆续开源给大家使用,于是SVM就变成分类算法的一个基准模型。
机器学家通常具有强的计算能力和解决问题的直觉,而统计学家长于理论分析,具有强的建模能力,因此,两者有很好的互补性。
所以两者融合是必然的趋势。
统计思想对机器学习的巨大贡献
我们清楚的知道,机器学习在应用中迅猛发展,是人工智能具体落地的主角,也是台前英雄,而统计却是幕后推动者。
- 机器学习是数据建模的计算机科学观点,侧重于算法方法和模型技能。
- 统计学习是数据建模的数学视角,侧重于模型参数的准确估计、模型有效性和拟合优度。
机器学习由于过度关注预测准确性,缺乏完全发展的推理概念。
1)似乎没有人认识到任何预测(参数估计等)都会受到随机误差和系统误差(偏差)的影响。统计学家会接受这是预测中不可避免的一部分,并会尝试估计错误。统计技术将尝试找到具有最小偏差和随机误差的估计。
2)在机器学习中似乎没有深入理解将模型应用于来自同一分布群体的新样本限制,尽管我们有划分训练集、测试集。实际上,源于统计思想的交叉验证和惩罚方法,指导在简约性和模型复杂性之间达到权衡,早已是统计中非常广泛的手段。而大部分机器学习从业者对这些指导原则似乎更为临时。
所以,机器学习从业者必须保持开放的思维并利用方法,并从应用统计和统计学习的密切相关领域中理解术语,并在实际中充分应用统计思想,才能更好的将机器学习应用到实践中。
正则化:统计中的惩罚思想
在机器学习中,我们在正则化和SVM中接触到惩罚方法,没学过统计的,会感觉很陌生,其实这是在统计中经常用的方法了。比如光滑样条Smooth Spline通过对二阶导数进行惩罚来控制拟合曲线的光滑程度;LASSO和Ridge regression回归。
惩罚的核心目的是限制参数空间的大小以降低模型复杂度,惩罚本身反应我们对对应统计问题的某种先验知识。惩罚有独特的概率上的解释,比如假设高斯噪声的线性模型中,LASSO的L1惩罚相当于给回归参数加上了一个Laplace prior,而岭回归Ridge regression中的L2惩罚则对应一般的normal prior。
在SVM的硬间隔支持向量机中,由于几何间隔本身代表的是距离,是非负的,像上图所示的红色、绿色两个噪声点会使得整个问题无解。所以引入惩罚因子(松弛变量)这种统计学中的思想,使SVM有了容错能力,更鲁棒了。
线性回归:随机变量和离差平方和
机器学习之前,线性回归其实已经是在统计学中用的最多的方法,所以如果我们理解线性回归算法,如果以数据和拟合的机器学习视角来看问题,可能就觉得太简单了,甚至理解的不那么深刻;而从统计的视角来看,就会发现还不是那么简单,意义还很多,看看其统计思想:
1、随机变量
Y= Xβ+ε
Y是 X的线性函数(部分)加上误差项,线性部分反映了由于X的变化而引起的Y的变化,误差项ε是随机变量,一般是均值为零的高斯分布。反映了除X和Y之间的线性关系之外的随机因素对Y的影响。是不能由X和Y之间的线性关系所解释的变异性。所以理解了随机变量,才能真正理解我们拟合优度目标。
2、离差平方和
- 总离差平方和反映因变量的n个观察值与其均值的总误差;
- 回归平方和反映自变量x的变化对因变量 y 取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和;
- 残差平方和反映除x以外的其他因素对 y 取值的影响,也称为不可解释的平方和
注意:离差平方和公式可以由均值为零的随机变量误差来推导。
朴素贝叶斯:贝叶斯定理
朴素贝叶斯算法所体现的统计学思想就更多了:
①、贝叶斯定理;②特征条件之间相互独立的假设。
这涉及很多统计与概率论的相关概念:条件概率,联合概率分布,先验概率,后验概率,独立性。
交叉验证:重采样方法
交叉验证本质上说是重采样方法,其思想起源是统计学。交叉验证准确度是可以解释为与模型正确的概率相关的东西。
交叉验证用在数据不是很充足的时候。
将样本数据进行切分。在得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓'交叉'。
支持向量机:统计学习理论
支持向量机的产生源于统计学习理论的突破。
统计学习理论是一种研究训练样本有限情况下的机器学习规律的学科。换句话说,统计学习理论中,学习的统计性能,即通过有限样本能否学习得到其中的一些规律?
在统计学习理论产生之前,机器学习中统计学中关于估计的一致性、无偏性和估计方差的界等,以及分类错误率等渐近性特征是实际应用中往往得不到满足,而这种问题在高维空间时尤其如此。
由万普尼克建立基于统计学习的机器学习理论,使用统计的方法,因此有别于归纳学习等其它机器学习方法。
(1)结构风险是为经验风险与置信风险的和。
(2)尽管经验风险最小化的归纳原则是一致的,但是一致性是在样本数量趋向无穷大时得到了,在样本点个数有限的情况下,仅仅用经验风险来近似期望风险是十分粗糙的,结构风险则是期望风险的一个上界。
基于这个理论的支持向量机,数学基础非常完备,闪烁着统计思想的火花,对机器学习的理论界以及各个应用领域都有极大的贡献。
贝叶斯估计:足够的观察数据会让分布更加真实
在贝叶斯估计中的统计思想有:
一个是贝叶斯定理
一个是观察数据,足够的观察数据会让估计更加符合数据的真实分布。
已经看到P(Θ)是先验分布。它代表了我们对参数真实价值的信念,就像我们的分布代表了我们对出售冰淇淋概率的看法一样。
左侧的P(Θ|data)称为后验分布。这是在我们计算右侧的所有内容并将观察到的数据考虑在内之后表示我们对参数值的信念的分布。
P(data|Θ )是似然分布。一般是高斯分布ℒ(data;μ,σ)。
因此,我们可以通过使用我们提供的参数的先验信念计算出后验分布。
这是两个观察点下拟合的情况:
这是10个数据观察点下的贝叶斯估计拟合的情况:
高斯过程:统计中高斯分布、贝叶斯定理、观察数据、均值、方差的意义
分布:高斯分布是实际中广泛的存在。
贝叶斯定理:从先验概率,即对一些关于事件发生概率的猜测开始,然后你观察当前事件发生的似然(可能性),并根据发生的事情更新你的初始猜测。 更新后,先验概率称为后验概率。
所以要预测新数据点的y值,从概率的视角看,我们可以用条件概率来预测,即在历史数据的X、Y值条件下,当前y的概率分布。
分布均值:对y*的最佳估计
GP建模中的关键假设是我们的数据可以表示为来自多元高斯分布的样本,我们有
我们对条件概率p(y* | y)感兴趣:'给定数据,y *的特定预测的可能性有多大?'。 这个条件概率仍然遵循高斯分布(推导过程略),所以有:
对y*的最佳估计是这种分布的平均值:
分布的方差:估计不确定性度量
我们估计的不确定性由方差给出: