最小二乘法,了解一下?

最小二乘法是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具。最小二乘很简单,也在业界得到了广泛使用。

但是对于最小二乘法和它的故事,也许很多人并不了解,今天给大家做一下分享。

1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。

时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥伯斯根据高斯计算出来的轨道重新发现了谷神星。

高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中,而法国科学家勒让德于1806年独立发现“最小二乘法”,但因不为世人所知而默默无闻。

为了方便大家理解最小二乘法,给大家讲个故事。

假设身高是变量X,体重是变量Y,我们都知道身高与体重有比较直接的关系。生活经验告诉我们:一般身高比较高的人,体重也会比较大。但是这只是我们直观的感受,只是很粗略的定性的分析。

在数学世界里,我们大部分时候需要进行严格的定量计算:能不能根据一个人的身高,通过一个式子就能计算出他或者她的标准体重?

我们可以采样一批人的身高体重数据, (x1​,y1​),(x2​,y2​),⋯,(xn​,yn​),其中x是身高,y是体重。

生活常识告诉我们:身高与体重是一个近似的线性关系,用最简单的数学语言来描述就是y = \beta_0+\beta_1xy=β0​+β1​x

于是,接下来的任务就变成:怎么求出这个β0​与β1​呢?

为了计算β0​,β1​​的值,我们采取如下规则:β0​,β1​应该使计算出来的函数曲线与观察值的差的平方和最小。用数学公式描述就是:

其中,y_{ie}yie​表示根据y=\beta_0 + \beta_1xy=β0​+β1​x估算出来的值,y_iyi​是观察得到的真实值。

这样,样本的回归模型很容易得出:

现在需要确定β0​、β1​,使cost function最小。
大家很容易想到,对该函数求导即可找到最小值:

将这两个方程整理后使用克莱姆法则,很容易求解得出:

根据这个公式,只需要将样本都带入就可以求解出相应的参数。

如果我们推广到更一般的情况,假如有更多的模型变量
x1,x2,⋯,xm(注意:x_1x1​是指 一个样本,x1是指样本里的一个模型相关的变量),可以用线性函数表示如下:

y(x1,⋯,xm;β0​,⋯,βm​)=β0​+β1​x1+⋯+βmxm

对于n个样本来说,可以用如下线性方程组表示:

如果将样本矩阵x_i^hxih​记为矩阵A,将参数矩阵记为向量\betaβ,真实值记为向量Y,上述线性方程组可以表示为:

即A \beta = Y=Y

对于最小二乘来说,最终的矩阵表达形式可以表示为:

min∣∣Y∣∣2​

最后的最优解为:

β=(ATA)−1ATY

2021华为云 AI 实战营——华为云员工都在学的AI实战营,快来报名免费学习吧~华为云AI实战营_云主机_云服务器_华为云

点击关注,第一时间了解华为云新鲜技术~华为云博客_大数据博客_AI博客_云计算博客_开发者中心-华为云

(0)

相关推荐

  • 什么是异方差?如何处理异方差?

    目录 1 一些例子 2 什么是异方差 3异方差产生的原因 4 异方差后果 5 如何识别异方差 6 补救 1 一些例子 消费函数,收入不同,边际消费倾向如何变化? 企业的投资.销售收入与利润:大型企业的 ...

  • Excel应用大全 | 什么是回归线

    一本书教会你分分钟搞定数据分析! 回归是一种统计方法,这种方法可以用来建立数学模型,从而根据一个或多个变量来预测另一个变量的值.回归分析的本质是如何确定两个或多个变量之间的相关关系,并依据估计结论做推 ...

  • Matlab中的偏最小二乘法(PLS)回归模型,离群点检测和变量选择

    原文链接:http://tecdat.cn/?p=22319 本文建立偏最小二乘法(PLS)回归(PLSR)模型,以及预测性能评估.为了建立一个可靠的模型,我们还实现了一些常用的离群点检测和变量选择方 ...

  • 两阶段最小二乘法TSLS案例分析

    两阶段最小二乘回归(2sls回归)是解决内生性问题的常用方法.上文中对两阶段最小二乘法做了基本介绍,本文将通过案例说明具体操作步骤. 1 背景 本案例引入Mincer(1958)关于工资与受教育年限研 ...

  • 一文读懂内生性问题之两阶段最小二乘法TSLS

    TSLS,即两阶段最小二乘回归.是用于解决内生性问题的一种方法,除TSLS外还可使用GMM估计. 内生变量是指与误差项相关的解释变量.对应还有一个术语叫'外生变量',是指与误差项不相关的解释变量. 产 ...

  • 偏最小二乘法路径模型分析plspm

    PLS-PM是一种用于研究多个观测变量的数据分析方法,其中多个观测变量可以汇总为一个潜在变量,并且潜在变量之间存在线性关系.它将主成分分析.典型相关分析和多元回归结合起来迭代估计,是一种因果建模的方法 ...

  • PLS SEM:基于偏最小二乘法的结构方程模型

    PLS SEM:基于偏最小二乘法的结构方程模型

  • R语言工具变量与两阶段最小二乘法

    原文链接:http://tecdat.cn/?p=5374 我们要估计的模型是 其中 是解释变量, 和 是我们想要估计的系数.x是控制变量,d是治疗变量.我们对我们治疗d对y的影响特别感兴趣. 生成数 ...

  • 382 优化设计方法-拟合-最小二乘法

    382 优化设计方法-拟合-最小二乘法 背景 确定优化模型后,就可以利用已知数据对模型中的待定常系数进行拟合确定. 已知数据可为软件计算数据,也可为实验数据. 基于数据分析建立的优化模型,已知数据的质 ...

  • 线性回归与最小二乘法

    线性回归模型是使用最广泛的模型之一,也最经典的回归模型,如下所示 x轴表示自变量x的值,y轴表示因变量y的值,图中的蓝色线条就代表它们之间的回归模型,在该模型中,因为只有1个自变量x,所以称之为一元线 ...

  • 3D曲面重建之移动最小二乘法

    干货第一时间送达 本文我们思考这样一个问题:如何在一组逐点值的给定域上估计该域的一般函数? 这种估计对于给定域上PDE数值的求解,根据扫描数据进行表面重建,或者理解采集到数据的数据结构都有所帮助.下面 ...