机器学习入门02

目录

  • 1- 线性回归
  • 2- 训练与损失
    • 平方损失(L2 损失)
  • 3- 理解
    • 问题
    • 解答
  • 4- 关键词

原文链接:https://developers.google.com/machine-learning/crash-course/descending-into-ml/

线性回归是一种找到最适合一组点的直线或超平面的方法。

回到顶部

1- 线性回归

线性回归是一种找到最适合一组点的直线或超平面的方法。

以数学形式表达:y=mx+b" role="presentation" style="position: relative;">y=mx+by=mx+b

  • y指的是试图预测的值
  • m指的是直线的斜率
  • x指的是输入特征的值
  • b指的是 y 轴截距

按照机器学习的惯例来书写此方程式:

y′=b+w1x1" role="presentation" style="position: relative;">y′=b+w1x1y′=b+w1x1

回到顶部

2- 训练与损失

简单来说,训练模型表示通过有标签样本来学习(确定)所有权重和偏差的理想值。
在监督式学习中,机器学习算法构建模型的方式:检查多个样本并尝试找出可最大限度地减少损失的模型;这一过程称为经验风险最小化

损失是一个数值,表示对于单个样本而言模型预测的准确程度。如果模型的预测完全准确,则损失为零,否则损失会较大。
训练模型的目标是从所有样本中找到一组平均损失“较小”的权重和偏差。

能否创建一个数学函数(损失函数),以有意义的方式汇总各个损失?

平方损失(L2 损失)

平方损失是一种常见的损失函数。

单个样本的平方损失是“标签值与预测值两者差平方”:(observation - prediction(x))2 ,也就是 (y - y')2

均方误差 (MSE) 指的是每个样本的平均平方损失。
要计算 MSE,请求出各个样本的所有平方损失之和,然后除以样本数量。
         MSE=1N∑(x,y)∈D(y−prediction(x))2" role="presentation" style="position: relative;">MSE=1N∑(x,y)∈D(y−prediction(x))2MSE=1N∑(x,y)∈D(y−prediction(x))2

  • (x, y)指的是样本,其中x指的是模型进行预测时使用的特征集,y指的是样本的标签。
  • prediction(x)指的是权重和偏差与特征集x结合的函数。
  • D指的是包含多个有标签样本(即(x, y))的数据集。
  • N指的是D中的样本数量。

虽然 MSE 常用于机器学习,但它既不是唯一实用的损失函数,也不是适用于所有情形的最佳损失函数。

回到顶部

3- 理解

问题

对于以下曲线图中显示的两个数据集,哪个数据集的均方误差 (MSE) 较高

解答

右侧的数据集。--- 正确
线上的 8 个样本产生的总损失为 0。不
过,尽管只有两个点在线外,但这两个点的离线距离依然是左图中离群点的 2 倍。
平方损失进一步加大差异,因此两个点的偏移量产生的损失是一个点的 4 倍。
MSE=02+02+02+22+02+02+02+22+02+0210=0.8" role="presentation" style="position: relative;">MSE=02+02+02+22+02+02+02+22+02+0210=0.8MSE=02+02+02+22+02+02+02+22+02+0210=0.8

左侧的数据集。
线上的 6 个样本产生的总损失为 0。
不在线上的 4 个样本离线并不远,因此即使对偏移求平方值,产生的值仍然很小:
MSE=02+12+02+12+02+12+02+12+02+0210=0.4" role="presentation" style="position: relative;">MSE=02+12+02+12+02+12+02+12+02+0210=0.4MSE=02+12+02+12+02+12+02+12+02+0210=0.4

回到顶部

4- 关键词

偏差 (bias)
距离原点的截距或偏移。偏差(也称为偏差项)在机器学习模型中用 b 或 w0 表示。
例如,在下面的公式中,偏差为 b:

y′=b+w1x1+w2x2+…wnxn" role="presentation" style="position: relative;">y′=b+w1x1+w2x2+…wnxny′=b+w1x1+w2x2+…wnxn
请勿与预测偏差混淆。

权重 (weight)
线性模型中特征的系数,或深度网络中的边。
训练线性模型的目标是确定每个特征的理想权重。
如果权重为 0,则相应的特征对模型来说没有任何贡献。

线性回归 (linear regression)
一种回归模型,通过将输入特征进行线性组合输出连续值。

推断 (inference)
在机器学习中,推断通常指以下过程:通过将训练过的模型应用于无标签样本来做出预测。
在统计学中,推断是指在某些观测数据条件下拟合分布参数的过程。(请参阅维基百科中有关统计学推断的文章。)

经验风险最小化 (ERM, empirical risk minimization)
用于选择可以将基于训练集的损失降至最低的函数。与结构风险最小化相对。

损失 (Loss)
一种衡量指标,用于衡量模型的预测偏离其标签的程度。或者更悲观地说是衡量模型有多差。
要确定此值,模型必须定义损失函数。
例如,线性回归模型通常将均方误差用作损失函数,而逻辑回归模型则使用对数损失函数。

均方误差 (MSE, Mean Squared Error)
每个样本的平均平方损失。MSE 的计算方法是平方损失除以样本数。
TensorFlow Playground 显示的“训练损失”值和“测试损失”值都是 MSE。

平方损失函数 (squared loss)
在线性回归中使用的损失函数(也称为 L2 损失函数)。
该函数可计算模型为有标签样本预测的值和标签的实际值之差的平方。
由于取平方值,因此该损失函数会放大不佳预测的影响。
也就是说,与 L1 损失函数相比,平方损失函数对离群值的反应更强烈。

训练 (training)
确定构成模型的理想参数的过程。

(0)

相关推荐

  • 【原创】支持向量机原理(五)线性支持回归

    【原创】支持向量机原理(五)线性支持回归

  • 交叉熵损失(Cross-entropy)和平方损失(MSE)究竟有何区别?

    一.概念区别 1. 均方差损失函数(MSE) 简单来说,均方误差(MSE)的含义是求一个batch中n个样本的n个输出与期望输出的差的平方的平均值 2. Cross-entropy(交叉熵损失函数) ...

  • 【原创】机器学习从零开始系列连载(2)——线性回归

    本周剩余内容: 2. 建模方法回顾 2.0 偏差与方差 2.1 线性回归-Linear Regression 2.1.1 模型原理 2.1.2 损失函数 2.2 支持向量机-Support Vecto ...

  • 损失函数漫谈

    作者: 张黄斌 出处:https://mp.weixin.qq.com/s?__biz=MTEwNTM0ODI0MQ==&mid=2653455932&idx=1&sn=3ff ...

  • 机器学习:模型评价指标总结

    子曰:"温故而知新,可以为师矣. 混淆矩阵 混淆矩阵是一种特定的矩阵用来呈现算法性能的可视化效果,通常用于二分类模型.其每一列代表预测值,每一行代表的是实际的类别. 其实就是把所有类别的预测 ...

  • 线性回归中的L1与L2正则化

    在这篇文章中,我将介绍一个与回归相关的常见技术面试问题,我自己也经常会提到这个问题: 描述回归建模中的L1和L2正则化方法. 在处理复杂数据时,我们往往会创建复杂的模型.太复杂并不总是好的.过于复杂的 ...

  • 机器学习入门指南(2021版)

    大家好,我是老胡. 这是为朋友社群准备的一篇机器学习入门指南,分享了我机器学习之路看过的一些书.教程.视频,还有学习经验和建议,希望能对大家的学习有所帮助. pdf版思维导图,后台回复:指南 Pyth ...

  • 机器学习入门

    首先我想说的是,欢迎批评.从纷杂的想法中总结出一点东西,是一个及其困难也非常有意思的工作,不可避免会犯错误.发现错误并且改正,同样是一个非常有意思的过程.我觉得不确定的用紫色标记. 机器学习,mach ...

  • 机器学习入门2

    写在前面的话,我希望能够一起学习,但是事情总是计划赶不上变化,两个德国人退出了.孟萌在南德实习,李媛和张鲁津还有别的Project要忙,大家都很忙.我这一学期就两门课,所以我有足够的时间.幸好这门课还 ...

  • 机器学习入门3

    在开始讲核函数之前,我想说一个有趣的故事.最近我在粉天行九歌,里面三姬分金的故事,让我发自内心的迷上了韩非.将军姬无夜贪婪好色,觊觎王权.他的三个美姬分钱,公子韩非制定了一套博弈规则,用策略颠覆了常识 ...

  • Python入门02 — Python安装及开发环境配置

    Python 是一款易于学习且功能强大的编程语言. 它具有高效率的数据结构,能够简单又有效地实现面向对象编程.Python 简洁的语法与动态输入之特性,加之其解释性语言的本质,使得它成为一种在多种领域 ...

  • 良心推荐:机器学习入门资料汇总及学习建议(2018版)

    本文转载自:机器学习初学者 作者           :黄海广 机器学习初学者公众号自从2018年10月开设以来,发表了不少机器学习入门的宝贵资料,受到广大机器学习爱好者的好评,本文对2018年本站发 ...

  • 机器学习入门:4大基础数学技能一览

    https://m.toutiao.com/is/Jo6h3oG/ 机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识.简单来说,机器学习涉及面很广,数学知识和算法都 ...

  • 机器学习入门之隐马尔科夫模型

    一个生活中的例子 假设你想捉摸老板每天的心情是好是坏,以此选择一个合适的汇报时机.你每天中午都会和老板一起吃食堂,而食堂午餐只能从川菜.粤菜.东北菜和淮扬菜四种中选择一种.你感觉老板每天心情和午餐吃什 ...

  • 机器学习入门01

    原文链接:https://developers.google.com/machine-learning/crash-course/framing (监督式)机器学习的定义:机器学习系统通过学习如何组合 ...