(4条消息) 深度学习中的epochs，batch

2024-06-17 13:51:32

深度学习框架中涉及很多参数，如果一些基本的参数如果不了解，那么你去看任何一个深度学习框架是都会觉得很困难，下面介绍几个新手常问的几个参数。

batch

深度学习的优化算法，说白了就是梯度下降。每次的参数更新有两种方式。

第一种，遍历全部数据集算一次损失函数，然后算函数对各个参数的梯度，更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍，计算量开销大，计算速度慢，不支持在线学习，这称为Batch gradient descent，批梯度下降。

另一种，每看一个数据就算一下损失函数，然后求梯度更新参数，这个称为随机梯度下降，stochastic gradient descent。这个方法速度比较快，但是收敛性能不太好，可能在最优点附近晃来晃去，hit不到最优点。两次参数的更新也有可能互相抵消掉，造成目标函数震荡的比较剧烈。

为了克服两种方法的缺点，现在一般采用的是一种折中手段，mini-batch gradient decent，小批的梯度下降，这种方法把数据分为若干个批，按批来更新参数，这样，一个批中的一组数据共同决定了本次梯度的方向，下降起来就不容易跑偏，减少了随机性。另一方面因为批的样本数与整个数据集相比小了很多，计算量也不是很大。

基本上现在的梯度下降都是基于mini-batch的，所以深度学习框架的函数中经常会出现batch_size，就是指这个。
关于如何将训练样本转换从batch_size的格式可以参考训练样本的batch_size数据的准备。

iterations

iterations（迭代）：每一次迭代都是一次权重更新，每一次权重更新需要batch_size个数据进行Forward运算得到损失函数，再BP算法更新参数。1个iteration等于使用batchsize个样本训练一次。

epochs

epochs被定义为向前和向后传播中所有批次的单次训练迭代。这意味着1个周期是整个输入数据的单次向前和向后传递。简单说，epochs指的就是训练过程中数据将被“轮”多少次，就这样。

举个例子

训练集有1000个样本，batchsize=10，那么：
训练完整个样本集需要：
100次iteration，1次epoch。

具体的计算公式为：
one epoch = numbers of iterations = N = 训练样本的数量/batch_size

注：

在LSTM中我们还会遇到一个seq_length,其实
batch_size = num_steps * seq_length

【AI初识境】深度学习模型中的Normalization，你懂了多少？

这是<AI初识境>第6篇,这次我们说说Normalization.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 数据经过归一化和标准化后可以加快梯度下降的求解速度,这就是Ba ...
深度学习三十问！一位算法工程师经历30+场CV面试后总结的常见问题合集（含答案）

作者丨灯会来源丨极市平台编辑丨极市平台极市导读作者灯会为21届中部985研究生,凭借自己整理的面经,去年在腾讯优图暑期实习,七月份将入职百度cv算法工程师.在去年灰飞烟灭的算法求职季中,经过3 ...
完整 | 神经网络的工作原理介绍

编者荐语人工神经网络(artificial neural network,ANN),简称神经网络(neural network,NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型.神经网 ...
梯度下降法的三种形式BGD、SGD以及MBGD

阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. 总结在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度下降法 ...
tensorflow 学习笔记-- 深度学习中epochs batchsize iteration的概念

深度学习框架中涉及很多参数,如果一些基本的参数如果不了解,那么你去看任何一个深度学习框架是都会觉得很困难,下面介绍几个新手常问的几个参数. batch 深度学习的优化算法,说白了就是梯度下降.每次的参 ...
【AI初识境】如何增加深度学习模型的泛化能力

这是专栏<AI初识境>的第9篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. 今天来说说深度学习中的generalization问题,也就是泛化和正则化有关的内容. 作者 ...
【连载17】GoogLeNet Inception V2

公众号后台回复"python",立刻领取100本机器学习必备Python电子书 GoogLeNet Inception V2在<Batch Normalization: Ac ...
HALCON 20.11：深度学习笔记(5)

HALCON 20.11.0.0中,实现了深度学习方法.关于超参数的有关设置内容如下: 不同的DL方法被设计用于不同的任务,它们的构建方式也会有所不同.它们都有一个共同点,即在模型的训练过程中都面临着 ...
(5条消息) VC++学习之VC中常见问题

(1)为什么某个类突然在工作区间里面突然看不见了? 只是类隐藏了,打开FILEVIEW,找到隐藏类的头文件,随便敲一下键盘的空格键,类就会在CLASSVIEW中显示了 (2)在基于对话框的程序中,一按 ...
(44条消息) Vue.js中 watch(深度监听)的最易懂的解释

假设有如下代码: <div><p>FullName: {{fullName}}</p><p>FirstName: <input type=&quo ...
深度学习中的知识蒸馏技术(下)

本文概览: 写在前面: 这是一篇介绍知识蒸馏在推荐系统中应用的文章,关于知识蒸馏理论基础的详细介绍,请看上篇文章: 1. 背景介绍 1.1 简述推荐系统架构如果从传统角度来看实际的工业推荐系统,粗略 ...
深度学习中的知识蒸馏技术

本文概览: 1. 知识蒸馏介绍 1.1 什么是知识蒸馏? 在化学中,蒸馏是一种有效的分离不同沸点组分的方法,大致步骤是先升温使低沸点的组分汽化,然后降温冷凝,达到分离出目标物质的目的.化学蒸馏条件:( ...
一文概览深度学习中的激活函数

人工智能算法与Python大数据致力于提供深度学习.机器学习.人工智能干货文章,为AI人员提供学习路线以及前沿资讯 23篇原创内容公众号点上方人工智能算法与Python大数据获取更多干货在右上 ...
总结 | 一文读懂深度学习中的各种卷积

仅作学术分,如有侵权,联系删除转载于 :机器之心,towardsdatascience 如果你听说过深度学习中不同种类的卷积(比如 2D / 3D / 1x1 /转置/扩张(Atrous)/空间可分 ...
(7条消息) 将QT中QRadioButton按钮从选中状态设置为未选中状态

笔者初学QT,在开发过程中,遇到了一个问题,比如说像下图这样的情况假如要重新考试那么对于软件来说,应该要做的一个措施就是,在用户点击Yes之后,将用户所有的已经选中的答案的状态设为未选中状态,那么 ...
(2条消息) opencv学习（十九）之均值滤波blur

从本篇开始采用opencv3.2版本进行编译!!! 均值滤波是一种典型的线性滤波算法,主要是利用像素点邻域的像素值来计算像素点的值.其具体方法是首先给出一个滤波模板kernel,该模板将覆盖像素点周围 ...

(4条消息) 深度学习中的epochs，batch

batch

iterations

epochs

相关推荐