【调参实战】BN和Dropout对小模型有什么影响？全局池化相比全连接有什么劣势？

2024-05-13 09:03:59

大家好，欢迎来到专栏《调参实战》，虽然当前自动化调参研究越来越火，但那其实只是换了一些参数来调，对参数的理解和调试在机器学习相关任务中是最基本的素质，在这个专栏中我们会带领大家一步一步理解和学习调参。

本次主要讲述图像分类项目中的BN层和Drouout层的调参对比实践，以及全连接层和池化层的对比实践。

作者&编辑 | 言有三

本文资源与结果展示

本文篇幅：3000字

背景要求：会使用Python和任一深度学习开源框架

附带资料：Caffe代码和数据集一份

同步平台：有三AI知识星球(一周内)

1 项目背景与准备工作

在卷积神经网络的设计中，早期出现的Dropout层可以降低模型过拟合的风险，增强模型的泛化性能。而随着Batch Normalization层的出现，Dropout逐渐被代替，Batch Normalization层不仅可以加速模型的训练，还在一定程度上缓解了模拟的过拟合风险。

与之类似，全连接层和全局池化层也是一对冤家，最早期的时候，对于分类任务来说网络最后层都是全连接层，但是因为它的参数量巨大，导致后来被全局池化层替代，那替换就一定是带来正向的结果吗？会不会有什么副作用？

这一期我们来对以上问题进行实践，本次项目开发需要以下环境：

(1) Linux系统，推荐ubuntu16.04或者ubuntu18.04。使用windows系统也可以完成，但是使用Linux效率更高。

(2) 最好拥有一块显存不低于6G的GPU显卡，如果没有使用CPU进行训练速度较慢。

(3) 安装好的Caffe开源框架。

2 Dropout和BN层实践

下面我们首先对Dropout和BN层进行实践，如果对这两者的理解不熟悉的，请查看往期文章：

【AI初识境】深度学习模型中的Normalization，你懂了多少？

【AI初识境】被Hinton，DeepMind和斯坦福嫌弃的池化，到底是什么？

本次的数据集和基准模型与上一期内容相同，大家如果不熟悉就去查看上一期的内容，链接如下：

【调参实战】如何开始你的第一个深度学习调参任务？不妨从图像分类中的学习率入手。

【调参实战】那些优化方法的性能究竟如何，各自的参数应该如何选择？

2.1 Dropout层

首先我们给基准模型添加Dropout层，它通常是被添加在网络靠后的位置，我们将其添加到conv5层后面，得到的模型结构如下：

完整的结构配置如下：

layer {

type: "ImageData"

top: "data"

top: "label"

include {

phase: TRAIN

}

transform_param {

mirror: true

crop_size: 224

mean_value: 104.0

mean_value: 117.0

mean_value: 124.0

}

image_data_param {

source: "list_train_shuffle.txt"

batch_size: 64

shuffle: true

new_height: 256

new_width: 256

}

layer {

type: "ImageData"

top: "data"

top: "label"

include {

phase: TEST

}

transform_param {

mirror: false

crop_size: 224

mean_value: 104.0

mean_value: 117.0

mean_value: 124.0

}

image_data_param {

source: "list_val_shuffle.txt"

batch_size: 64

shuffle: false

new_height: 224

new_width: 224

}

layer {

bottom: "data"

top: "conv1"

type: "Convolution"

param {

lr_mult: 1

decay_mult: 1

}

param {

lr_mult: 2

decay_mult: 0

}

convolution_param {

num_output: 64

pad: 1

kernel_size: 3

stride: 2

weight_filler {

type: "gaussian"

std: 0.01

}

bias_filler {

type: "constant"

value: 0

}

layer {

bottom: "conv1"

top: "conv1"

type: "ReLU"

}

layer {

bottom: "conv1"

top: "conv2"

type: "Convolution"

param {

lr_mult: 1

decay_mult: 1

}

param {

lr_mult: 2

decay_mult: 0

}

convolution_param {

num_output: 64

pad: 1

kernel_size: 3

stride: 2

weight_filler {

type: "gaussian"

std: 0.01

}

bias_filler {

type: "constant"

value: 0

}

layer {

bottom: "conv2"

top: "conv2"

type: "ReLU"

}

layer {

bottom: "conv2"

top: "conv3"

type: "Convolution"

param {

lr_mult: 1

decay_mult: 1

}

param {

lr_mult: 2

decay_mult: 0

}

convolution_param {

num_output: 128

pad: 1

kernel_size: 3

stride: 2

weight_filler {

type: "gaussian"

std: 0.01

}

bias_filler {

type: "constant"

value: 0

}

layer {

bottom: "conv3"

top: "conv3"

type: "ReLU"

}

layer {

bottom: "conv3"

top: "conv4"

type: "Convolution"

param {

lr_mult: 1

decay_mult: 1

}

param {

lr_mult: 2

decay_mult: 0

}

convolution_param {

num_output: 128

pad: 1

stride: 2

kernel_size: 3

weight_filler {

type: "gaussian"

std: 0.01

}

bias_filler {

type: "constant"

value: 0

}

layer {

bottom: "conv4"

top: "conv4"

type: "ReLU"

}

layer {

bottom: "conv4"

top: "conv5"

type: "Convolution"

param {

lr_mult: 1

decay_mult: 1

}

param {

lr_mult: 2

decay_mult: 0

}

convolution_param {

num_output: 256

pad: 1

stride: 2

kernel_size: 3

weight_filler {

type: "gaussian"

std: 0.01

}

bias_filler {

type: "constant"

value: 0

}

layer {

bottom: "conv5"

top: "conv5"

type: "ReLU"

}

layer {

type: "Dropout"

bottom: "conv5"

top: "conv5"

dropout_param {

dropout_ratio: 0.5

}

layer {

bottom: "conv5"

top: "pool5"

type: "Pooling"

pooling_param {

kernel_size: 7

stride: 1

pool: AVE

}

layer {

bottom: "pool5"

top: "fc"

type: "InnerProduct"

inner_product_param {

num_output: 20

weight_filler {

type: "xavier"

}

bias_filler {

type: "constant"

value: 0

}

layer {

type: "Accuracy"

bottom: "fc"

bottom: "label"

top: "accuracy_at_1"

accuracy_param {

top_k: 1

}

layer {

type: "Accuracy"

bottom: "fc"

bottom: "label"

top: "accuracy_at_5"

accuracy_param {

top_k: 5

}

layer {

bottom: "fc"

bottom: "label"

top: "loss"

type: "SoftmaxWithLoss"

}

我们试验了两个不同比率，即Dropout=0.5和Dropout=0.9，优化参数配置如下：

net: "allconv6.prototxt"

test_interval:100

test_iter:15

base_lr: 0.01

lr_policy: "step"

stepsize: 10000

gamma: 0.1

momentum: 0.9

weight_decay: 0.005

display: 100

max_iter: 100000

snapshot: 10000

snapshot_prefix: "models/allconv6_"

solver_mode: GPU

其与基准模型试验结果对比如下：

可以看出，添加Dropout之后，模型明显要稳定很多，但是其性能稍微有所下降，这是因为基准模型本身就比较小，Dropout会降低模型的容量。Dropout=0.5和Dropout=0.9时性能差不多，这都是比较常用的配置，更小的比率预期会进一步降低模型的性能，大家可以进行尝试。

2.2 BN层

DL之DNN：利用MultiLayerNetExtend模型【6*100+ReLU+SGD,dropout】对Mnist数据集训练来抑制过拟合

DL之DNN:利用MultiLayerNetExtend模型[6*100+ReLU+SGD,dropout]对Mnist数据集训练来抑制过拟合输出结果设计思路 190417更新核心代码 clas ...
基于GAN的自动驾驶汽车语义分割

重磅干货,第一时间送达语义分割是计算机视觉中的关键概念之一,语义分割允许计算机通过按类型对图像中的对象进行颜色编码.GAN建立在基于真实内容的基础上复制和生成原始内容的概念上,这使它们适合于在街景图 ...
CNN网络架构演进：从LeNet到DenseNet

卷积神经网络可谓是现在深度学习领域中大红大紫的网络框架,尤其在计算机视觉领域更是一枝独秀.CNN从90年代的LeNet开始,21世纪初沉寂了10年,直到12年AlexNet开始又再焕发第二春,从ZF ...
卷积神经网络与caffe Convolution层及参数设置

卷积神经网络(Convolutional Neural Network, CNN)是深度学习技术中极具代表的网络结构之一,在图像处理领域取得了很大的成功,在国际标准的ImageNet数据集上,许多成功 ...
Batch Normalization 的实战使用

Batch Normalization 的实战使用
【模型压缩】深度卷积网络的剪枝和加速（含完整代码）

" 记录一下去年12月份实验室的一个工作:模型的剪枝压缩,虽然模型是基于yolov3的魔改,但是剪枝的对象还是CBL层(即Conv Layer + BN Layer + LeakyReLU ...
【调参实战】那些优化方法的性能究竟如何，各自的参数应该如何选择？

大家好,欢迎来到专栏<调参实战>,虽然当前自动化调参研究越来越火,但那其实只是换了一些参数来调,对参数的理解和调试在机器学习相关任务中是最基本的素质,在这个专栏中我们会带领大家一步一步理解 ...
【调参实战】如何开始你的第一个深度学习调参任务？不妨从图像分类中的学习率入手。

大家好,欢迎来到专栏<调参实战>,虽然当前自动化调参研究越来越火,但那其实只是换了一些参数来调,对参数的理解和调试在机器学习相关任务中是最基本的素质,在这个专栏中我们会带领大家一步一步理解 ...
XGBoost、LightGBM与CatBoost算法对比与调参

机器学习 Author:louwill Machine Learning Lab 虽然现在深度学习大行其道,但以XGBoost.LightGBM和CatBoost为代表的Boosting算法仍有其广阔 ...
圆环的运用1--单调的T搭上这样的小长巾瞬间美爆

欢迎订阅"愉乐派钩织时尚",愉乐派将伴您度过每一个平凡而又有收获的日子.愉乐派的宗旨是:惟愿大家做个快乐的织女! 本公众号会不定期推荐中外编织的美衣美裙和小编自己钩编的作品.所有推 ...
干货分享：小程序运营实战指南：爆款小程序设计的3个原则

诸葛君说:相对于APP产品来说,小程序的产品属性更强,APP产品由于其独立性.功能多样性.内容丰富性等特征留给后期足够的运营空间.多样化的产品功能能够满足庞大用户群的需求,而对于小程序来说,由于其&q ...
重磅！深度学习知识总结和调参技巧开放下载了

随着世界技术的迭代与发展,人工智能和机器学习正在超自动化领域,扮演着越来越重要的角色.2020年的冠状病毒疫情突发,整个世界都在防疫的道路上披荆斩棘.人工智能发挥了重大作用,智能测温.智能消毒.智能建 ...
@参保人，这些医保小知识请收下，看病就医用得上！

┃来源:本立社保医疗保险保障着我们的健康,其重要性不言而喻.因此掌握一些基础的医保小知识,对大家来说也是尤为紧要了. 01 不要轻易停止缴纳医保医疗保险基金实行"收付实现制". ...
线上帮网友调桩的全过程，调桩后仅一天腹部小了两厘米。

线上帮网友调桩的全过程，调桩后仅一天腹部小了两厘米。
随便移动、高度可调，家里实用又强大的小桌子

不知道大家是不是跟笔者一样,在生活中经常会遇到手中的东西无处安放的情况,比如说在床上看电脑,放在被子上散热不好,又比如说在沙发上看电视,茶几又太远.不知道大家遇见过比较尴尬的情景是什么? 因为有这些小 ...

【调参实战】BN和Dropout对小模型有什么影响？全局池化相比全连接有什么劣势？

相关推荐