基于Pre-trained模型加速模型学习的6点建议

2024-06-01 15:39:30

首先，为什么要调整模型？

像卷积神经网络( CNN )这样的深度学习模型具有大量的参数；一般称之为超参数，因为它们不是固定值，需要迭代优化。通常可以通过网格搜索的方法来查找这些超参数的最佳值，但需要大量硬件和时间开销。那么，一个真正的数据科学家是否满足于只是猜测这些超参数呢？答案当然是否定的。

改进模型的最佳方法之一是，基于专业团队的设计和体系结构上来进行改进，但这些专业的知识往往需要对某一领域具有深入的了解，且通常需要有强大的硬件支持。一般这些专业的团队都喜欢把他们的训练好的模型（pre-trained model）开源出来，无偿提供给别人使用。基于这些pre-trained model来做研究和应用，可以省去大量的时间和资源。

深度学习技巧

这里分享几种方法，如何基于预训练好的模型来降低深度学习模型训练时间，提升模型的准确性:

1、选择最适用于做pre-trained模型的网络结构：了解迁移学习（transfer learning）的优点，或者一些强大的CNN网络结构。主要考虑，有些领域之间看起来不明显，但领域之间却共享一些具有潜在特性（share potential latent features）。

2、使用较小的学习率：由于预先训练的权重（weights）通常比随机初始化的权重更好，因此调整需要更精细！如何选择主要取决于training landscape和学习的进展情况，但需要仔细检查每个epoch的training errors，分析如何能让模型达到收敛。

3、使用Dropout：就像Ridge和LASSO正则化技术对于回归模型一样，对于所有模型都存在需要优化的参数alpha或Dropout。这是一个超参数，取决于需要解决的具体问题，只能通过不停实验的方法得到。先对超参数做比较大的调整（gridsearch时选择一个比较大的变化范围），比如NP. logspace()，然后像上面的一样减小学习速率。循环上述过程直到找到最优值。

4、限制权重大小：可以限制某些层的权重的最大范数(绝对值)，可以提升模型泛化的能力。

5、不要改变第一层网络的权值：神经网络的第一个隐含层倾向于捕捉通用和可解释（universal and interpretable）的特征，如形状、曲线或交叉（shapes、curves and interactions），这些特征通常与跨域（domains）相关。应该经常把这些特征放到一边，把重点放在进一步优化meta latent level在水平上。这可能意味需要添加隐藏层！

6、修改输出层：把模型参数替换成适用于要解决新领域的新的激活函数和输出大小。但是，不要把自己局限于最明显的解决方案中。比如，尽管MNIST只需要10个输出类，但这些数字有共同的变化，允许有12 - 16个类可能会更好地解决这些问题，并提高模型性能！

Keras中的技巧

如何在Keras MNIST中修改Dropout和限制权重的大小：

Dropout最佳实践

1、使用20–50 %的，比较小的Dropout，建议20 %的输入（Inputs）。值取得太小，不起作用；值取得太大，不好收敛。

2、在输入层和隐藏层上使用Dropout。这一方法已被证明可以提高深入学习的效果。

3、使用较大的（带衰减率）学习速率（learning rate with decay），以及较大的动量（momentum）。

4、限制模型的权重！大的学习速率容易导致梯度爆炸。通过对网络权值施加约束(如最大范数正则化（max-norm regularization），其大小为5 )可以改善结果。

5、使用更大的网络。在较大的网络上使用Dropout，可能会获得更好的性能，从而使模型有更多的机会学习独立表示（Independent representations）。

给一个例子，如何在Keras中修改MNIST模型最后一层，输出14个类别：

如何在网络的最初五层中固定网络的权值（Freeze weights）：

此外，可以将该层的学习速率设置为零，或者使用参数的自适应学习算法，如Adadelta或Adam。这有点复杂，在Caffe等其他平台上可以更好地实现。

预训练模型库

  Keras
    Kaggle List       https://www.kaggle.com/gaborfodor/keras-pretrained-models
    Keras Application：https://keras.io/applications/
    OpenCV Example：https://www.learnopencv.com/keras-tutorial-fine-tuning-using-pre-trained-models/

TensorFlow
VGG16：https://github.com/ry/tensorflow-vgg16
Inception V3：https://github.com/tensorflow/models/blob/master/inception

ResNet：https://github.com/ry/tensorflow-resnet

Torch
LoadCaie：https://github.com/szagoruyko/loadcaffe

Caffe
Model Zoo：https://github.com/BVLC/caffe/wiki/Model-Zoo

TensorBoard的Graph的可视化

了解模型的整体结构通常很重要。下面给出一个例子，如何直接使用Python可视化训练的模型：

http://nbviewer.jupyter.org/github/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/deepdream/deepdream.ipynb

【完结】TensorFlow2.0 快速上手手册

大家好,这是专栏<TensorFlow2.0>的第五篇文章,我们对专栏<TensorFlow2.0>进行一个总结. 我们知道全新的TensorFlow2.0 Alpha已经于2 ...
【连载13】详解CNN五大经典模型之一AlexNet

AlexNet在ILSVRC-2012的比赛中获得top5错误率15.3%的突破(第二名为26.2%),其原理来源于2012年Alex的论文<ImageNet Classification wi ...
使用 CNN 进行图像分类 - 理解计算机视觉

介绍在计算机视觉中,我们有一个卷积神经网络,它非常适用于计算机视觉任务,例如图像分类.对象检测.图像分割等等. 图像分类是当今时代最需要的技术之一,它被用于医疗保健.商业等各个领域,因此,了解并制作 ...
【github干货】主流深度学习开源框架从入门到熟练

言有三毕业于中国科学院,计算机视觉方向从业者,有三AI学院等创始人作者 | 言有三编辑 | 言有三今天送上有三AI学院第一个github项目 01 项目背景目前深度学习框架呈百家争鸣之态势, ...
【完结】给新手的12大深度学习开源框架快速入门项目

这是一篇总结文,给大家来捋清楚12大深度学习开源框架的快速入门,这是有三AI的GitHub项目,欢迎大家star/fork. https://github.com/longpeng2008/yousa ...
【杂谈】当前模型剪枝有哪些可用的开源工具？

模型剪枝属于模型优化中的重要技术之一,经过了研究人员多年的研究,工业界也开始有一些实践,那么当前有哪些可用的模型剪枝工具呢? 作者&编辑 | 言有三 1 Tensorflow TensorFl ...
基于seq2seq模型的深度学习密码破译方法

孙晓丽郭艳李宁宋晓祥[摘要]:随着信息安全受到人们越来越多的关注,信息的加解密问题成为当今研究的热点.通过将密码破译问题转化为机器翻译问题,设计了一种基于深度学习的密码破译方法.首先,将明 ...
基于遗忘理论的英语移动学习模型的探究

摘要:本文依据遗忘理论的概念,在对课程视频加工整合和复习时间统一规划的基础上,通过学习动态二维表实现学习进度的可视化,进而构建出支持遗忘理论的英语移动学习系统模型,而后详细地阐述了用户对该系统模型的应 ...
简单的融合模型：基于keras 的少量样本集迁移学习 VGG16 MeanShift PAC降维混合模型的苹果识别

案例分析更多是是一种思想而不是具体实现 1 数据集样本总数为30个其中普通苹果和其他苹果各占一半其中有10个苹果已经标注其他均无标签 2 数据集扩容由于数据集中数据数量少无法满足模型训练 ...
TF学习——TF之TFOD：基于TFOD AP训练ssd_mobilenet预模型+faster_rcnn_inception_resnet_v2_模型训练过程(TensorBoard监控)全记录

TF学习--TF之TFOD:基于TFOD AP训练ssd_mobilenet预模型+faster_rcnn_inception_resnet_v2_模型训练过程(TensorBoard监控)全记录训 ...
AI开发者大会之AI学习与进阶实践：2020年7月3日《如何转型搞AI？》、《基于AI行业价值的AI学习与进阶路径》、《自动机器学习与前沿AI开源项目》、《使用TensorFlow实现经典模型》

AI开发者大会之AI学习与进阶实践:2020年7月3日<如何转型搞AI?>+<无行业不智能:基于AI行业价值的AI学习与进阶路径>.<自动机器学习与前沿AI开源项目> ...
基于ISM模型的混合学习绩效影响因素研究参考论文

摘要:本文在分析结构模型法对混合学习绩效影响因素之间关系的基础上,构建了三维度混合学习绩效影响因素的ISM模型,以帮助理清混合学习中多种因素之间的关系.同时,根据混合学习绩效影响因素ISM模型,研究了 ...
revit栏杆族怎么建？Revit基于线的公制常规模型制作篱笆族

文章来源:Revit教程 Revit制作族的过程中会有很多族样板来共大家选择,选对的族样板会让后期的工作简单不少. 这一节我们讲解利用"基于线的公制常规模型"族样板来制作一个简单的 ...
revit利用基于线的公制常规模型创建排水沟

新建族样板,选择利用基于线的公制常规模型进行绘制,进入左立面视图绘制两条参照平面,添加注释并赋予参数分别为盖板厚度和排水沟沟深. 继续绘制参照平面,我们绘制四条竖向的参照平面,将最外两条参照平面进行标 ...
Revit基于线的公制常规模型应用：Revit用基于线的常规模型快速绘制窗帘盒

在Revit的室内精装中,通常要绘制窗帘盒构件.用常规模型做,每次载入的时候都要设置一下窗帘盒长度,今天来为大家介绍一种快速绘制窗帘盒的方法. 1.打开revit,新建族-基于线的常规模型,如图所示. ...

基于Pre-trained模型加速模型学习的6点建议

相关推荐