机器学习论文推荐｜Evolving Normalization-Activation Layers

2024-05-02 17:31:16

本文第一作者及通讯作者为本科毕业于清华大学，博士毕业于卡耐基梅隆大学，现工作于 Google Brain 的刘寒骁。值得一提的是，刘寒骁也是 DARTS: Differentiable Architecture Search 的第一作者，这篇论文对于神经网络结构搜索（NAS）的搜索成本研究有了突破性的进展，也让 NAS 领域中的 gradient-based 方法变得更加流行。

今天为您推荐的论文为 Google Brain 和 DeepMind 团队于 4 月 28 号挂在 arXiv 上的论文 Evolving Normalization-Activation Layers ，作者为 Hanxiao Liu， Andrew Brock，Karen Simonyan，Quoc V. Le .

Evolving Normalization-Activation Layers 的中心思想也是借助于搜索的方法来探寻最优的 Normalization-Activation Layers。Normalization Layers 和 Activation Layers 是深度神经网络的关键组件。近些年来有很多重要的研究工作致力于对两者的分别独立的设计，比如单一的设计 Normalization Layers （Batch Norm，Group Norm， Instance Norm，Layer Norm 等等）或者单一的设计Activation Layers （ReLU，Sigmoid， Tanh，Swish 等等），都取得了相应的进展。然而，不同于传统地将这两者分别设计，此研究是第一个将两者合为一个整体的计算图来自动设计（automatically co-design）的工作。

如下图所示，此研究从一些最底层的基元（primitives）结构出发，通过这些基于的不同组合构成了很多不同的 Normalization-Activation Layers。再通过演变的搜索方法来不断的淘汰表现不良的组合，并保留表现良好的组合。最后，演化算法搜索出了全新的 normalization-activation layers，并将之命名为 EvoNorms。

EvoNorms 有两种系列：B 系列（需要 Batch 的统计信息）和 S 系列（需要 Sample 的信息），如图所示给出了 EvoNorm-B0 和 EvoNorm-S0 的表达公式。

EvoNorm-B0 的分母的实际意义是选取 Batch Norm（BN）和 Instance Norm 表现更强的一个，下图是 EvoNorm-B0 对于 MobileNetV2 在 ImageNet 上的表现结果，相对于 BN-ReLU，它可以一致的提高 1～2 个百分点的精度。

不同于 B0，EvoNorm-S0 是不需要 batch statistics 的。它的分子实际上是 Swish，分母代表的是 Group Norm（GN）信息。如下图所示：

EvoNorm-S0 相对于 BN-ReLU 和 GN-ReLU 精度更高，且精度不受 batch size 的影响。

总的来说，实验结果显示 EvoNorms 不仅能够在多种图像分类模型（包括 ResNets, MobileNets and EfficientNets 等）中取得较好的精度，而且可以很好地转移到实例分割（包括 Mask R-CNN, SpineNet 等）和图像合成（例如 BigGAN）。在这些问题的解决上，EvoNorms 的结构明显优 BatchNorm 和 GroupNorm。

认真研读本篇论文的读者就会发现，虽然 EvoNorms 取得了更好的精度，但是这些精度的提高取决于对一些 hyperparameters 的优化。另外，笔者认为 EvoNorms 在 inference 上的执行时间可能会增加。

欢迎大家提出关于本篇论文更多的思考和见解！

干货|理解Dropout，BN及数据预处理

一.随机失活(Dropout) 具体做法:在训练的时候,随机失活的实现方法是让神经元以超参数的概率被激活或者被设置为0.如下图所示: Dropout可以看作是Bagging的极限形式,每个模型都在当 ...
Graph Normalization (GN)：为图神经网络学习一个有效的图归一化

作者|平安产险视觉计算组编辑丨极市平台本文为极市开发者投稿,转载请获授权. 极市专栏论文推荐:在图神经网络里面,应该如何选择更好的归一化技术?本文将介绍一种为图神经网络学习有效的图归一化 ...
浅谈Transformer的初始化、参数化与标准化

作者丨苏剑林@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/400925524 编辑丨极市平台极市导读本文以Transformer为中心展开,梳理了模型的初始化. ...
【TensorFlow2.0】以后我们再也离不开Keras了？

TensorFlow2.0 Alpha版已经发布,在2.0中最重要的API或者说到处都出现的API是谁,那无疑是Keras.因此用过2.0的人都会吐槽全世界都是Keras.今天我们就来说说Keras这 ...
基于OpencvCV的情绪检测

重磅干货,第一时间送达情绪检测或表情分类在深度学习领域中有着广泛的研究.使用相机和一些简单的代码我们就可以对情绪进行实时分类,这也是迈向高级人机交互的一步. 前言本期我们将首先介绍如何使用Kera ...
日本东北大学改进单阶段人脸检测—兼具速度与精度优势

近日来自日本东北大学与Laboro.AI公司的研究人员公开一篇改进的单阶段人脸检测算法论文,其不仅保持了速度的优势而且在主流的人脸数据集上达到与双阶段人脸检测算法相当的精度. 作者信息: 按照算法流程 ...
DL之DNN优化技术：利用Batch Normalization(简介、入门、使用)优化方法提高DNN模型的性能

DL之DNN优化技术:利用Batch Normalization优化方法提高DNN模型的性能 Batch Normalization简介 1.Batch Norm的反向传播的推导有些复杂,但是可借助于 ...
Batch Normalization 的实战使用

Batch Normalization 的实战使用
【每周NLP论文推荐】 NLP中命名实体识别从机器学习到深度学习的代表性研究

NER是自然语言处理中相对比较基础的任务,但却是非常重要的任务.在NLP中,大部分的任务都需要NER的能力,例如,聊天机器人中,需要NER来提取实体完成对用户输入的理解:在信息提取任务中,需要提取相应 ...
CES TEMS论文推荐│轴向磁通永磁同步电机多层准三维等效模型研究

EVS34圆桌论坛最新议程:动力电池技术 EVS34圆桌论坛最新议程:燃料电池商用车发展趋势 EVS34主题论坛最新议程:智能充换电.充换电基础设施及车网互动 EVS34圆桌论坛最新议程:下一代电力电 ...
【论文推荐】智能指挥空间概念与架构

著录格式杨强, 苗馨月, 杨朝晖. 智能指挥空间概念与架构[J].指挥控制与仿真,2021,43(2):45-49. 作者简介杨强(1979-),男,山东禹城人,博士,高级工程师,研究方向为 ...
MPB论文推荐│海洋生态系统对气候变化的响应及其在生物地球化学生态系统模型中的处理

海洋生态系统有助于调节气候,保护沿海地区免受风暴的影响,为人类社区提供食物,并支持各种生计和娱乐活动.不幸的是,由于气候变化和人类活动,许多海洋生态系统正在衰退.例如,据估计,世界海洋中有13.2%( ...
sci论文推荐审稿人理由写什么

在sci期刊上发表论文,大多数国外杂志社要求作者推荐审稿人,并注明所推荐审稿人的理由是什么,这在国内期刊上发表论文是没有的.关于sci论文如何推荐审稿人,本站有过介绍,这里就不再介绍了.接下来给大家分 ...
「重点论文推荐」碳中和背景下能源发展战略的若干思考

碳中和背景下能源发展战略的若干思考论文概要 "碳中和"是近期热点议题,源于气候变化,而气候变化是一个中长期问题.笔者阐述了碳中和的概念和内涵,对能源战略制定的原则进行了客观阐述, ...
双重差分DID和三重差分DDD系列讲解（一）中文论文推荐

文章题目:"新机制"政策对东部农村县级教育经费支出的影响---基于双重差分和三重差分的实证研究摘要:2006年开始实施的农村义务教育经费保障机制(简称"新机制&quo ...
双重差分DID和三重差分DDD系列讲解（二）英文论文推荐

论文题目:碳交易试点政策对中国产业低碳国际竞争力的影响:基于DDD模型的实证分析摘要:本文考察了碳交易试点政策对行业低碳国际竞争力的影响,以检验创建碳市场是否导致波特效应.通过对2009年至2016 ...
论文推荐｜【KSII TIIS 2021】DP-LinkNet：一种用于古籍文档图像二值化的卷积网络(有源码)

详情信息如下: 作者信息:Wei Xiong, Xiuhong Jia, Dichun Yang, Meihui Ai, Lirong Li, Song Wang 单位信息:湖北工业大学电气与电子工程 ...

机器学习论文推荐｜Evolving Normalization-Activation Layers

相关推荐