压缩之后神经网络忘记了什么?Google研究员给出了答案

详细信息如下:
  • 论文链接:https://arxiv.org/abs/1911.05248

  • 项目链接:https://github.com/google-research/google-research/tree/master/pruning_identified_exemplars

导言:
深度神经网络剪枝和量化技术已经证明了可以实现高水平的压缩,而在测试集的精度上获得了很小的退化。然而,这种性能的度量隐藏了模型压缩技术如何影响不同类别和图像样本的显著差异。作者发现,权重数量完全不同的模型具有相近的性能,但在数据集的一个小的子集上的性能上有很大差异。
这个小的数据子集,作者称之为剪枝识别样本(Pruning Identified Exemplars,PIEs) 。剪枝识别样本地受到模型稀疏性的影响。本文的工作是提供了一个正式的框架来评估压缩造成的不同损害,并提供了一种量化所涉及的权衡的方法。鉴于目前压缩模型在工业界的部署中被广泛使用,因此理解这种不同的影响是至关重要的。

      01      

Motivation
在婴儿期到成年期之间,我们大脑中突触的数量首先繁殖,然后下降。突触修剪通过去除冗余神经元,加强对环境最有用的突触连接来提高效率。尽管在2岁到10岁之间失去了50%的突触,但大脑仍在继续发挥作用。“Use it or lose it ”这个词经常被用来描述学习过程对突触修剪的环境影响,但是对于确切地失去了什么东西,这方面几乎没有科学共识。
在这项工作中,作者研究的问题就是——当我们压缩一个深度神经网络时,到底丢失了什么?自20世纪90年代以来的研究表明,深度神经网络可以以类似于突触剪枝的方式被剪枝“过剩的容量”。深度神经网络能以非常高的容忍度进行剪枝和量化,而对Top-1的精度的损失几乎可以忽略不计。这些更紧凑的网络通常在资源有限的设置中受青睐;压缩模型需要更少的内存、计算资源消耗和更低的推理延迟。
压缩网络的能力对泛化性能的下降是让很多人疑惑的。具有完全不同的表示和参数数量的网络如何具有可比性的Top指标?一种可能性是,测试集的准确性根本不是一个足够精确的度量来衡量压缩如何影响模型的泛化特性。尽管压缩技术被广泛使用,但阐明压缩的权衡绝大多数都集中在给定压缩水平的总体Top-1精度的变化上。
如果Top-1精度的成本均匀地分布在所有类中,因为在总体性能上看,压缩带来的影响确实是很小的。但如果性能损失如果只集中在几个类中呢?是否某些类或者样本会不成比例受到网络压缩的影响?在这项工作中,作者提出了一个正式的框架来衡量压缩对泛化性质以外的影响。
作者在多个数据集(CIFAR-10、CelebA和ImageNet)上进行了实验,并在多个数据集上发现了一致的结果。通过使用的剪枝和量化技术,以及模型架构,作者发现:
  1. Top-1或Top-5的测试集精度不能看出剪枝影响模型泛化能力的关键细节 。数据分布的某些部分对网络中权值数量的变化要敏感得多,并而模型性能的损失大多发生在这些数据中。
  2. 受剪枝影响最大的样本,作者称之为剪枝识别样本(Pruning Identified Exemplars,PIEs),对模型和人类来说都更具挑战性 。作者进行了一项人类研究,发现PIE往往被错误标记,质量较低,描述多个对象,或需要细粒度分类。压缩技术损害了模型对长尾数据分布中尾部数据的识别。
  3. 修剪的网络对自然对抗图像更敏感 。这种灵敏度在更高的压缩水平下被放大。
  4. 虽然本文评估的所有压缩技术都有不均匀的影响,但并不是所有的方法都是相等的 。高水平的修剪所产生的影响比量化技术中所观察到的要高得多的影响。

      02      

方法

2.1 Preliminaries

对于一个监督分类问题,其中一个深度神经网络被训练为近似函数F,将一个输入变量X映射到一个输出变量Y,形式表示为:。该模型在N幅图像的训练集,上进行训练,并在测试时对测试集中的每幅图像进行预测。Grround Truth的标签都被假定为C类中的一个,表示为,,。
为了获得一个更紧凑的表示,一个方法是简单地训练一个具有更少权重的网络。然而,到目前为止,一个紧凑的密集模型训练不能获得具有竞争力的测试集性能。因此,研究集中在一个更容易处理的研究方向上——模型以“过剩的能力”开始训练,目标是在训练结束时删除对任务不必要的部分 。剪枝方法P能够识别出要设置为零的权重的子集。将权值等于零有效地消除了该权值的贡献,因为与输入的乘法不再进行激活。非压缩模型函数是指所有权值都是可训练的(t=0)。我们将压缩水平为t的整体模型精度称为β。

2.2 Class level measure of impact

如果压缩的影响完全一致,则类级精度β与总体模型性能之间的相对关系将不会改变,这就形成了一个假设(H0)。第二种假设(H1)与H0相反——类别recall的相对变化与总体准确性的变化不同。表示如下:
评估来自压缩模型和非压缩模型的平均移位类精度样本之间的差异是否“真实”,相当于确定这两个数据样本是否来自相同的底层分布。因此,作者为每种压缩方法、数据集和模型独立训练了K个模型群。因此在每个压缩方法t,每个类别c上都有了一个准确率。
对于每个类c,作者使用双边独立的来确定样本和的平均移位类精度是否存在显著差异。如果p值<=0.05,那就拒绝零假设(H0),并认为该类相对于baseline受到压缩水平t有不同的影响。通过比较类精度的相对差异,作者控制了模型测试集精度的总体差异。虽然差异非常小,但是在Top指标上的差异不是零的。除了p值之外,对于每个类,作者还计算了类级精度的平均相对偏差,称之为相对召回差异(relative recall difference):

2.3 Pruning Identified Exemplars

除了测量压缩的类级影响外,作者还对模型的预测行为如何在压缩过程中发生变化进行了分析。考虑到深度神经网络中未校准概率的局限性,作者重点关注压缩网络和非压缩网络对给定图像的预测之间的分歧程度。使用前一节描述的K个模型的总体,作者构造给定图像i的预测集合。
对于集合,作者将模态标签(图像i的剪枝模型t最频繁的预测类)记为。当且仅当t个修剪模型和未修剪baseline模型之间的模态标签不同时,该样本被归类为剪枝识别样本:
对PIE的未修剪预测与真实标签匹配没有约束。因此,PIE的检测是一种可以在测试时执行的无监督设置。

      03      

实验

3.1. 压缩的不同影响

作者发现所有数据集和压缩技术的结果是一致的:一小部分类集受到不成比例的影响 。这种不同的影响不是随机的,在非压缩模型和压缩模型群体之间的类别水平recall有统计学上的显著差异。压缩会诱导“选择性遗忘”。这种敏感性在较高的稀疏性下被放大,更多的类别recall在统计上发生显著的相对变化。例如,如上表所示,在50%稀疏性下,170个ImageNet类具有统计学意义,在70%稀疏性下增加到372个类。

3.2. 剪枝识别样本(Pruning Identified Exemplar)

在每个压缩级别上,作者都会识别出一个PIE图像的子集,它们对权重的去除格外敏感(实验数据集为CIFAR-10、CelebA和ImageNet)。分类为PIE的图像数量随着修剪水平的增加而增加。在90%的稀疏性下,作者能够将10.27%的ImageNet、2.16%的CIFAR-10和16.17%的CelebA测试集图像分类为PIEs。
在上图中,作者考虑了数据集的三类样本(1)PIE图像、(2)非PIE图像(3)整个测试集。作者发现发现PIE图像对于非压缩模型的分类也更具挑战性 。

3.3. 压缩模型对分布变化的敏感性

非压缩模型已经被证明对于数据分布的变化是非常脆弱的。这可能会导致在不同domain的数据分布下,模型行为会发生意外变化。在本节中,作者探索了压缩是否放大了这种脆弱性?理解在鲁棒性方面的相对差异有助于理解压缩模型对人工智能安全性的影响。
如上图所示,相对于在相同输入上的非剪枝性能,修剪极大地放大了对ImageNet-C和ImageNet-A的敏感性。对于ImageNet-C,加了噪声之后,相对退化是非常明显的。在t=90时,相对top-1的退化最高的是shot noise(−40.11%),相对下降最低的是brightness(−7.73%)。
如上表所示,对小分布位移的敏感性,在较高的稀疏性水平下也同样被放大。

      04      

总结
在本文中,作者评估的量化和剪枝技术已经广泛应用于生产系统,并与流行的深度学习库集成。这些技术的普及和广泛使用是由将模型部署到手机或嵌入式设备的严重资源限制驱动的。本文的结果表明,测试集Top-1和Top-5的准确性,隐藏了压缩影响模型泛化的关键细节。因此,在将压缩模型部署到医疗保健诊断、自动识别汽车、面部识别软件等敏感领域中时,会存在一定的安全隐患。对于这些领域,剪枝的引入可能使数据集的某些子集的召回率或准确率发生改变。
模型参数数量上的“越大越好”的竞争已经占据了机器学习领域。然而,附加权重的作用还没有被很好地理解。作者通过实验表明非压缩网络使用大部分容量都是来编码这些PIE中有用的表示。
本文的方法提供了一种更好地理解压缩所产生的权衡,并提供了具有挑战性的样本。识别危害是提出补救措施的第一步,本文的工作可以会促使人们专注于开发新的压缩技术,以改进在这项工作中识别和描述的不同影响。

作者介绍

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

(0)

相关推荐