首次摆脱对梯度的依赖，CMU等开源Score-CAM：基于置信分数的视觉可解释性

2024-08-01 04:10:32

作者丨王浩帆

编辑丨极市平台

极市导读

本文介绍一篇被CVPRW2020接受的论文，主要关于一种基于置信分数的视觉可解释性方法。本文的亮点在于：在CAM系列方法的基础上，首次提出了一种新的gradient-free的权重表达方式。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文：

Score-CAM:Score-Weighted Visual Explanations for Convolutional Neural Networks

官方代码：https://github.com/haofanwang/Score-CAM

本文是由来自于卡内基梅隆大学、德州农工大学、武汉大学的研究人员共同提出的一种基于置信分数的视觉可解释性方法，目前论文被CVPRW 2020接收，代码已开源。

背景介绍

1.视觉可解释性

神经网络可解释性是指对于神经网络所做出的决策，进行合理的解释。这里解释可以是从数学理论层面进行的先验解释，比如对于激活函数的差异分析、模型的泛化能力分析，也可以是对于网络预测结果的后验解释，比如我们训练好的模型将一张图片分类为"猫"，我们希望知道网络是通过什么因素或特征将它分类为"猫"这个类别的。本文关注的是后验解释，即解释已有模型的决策。而对于卷积神经网络，目前最常见的是通过可视化的方式来解释模型的决策（下文中可解释性与可视化将不再区分）。

2.主流的视觉可解释性方法

2.1 基于梯度的可解释性

基于梯度的可视化是通过将目标类别上的决策分数往原始图像上求取梯度得到，可视化结果如上图（左）。梯度作为一种局部信息，反映了局部位置的扰动对于决策分数的影响。我们常见的Saliency Map [6], 即通过该种方式得到。除此之外，近几年还出现多种基于梯度的改进方法，其中Smooth Gradient [2] 与Integrated Gradient [3] 最为著名，它们分别分析了原始梯度可能存在的一些问题，然后通过平滑和路径积分的方式，得到了更为清晰的可视化结果。值得一提的是，Guided-Backpropagation目前在可解释性方面存在较大争议，它是通过对于回传梯度进行一定过滤，从而得到更为干净和聚焦的可视化结果，但在Sanity Check [9] 中，作者发现，该方法与模型参数无关，即初始化模型参数后，仍然能得到相似结果。

2.2 基于掩码的可解释性

梯度信息反映了局部变化对于结果的影响，基于掩码的可视化则采用一种全局的方式来定位图像中对于决策更重要的区域。此类方法的做法符合人类直觉，通过将图像上部分的移除或者保留，来直接衡量该区域对于网络决策分数的影响。比如在一张"猫"的图片中，背景信息的移除通常不会降低"猫"类别上的置信度，而一些关键区域，如"猫"的耳朵，在移除后则可能造成置信度的下降。但是这类方法存在一个明显的劣势，即如何生成掩码（mask）。目前主要有两种思路，一种是通过采样的方式（比如随机采样或蒙特卡洛采样 [10]）生成多个掩码，然后来计算每一个掩码区域的重要性，这种方式往往需要生成大量掩码，计算量很大；第二种是通过优化的方式来生成掩码，初始化一个随机掩码，通过优化损失函数来不断更新掩码，这种方法的缺点是需要在损失函数中增加额外的正则化项，来使得生成的掩码面积尽可能的小，同时还能尽可能多的影响决策分数，由于存在优化过程，即使对于同一张图，方法每一次生成的解释都是不完全一致的。

2.3 基于类激活地图的可解释性

类激活地图（CAM）是一种通过对中间层的特征图进行线性加权来定位图像中判别性的位置。2015年提出的CAM [4] ，首先对最后一层卷积结果进行全局池化得到一维的向量，向量再输入其后的全连接层分类得到最终预测结果。但是初代的CAM对于模型结构有特殊要求（全局池化层），并且需

要通过重新训练模型才能得到全连接层上对应的权重，借此来表示每一张特征图的重要性。为了解决CAM的不便性，随后的工作Grad-CAM [7] 以及Grad-CAM++ [8] 都采用了局部回传的梯度信息来近似代表每一张激活图或特征图的线性权重，使得CAM可以应用到大部分卷积神经网络中。目前Grad-CAM也是最常见的可视化方式之一。

研究动机

作者在实验中发现，基于梯度的CAM方法（Grad-CAM [7]、Grad-CAM++[8]）生成的可视化结果在视觉上不够干净，即除了目标物体被标记以外，大量背景信息也被标记。考虑到背景信息在训练过程中有可能作为上下文信息辅助模型决策（例如"草地"可能与"狗"存在一定相关性），为了验证背景区域的重要性，作者在原始图像（随机挑选的测试用例）中移除部分背景信息后发现，对于多数样本，在移除背景信息后，置信度不会有明显变化，因此作者认为，在Grad-CAM中被标记的背景区域是错误标记。

而由于CAM的本质是特征图的线性加权，作者在实验中进一步发现，这种现象来自于线性权重分布。作者通过对特征图的可视化发现，在Grad-CAM中获得较高权重的特征图，在网络中的响应很低，而部分权重较低的特征图，则获得到了很高的置信度。作者分析基于梯度的CAM中问题，可能来源于梯度本身，即梯度的饱和性（类似于Sigmoid函数，当特征强度超过一定程度，其梯度可能会变小），以及梯度本身的不稳定性（局部的梯度受噪声影响很大），甚至是梯度消失的影响。

总之，为了摆脱梯度带来的潜在影响，作者希望找到一种梯度以外的权重表示方式。

核心方法

本文提出的Score-CAM [1]，沿用了CAM的主要思路（特征图的线性加权），相比之前一系列CAM方法，主要的差别在于获取线性权重的方式。初代CAM使用训练后全连接层上的模型权重，Grad-CAM和Grad-CAM++均采用对应特征图上的局部梯度（差别在于对于梯度的处理方式），而在Score-CAM中，它首次摆脱了对于梯度的依赖，使用模型对于特征图的全局置信分数来衡量线性权重。

作者在问题提出了置信度提升（CIC）的概念，具体操作如下，

即通过将特征图视为一种特殊的掩码（无需采样生成）上采样后，与原始图像点乘，使用模型对掩码后的图片的响应于模型对于基图片（baseline）的响应差值，来代表特征图的重要性。其中，作者在代码中将baseline设置为全黑的图片。

Score-CAM主要包含两个阶段（如上图）。阶段一中提取特征图，这也是所以CAM系列方法中都存在的一步。阶段二通过对于特征图上采样，然后将其作为掩码信息，重新得到模型对于图片在目标类别上的响应值。最后，通过将阶段一中的特征图，与阶段二中得到的响应值线性加权求和，得到最终可视化的结果。

可以看到Score-CAM相较于此前的方法，可视化的结果明显更为聚焦，背景中的噪声减少。除了可视化比较外，作者也在定量指标上大幅超过其它方法，具体指标定义请参见论文。

个人讨论

神经网络的可解释性本身目前还是一个具有争议的方向，关于模型是否可以被解释还有待商榷。目前关于可解释性的研究处在百花齐放的阶段，对于可解释性的定义、评估都还没有统一标准。本文的亮点主要在于，在CAM系列方法的基础上，首次提出了一种新的gradient-free的权重表达方式。值得一提的是，Ablation-CAM [5] 作为Score-CAM [1] 几乎同期的工作，直接通过对特征图的掩码操作，也得到一种不依赖于梯度的表达方式。

论文链接：

https://openaccess.thecvf.com/content_CVPRW_2020/papers/w1/Wang_Score-CAM_Score-Weighted_Visual_Explanations_for_Convolutional_Neural_Networks_CVPRW_2020_paper.pdf

开源资源

Score-CAM官方代码：https://github.com/haofanwang/Score-CAM

CAM系列方法开源库torch-cam：https://github.com/frgfm/torch-cam

常见可视化方法实现：https://github.com/utkuozbulak/pytorch-cnn-visualizations

参考

[1] Wang, Haofan, et al. "Score-CAM: Score-weighted visual explanations for convolutional neural networks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020.

[2] D. Smilkov, N. Thorat, B. Kim, F. Viegas, and M. Wattenberg. Smoothgrad: removing noise by adding noise. arXiv preprint arXiv:1706.03825, 2017.

[3] M. Sundararajan, A. Taly, and Q. Yan. Axiomatic attribution for deep networks. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 3319-- 3328. JMLR. org, 2017.

[4] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. Learning deep features for discriminative localization. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2921--2929, 2016.

[5] Ramaswamy, H. G. (2020). Ablation-CAM: Visual Explanations for Deep Convolutional Network via Gradient-free Localization. In The IEEE Winter Conference on Applications of Computer Vision (pp. 983-991).

[6] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In European conference on computer vision, pages 818--833. Springer, 2014.

[7] R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra. Grad-cam: Visual explanations from deep networks via gradient-based localization. In Proceedings of the IEEE International Conference on Computer Vision, pages 618--626, 2017.

[8] A. Chattopadhay, A. Sarkar, P. Howlader, and V. N. Balasubramanian. Grad-cam++: Generalized gradient-based visual explanations for deep convolutional networks. In 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 839--847. IEEE, 2018.

[9] J. Adebayo, J. Gilmer, M. Muelly, I. Goodfellow, M. Hardt, and B. Kim. Sanity checks for saliency maps. In Advances in Neural Information Processing Systems, pages 9505--9515, 2018

[10] Petsiuk, Vitali, Abir Das, and Kate Saenko. "Rise: Randomized input sampling for explanation of black-box models." arXiv preprint arXiv:1806.07421 (2018).

◎作者档案

作者：王浩帆

欢迎大家联系极市小编（微信ID:fengcall19）加入极市原创作者行列

小布助手在面向中文短文本的实体链指比赛中的实践应用

背景介绍实体链指是指对于给定的一个文本(如搜索Query.微博.对话内容.文章.视频.图片的标题等),将其中的实体与给定知识库中对应的实体进行关联.实体链指一般有两种任务设计方式:Pipeline式 ...
图像识别的可视化解释史

转自:新智元 [导读]使用机器学习(ML)算法(尤其是现代深度学习)进行图像识别的最大挑战之一,是难以理解为什么一个特定的输入图像会产生它所预测的结果.我们为过去十年中最先进的图像解释技术整合了视觉界 ...
Android恶意软件检测

0x01 前言本文将介绍如何利用机器学习技术检测安卓恶意软件,在前文会介绍相关基础知识,在后文则以实战为导向,介绍如何使用支持向量机检测安卓恶意软件,以及通过可解释性技术解释模型的决策结果,最后介绍 ...
「可解释性机器学习系列」2. 可解释性原理介绍（一）

第一时间获取好内容来源|「Interpretable Machine Learning:A Guide for Making Black Box Models Explainable」作者 | C ...
JCIM｜基于图卷积神经网络的逆合成反应预测和可解释性可视化

今天给大家介绍的是Journal of Chemical Information and Modeling上的文章 "Prediction and Interpretable Visuali ...
[万字长文] 图神经网络的解释性综述

图神经网络的可解释性是目前比较值得探索的方向,今天解读的2021最新综述,其针对近期提出的 GNN 解释技术进行了系统的总结和分析,归纳对比了该问题的解决思路.作者还为GNN解释性问题提供了标准的图数 ...
视频 | 我国锂电池出口第一：欧洲想摆脱对中国的依赖，远没那么容易

动力电池的种类很多, 锂电池是最重要的一类. 中国是世界锂电池最大出口国, 产量之大说是垄断也不为过. 欧洲各国大力推行新能源汽车,想减少碳排放, 可同时又想摆脱对中国锂电池的依赖,这有可能吗? 我们 ...
这3个方法，帮你摆脱睡前手机依赖，走好自律第一步

接触过的很多朋友,都有睡眠拖延的问题.有的朋友每天要7点起床上班,但是会刷剧刷到凌晨两点:最夸张的一次是有一位朋友睡前看电子小说,足足看到凌晨4点,第二天继续起床工作.在这样的状态下,第二天的工作效率 ...
摆脱对美武器依赖，英国研发“暴风雨”六代机，2025年将试飞

当美国总统在白宫向全世界宣布"美国回来了"的时候,其实在大洋彼岸的另一边,不甘心偏安一隅的英国也同时宣布,曾经称霸全球上百年的英国也回来了.为了向外界展示脱欧之后英国新面貌,英国近 ...
波士顿金属开发出电解法炼钢！可能颠覆钢铁行业，最终摆脱对煤炭的依赖！

波士顿金属电解法生产的铁块随着越来越多的公用事业公司和企业投资于可再生能源,煤炭对全球电力行业的控制正在放松.但煤炭的主要消费国度之一 -- 钢铁行业发现,要戒掉对煤炭的依赖却越来越难了. 钢铁公司 ...
学霸教你如何让孩子摆脱电子产品的依赖

现在社会充斥着各种电子产品,电脑,电视,平板和手机......,尤其是手机,大人们都难以释手,成为"低头族",一闲下来就是戳手机. 这不iPhone12刚刚发布,手机界又要掀起一场 ...
美军为摆脱对GPS卫星依赖，又研发了新玩意

(文/Nathan Strout) 在极端受限的环境中,极小的原子钟可能会成为计时数据的关键,并由此替代GPS.美国国防高级研究计划局DARPA(Defense Advanced Research P ...
华为正式官宣!华为鸿蒙HMS4.0正式上线:将全面摆脱对谷歌GMS依赖

最近一段时间,华为官方终于正式向全球发布了自家HMS Core 4.0,其中包含的一整套HMS Apps.HMS Core.HMS capabilities.HMS Connect等,甚至还有机器学习 ...
为摆脱对中国稀土依赖，欧美选择抱团，专家：说起来容易做起来难

罗富强推荐阅读中美之间的关系日益紧张,贸易自然也受到了不小的影响.美国担忧两国之间的贸易战可能会使中国将限制稀土的出口,因此对于依赖中国稀土这件事感到焦虑. 欧洲国家也是如此,因此他们做出行动. 据 ...
缅甸逐渐摆脱对周边国家依赖，兴建民族企业

随着缅甸城市化步伐的加快,高楼大厦日渐增加,建筑材料尤其是水泥的需求也在增长.无论任何建筑,都是需要水泥.以前很多人都认为进口水泥质量更好,现在,我国的水泥制造公司通过提高质量,降低价格,逐渐得到了市 ...