视觉 Transformer 的可视化|CVPR2021

报道丨极市平台

极市导读

可视化对于Transformer的模型调试、验证等过程都非常重要,FAIR的研究者开源了一种Transformer可视化新方法,能针对不同类呈现不同且准确的效果。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

近两年,“Transformer”的热潮从自然语言处理领域席卷至计算机视觉领域。Transformer及其衍生方法不仅是几乎所有NLP基准测试中最先进的方法,还成为了传统计算机视觉任务中的领先工具。在结果公布不久的CVPR2021中,与Transformer相关的工作数量也十分可观。

来自FAIR和以色列特拉维夫大学的学者在CVPR2021中发表了一篇名为“Transformer Interpretability Beyond Attention Visualization”的论文。在这篇论文中,作者提出了一种计算Transformer网络结构相关性的新颖方法,首次实现Transformer的可视化能针对不同类呈现不同且准确的效果。

该方法基于深度泰勒分解原理分配局部相关性,而后将相关性传播到各层。与以往方法相比不同的是,它的传播涉及注意层和残差连接。与此同时,作者在最新的视觉Transformer网络以及文本分类任务上进行了基准测试,证明了该方法相对于现有可解释性方法的明显优势。

目前,作者已经公布了该工作的开源代码:

代码地址:https://github.com/hila-chefer/Transformer-Explainability
论文链接:https://arxiv.org/abs/2012.09838

论文简介

可视化对于Transformer的模型调试、验证等过程都非常重要,而目前现有工作对于Transformer可视化的探索并不是很多。

过去可视化Transformer模型常见的做法是,针对单个注意力层,将注意力视为相关性得分;另一种则是组合多个注意力层,简单地平均获得每个标记的注意力。但由于更深的层更具有语义,而每次应用自注意力时,每个标记都会积累额外的上下文,这会导致信号模糊,各层的不同作用被忽视,并使得不相关的标记被凸显。

Transformer严重依赖于残差连接和注意力运算符,这两者都涉及两个激活图的混合。此外,Transformer使用ReLU以外的其他非线性因素,这会同时带来正向和负向的特征。由于存在非正值,如若处理不当,则残差连接会导致数值的不稳定。

针对上述问题,本文作者引入适用于正面和负面归因的相对传播规则,并提出了针对非参数层的归一化项,如矩阵乘法。同时,整合注意力与相关性得分,并将结果整合到多个注意力模块中。

在实践中,计算机视觉使用的许多可解释性方法并不是特定于类的,即无论尝试可视化的类是什么,即便对于包含多个对象的图像,也会返回相同的可视化效果。因而特定于类的信号通常会因为图像的显著区域而变得模糊。本文的方法则设计提供了基于类的分离,这也是目前唯一能够呈现此属性的Transformer可视化方法。

方法介绍

本文采用基于LRP[1]的相关性来计算Transformer每一层中每个注意力层的得分,通过合并相关性和梯度信息,通过迭代消除负面影响,然后将它们整合到注意力图中,得到自注意力模型特定于类的可视化。

相关性和梯度

令为分类头的类数,为要可视化的类,并传播关于的相关性和梯度。将表示为层的输入,其中是由层组成网络中的层索引,是输入,是输出。通过链式规则,将梯度传播到分类器的输出:

用表示该层在两个张量和上的操作。通常,这两个张量是输入特征图和第层的权重。相关性传播遵循通用的深度泰勒分解公式:

非参数相关传播

Transformer模型中有两个运算符涉及两个特征图张量的混合(与具有学习张量的特征图相反):残差连接和矩阵乘法。这两个运算符需要通过两个输入张量传播相关性。给定两个张量和,我们计算这些二进制运算符的相关性传播如下:

证明得到:

相关性和梯度扩散

令为一个由模块组成的Transformer模型,其中每一个模块由自注意力,残差连接以及附加的线性层和归一化层组成。该模型将维数为,长度为的标记序列作为输入,为类别输出作特殊标记,输出由分类标记向量计算出的长度为的分类概率向量。自注意模块在输入维度为的小空间上运行,为head数量。自注意模块的定义如下:

实验与结果

对于语言分类任务,作者使用基于BERT的模型作为分类器,假设最多512个标记,并使用分类标记作为分类头的输入。对于视觉分类任务,作者采用基于ViT的预训练模型。输入图像尺寸为的所有不重叠色块的序列,线性化图层以生成向量序列。

下图给出了本文的方法与各种基线方法之间的直观比较。可以看出,本文方法获得了更加清晰一致的可视化。

下图显示了带有两个对象的图像,每个对象来自不同的类。可以看出,除GradCAM之外,所有方法对不同类都产生了相似的可视化效果,而本文方法则取得了两个不同且准确的可视化效果,因而证明该方法是特定于类的。

下表为在ImageNet验证集上,预测类别和目标类别的正负扰动AUC结果。

ImageNet分割数据集上的分割性能:

本文方法不同消融方案性能:

(0)

相关推荐

  • CPTR:用于图像添加主题的全Transformer网络

    重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...

  • 超实用性!哈工大提出ACNet:用于超分辨的非对称卷积神经网络

    由哈尔滨工业大学.鹏城实验室.国立清华大学及香港中文大学的学者提出了一种用于盲噪声的盲超分辨的非对称卷积神经网络,该论文已经在AriXv上发表.该论文打破传统的一个模型只能处理固定缩放因子的图像超分辨 ...

  • ICCV2021 Oral-TAU&Facebook提出了通用的Attention模型可解释性

    0 写在前面 通过Self-Attention和Co-Attention机制,Transformer在多个多模态下游任务中达到了SOTA的性能.这些注意模块也在其他计算机视觉任务中发挥了作用,包括目标 ...

  • Transformer也能生成图像

    Transformer 已经为多种自然语言任务带来了突飞猛进的进步,并且最近也已经开始向计算机视觉领域渗透,开始在一些之前由 CNN 主导的任务上暂露头角.近日,加州大学圣迭戈分校与 Google R ...

  • Performer: 基于正交随机特征的快速注意力计算

    最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的.完整的知识结构体系. 以下是要写的文章,本文是这个系列的第二十篇: Transformer:Attent ...

  • 源码解析目标检测的跨界之星DETR(四)、Detection with Transformer

    Date: 2020/07/25 Coder: CW Foreword: 本文是该系列的重点之一,通过对DETR中Transformer部分的代码解析,你就会知道Transformer是如何在目标检测 ...

  • 可交互的 Attention 可视化工具!我的Transformer可解释性有救了?

    视觉是人和动物最重要的感觉,至少有80%以上的外界信息是经过视觉获得的.我们看论文的时候,通过图表来确定文章的大致内容往往也是一个更高效的 说到深度神经网络的可视化,最经典的莫过于的CNN密恐图了: ...

  • 低成本测距方案--单目深度估计(二)

    设为'星标',重磅干货,第一时间送达! CV研习社 一个专注于计算机视觉方向的公众号.包括计算机视觉.图像处理.点云处理.机器学习.深度学习.C/C++.Python.制作美食等. 70篇原创内容 O ...

  • 北航出品,CVPR 安全AI大赛第二名:梯度细化提高对抗传递性

    引言 2021年的安全AI挑战者计划的第六期由阿里和CVPR联合推出的竞赛一共分为两个赛道,赛道1是[ 防御模型的白盒对抗攻击 ],赛道2是 [ ImageNet无限制对抗攻击 ] . 随着比赛的结束 ...

  • 网络连接绘制人脑通路

    随着脑连接成像技术(也就是扩散磁共振成像)的快速发展,我们有机会以前所未有的分辨率绘制人脑在体通路.本文回顾了扩散磁共振成像(MRI)重建连接体研究中解剖路径的当前进展.本文首先介绍了扩散磁共振成像的 ...

  • 大脑的扩散磁共振成像—理论和概念

    在过去的二十年里,由于扩散磁共振成像对水分子在微米尺度上的位移具有独特的敏感性,这种方法已经成为研究组织微结构,特别是人类白质的最有前途的方法之一.由于热运动的原因,组织中的水分子不断地随机运动(自扩 ...

  • AAAI 2021最佳论文Runners Up!Transformer的归因探索!

    本文转载自:炼丹笔记 作者:一元,四品炼丹师 Self-Attention Attribution: Interpreting Information Interactions Inside Tran ...

  • Transformer代码完全解读!

    重磅干货,第一时间送达  Datawhale干货  作者:安晟&闫永强,Datawhale成员 本篇正文部分约10000字,分模块解读并实践了Transformer,建议收藏阅读. 2017年 ...

  • 微分万物:深度学习的启示

    (1 中国科学院物理研究所) (2 松山湖材料实验室) (3 哈佛大学物理系) 本文选自<物理>2021年第2期 摘要   深度学习教会了人们一种新的和计算机打交道的方式:将一些可微分的计 ...

  • CVPR2019|基于场景图的可解释显示视觉推理

    计算机视觉三大顶会之一CVPR2019在美国洛杉矶举办,此前接收结果已经公布,一共有1300篇论文被接收,接收率为25.2%. 今天分享给大家的是其中一篇被接收的论文<Explainable a ...

  • Transformer-CNN:用于 QSAR 建模和解释的先进工具

    文章来源于微信公众号 智药邦(ID:PHAIMUS) 今天给大家介绍的是Journal of Cheminformatics上的文章 " Transformer-CNN: Swiss kni ...

  • 3行代码就能可视化Transformer的奥义 | 开源

    Transformer背后的计算模型是什么? 就是最资深的炼丹er,也很难直观地解释这一结构中的信息如何流动,数据又是如何计算的. 但现在,只要写上几行代码,就能将Transformer的流程可视化. ...

  • 网络流量数据缺失?新算法可减少误差,提升数据恢复的精确度

    武汉加油 共渡难关 点击下面标题,了解通知详情 第九届电工技术前沿问题学术论坛征文通知 摘要 福州大学物理与信息工程学院的研究人员汪灿.冯心欣,在2019年第12期<电气技术>杂志上撰文指 ...