人脸识别的可解释性

作者丨孙裕道
编辑丨极市平台

极市导读

人脸识别的可解释性是深度学习领域中的一个很大挑战,当前的方法通常缺乏网络比较和量化可解释结果的真相。本文作者定义了一种新的评估方案,称为“修复游戏”,通过生成一个网络注意力图,为量化评价哪些图像区域有助于人脸匹配提供了基本事实。>>加入极市CV技术交流群,走在计算机视觉的最前沿

论文标题:Explainable Face Recognition
论文链接:https://arxiv.org/abs/2008.00916
论文代码:https://github.com/stresearch/xfr
论文发表:ECCV2020
合作单位:剑桥Visym实验室

引言

众所周知,理解和解释深度学习模型是一个比较有挑战的事情,因为大规模训练的深度卷积网络被认为是黑盒系统,也许我们可以对训练的数据集和损失函数有一定的了解,但是对深度模型的学习过程以及生成的预测的理解确实很有限。自然深度学习中的很重要领域人脸识别的可解释性也是一个很大的挑战,当前在这方面探索的方法有网络注意力、网络解剖或综合语言解释,然而,缺乏网络比较和量化可解释结果的真相,尤其是在人脸识别中近亲或近亲之间的差异很微妙,解释并不明显。在该论文中作者定义了一种新的评估方案,称为“修复游戏”,其任务是生成一个网络注意力图,最好地解释图像中的哪些区域与匹配的图像匹配,这为量化哪些图像区域有助于人脸匹配提供了基本事实。

论文贡献

该论文的贡献可以归结为如下三点,分别如下所示

  • XFRbaseline:作者基于五种网络注意力算法为XFR(人脸识别的可解释性)提供了baseline,并在三个用于人脸识别的公开深度卷积网络上进行了评估:LightCNN、VGGPFACE2和SNET-101。

  • 图像修复游戏协议和数据集:作者提供标准化评估协议和数据集,用于细粒度的人脸识别可视化。这为客观地比较XFR系统提供了一个量化指标。

  • XFR评估:作者首次对图像修复协议的baseline算法进行了全面的评估,从而得出关于这些方法在真实图像上解释的实用性的结论。

模型介绍

人脸识别的可解释性(XFR)

该论文的创新点可能是从Facenet中得到一定的灵感。XFR的目的是解释人脸图像之间的匹配的内在关系。如下图所示,给定一个三元组(probe,mate,nonmate),XFR算法的任务是生成一个显著图(最大化probe图像与mate图像相似性和最小化probe图像与nonmate图像相似性)。先前的工作表明,面部之间的成对相似性主要受眼周区域和鼻子的影响。眼周区域和鼻子几乎总是用于面部分类,但这对于解释更精细的辨别水平没有太大帮助。作者的目标是突出probe中与假定mate更相似,同时与nonmate不太相似的区域。这个三元组(probe,mate,nonmate)为面部区域的相对重要性提供了一个比面部类别激活图更深层次的解释。

激励反向传播(EBP)

激励反向传播(EBP)将网络注意力建模为一个概率赢家通吃的传播过程。EBP计算穿越到卷积网络中给定节点的概率,概率是由正权重和非负权重激活得来。EBP的输出是一个显著图,它定位了图像中对于给定类别的区域。EBP的原始公式考虑了交叉熵损失,以优化训练集中的最大分类。在该论文中在作者提出了一个新的公式,给定一个mate(m)、nonmate(n)和probe(p)的三个编码向量,其中损失函数如下所示:

这里使用编码向量之间的欧几里德距离的平方来捕获相似性,使得当从probe到mate的距离小(相似性高)并且从probe到nonmate的距离大(相似性低)时,损失最小化,其中公式中具有余量项。

子树EBP

在该论文中作者介绍了子树EBP算法,这是一种新的白盒的XFR方法。给定一个三元组(probe,mate,nonmate)图像,计算损失函数相对于网络中每个节点的梯度,其中mate编码向量和nonmate编码向量被假定为常数,并且相对于probe图像计算梯度。作者按递减顺序对每个节点的梯度进行排序,并选择正梯度最大的前k个节点。从每个选择的内部节点构建k个EBP显著图,然后进行加权凸组合,其中权重为,则有如下公式:

其中权重由损失梯度给出,并且归一化为和为1。这形成了最终的子树EBP显著图。

DISE

基于密度的解释输入采样(DISE)是该文介绍的第二种新的白盒XFR方法。DISE是随机输入抽样的一种扩展,使用先验密度来辅助抽样。先前的工作已经构建了与特定类别相关联的显著图,方法是通过掩模来随机扰动输入图像,然后使用黑盒系统对其进行评估。但是这些方法生成的掩模会均匀地遮挡输入图像,像这种采样过程是低效的。在该论文中作者通过引入先验分布来指导采样并进行改进,输入采样的先验密度是从具有三重损失的白盒EBP得到的,如下图所示显示了论文中该方法的概述,该方法利用灰色(即屏蔽像素)来遮挡probe图像中的小区域,利用EBP得到的先验密度并进行采样,并为给定(probe,mate,nonmate)计算三重损失的数值梯度,可以发现具有大数值梯度的掩模在累积显著性图中权重更大。

非均匀先验掩模

先前对面部识别的辨别特征的研究表明,面部最重要的区域通常位于眼睛和鼻子内和周围。如上图所示使用VGG-16网络作为白盒面部分类器为泰勒·斯威夫特的probe图像计算的该显著图的示例。使用这个显著图作为生成随机掩模的先验概率,允许对最显著的空间进行采样比在整个图像上假设均匀概率更有效地影响损失的掩模,这可以进一步有效地消除了掩模不重要的背景元素的可能性。

Numerical gradient

给定已经用从非均匀先验采样的稀疏掩模的probe图像,可以计算三重损失的数值梯度。设为probe的编码向量,为mate图像嵌向量,为nonmate图像向量,为掩模的probe向量。则三重损失的数值梯度可以近似为:

数值梯度是真实损失梯度的近似值,该损失梯度是通过用像素掩模来扰动输入,并计算三重损失的相应变化。当probe和nonmate之间相似性减少时,数值梯度会变大,显著性特征会得到累积。

实验结果

在该论文中,论文的目标是突出给定一个人脸图像相对于一个相似身份进行匹配的区域,作者把定量评估的整体策略称为图像修复游戏。

图像修复游戏

图像修复游戏评估的概述如下图所示。图像修复游戏使用四个(或更多)图像进行每次评估:probe图像、mate图像、修复的probe图像和修复的nonmate图像,其中面部固定区域(如眼睛、鼻子或嘴)的probe会有细微的不同。类似地,修复后的nonmate或mate形象有细微的不同。修复的probe和修复的nonmate被约束为相同的新身份。对于每个三元组,XFR算法的任务是估计每个像素属于一个区域的可能性,该区域对于将probe匹配到mate身份是有区别的,这些有区别的像素估计最终形成了显著图。通过应用阈值将每个像素分类,这就形成了二进制显著图。

人脸识别的修复数据集

构建图像修复数据集的一个关键挑战是要确修复后的图片与原图片表示的是不同的身份。大多数修复的图像在相似性上与特定网络的原始配对身份没有足够的差异。实验中需要能够使用最近匹配协议和验证协议来区分这些身份,以便将目标网络的验证匹配阈值校准在一个较低误报率中。每个三元组必须满足以下标准,才能包含在给定网络的数据集中:原始probe需要更类似于原始配对身份,并且在校准验证阈值处被正确验证为原始配对身份。如上所述为每个目标网络过滤修复数据集,产生特定于该目标网络的数据集。在该论文的实验中,对于基于ResNet-101的网络,最终过滤的数据集包括84个身份和543个三元组,这是从95个身份和3648个三元组中过滤下来。性能较低的网络通常比性能较高的网络具有更少的满足选择要求的三元组,因为它们不能辨别修复probe图像中的许多细微变化。

评估指标

XFR算法估计每一个像素属于一个区域的可能性,该区域对于将probe图像与mate的身份相匹配。这些有区别的像素估计形成显著图,其中最亮的像素被估计最有可能属于有区别的区域。下图显示出了两个阈值处的示例和显著性预测,其中显著性预测作为二进制掩模在不同的阈值处展示出来。在该论文中作者使用经典的ROC曲线来评估图像修复游戏。如下图所示,通过扫描像素显著性估计的阈值,并通过使用修复区域作为正/显著区域和未修复区域作为负/不显著区域来计算真实接受率和误报率,可以生成ROC曲线。另外在该论文中,作者使用平均非状态分类率来代替显著性分类的真阳性率。通过扫描显著性阈值被分类为显著的像素被来自“修复探针”的像素替换,该“修复探针”不被提供给显著性算法。然后,这些“混合探针”可以让被测试的网络分类为原始身份或修复的非原始身份。高性能的XFR算法将正确地为修补区域分配更多的显著性,这将改变混合探针的身份,而不会增加像素显著性分类的误报率。假阳性率是根据所有三元组的显著像素分类计算的,使用混合探针的基本真值掩码。平均非移动分类率由每个组中的三元组数量加权过滤数据集的面部区域,以避免子协议的偏差。度量的输出曲线示例如下图所示。

实验数据

作者使用三个目标网络在修复数据集上运行修复游戏评估协议分别是LightCNN,VGGFace2。

ResNet-50和一个定制训练的ResNet-101。评估结果如下表所示:显示了网络和XFR算法的每种组合,整个协议和三个子协议(仅眼睛、鼻子和眉毛)的两种误报率。显示了网络和XFR算法的每种组合,整个协议和三个子协议(仅眼睛、鼻子和眉毛)的两种误报率。论文中的补充材料中的附加结果显示了各个面部区域的结果。总的来说,结果显示对于更深的网络(ResNet-101,ResNet-50),性能最好的XFR算法是DISE。然而,对于较浅的网络,表现最好的算法是子树EBP算法。这两种新的方法都远远超过了最先进的方法。所以可知DISE的表现优于子树EBP,因为子树EBP不能定位图像区域比底层网络更好地代表面部。考虑补充材料中的眉毛子协议结果,这表明子树EBP不能独立于眼睛表示眉毛。DISE可以独立于底层目标网络掩蔽图像区域,并正确定位眉毛效果。

◎作者档案
作者:孙裕道
欢迎大家联系极市小编(微信ID:fengcall19)加入极市原创作者行列
(0)

相关推荐

  • python+opencv图像处理(二十五)

    图像锐化(image sharpening)可以增强图像的边缘部分. 1.梯度法 图像锐化的方法很多,梯度法是其中较常用的一种. 梯度是函数变化的一种度量,是一阶导数的二维等效形式,利用梯度的离散逼近 ...

  • 【完结】AutoML如何应用于模型优化,这些文章可以作为一个参考

    自动化机器学习技术是非常重要的基础研究,也是如今深度学习模型优化中的热点方向,我们开辟了一个专栏,专门讲解AutoML在深度学习模型优化中的一些重要思路,本次来给大家进行总结. AutoML与数据增强 ...

  • 基于梯度阈值自适应处理的红外图像超分辨率重建

    0 引言 高分辨率成像是图像处理环节进行有效信息提取和分析的重要前提.然而,实际成像系统获取的图像空间分辨率往往不能满足信息处理的需求,这种现象在红外成像领域更为普遍[1]. 目前,国内外报道了大量超 ...

  • 人工智能深度学习系统的基石——神经网络简介

    神经网络简介 神经网络是深度学习系统的基石.为了在深度学习方面取得成功,我们需要从回顾神经网络的基础知识开始,包括架构.神经网络算法等等. 什么是神经网络? 神经网络技术起源于上世纪五.六十年代,当时 ...

  • 深空摄影(45) · 第五章 · 第二节 · 2 Bayer Drizzle

    2-2 Bayer Drizzle 如果以RGB三通道中的某一通道来审视彩色相机,拜耳滤镜就会形成另一种意义上的photosite.在采用SuperPixel的方式获取颜色时,图像的长宽被缩短到原来的 ...

  • 华为Mate10被曝光:颜值爆表,终于改用正面指纹和搭载人脸解锁

    最近的手机圈似乎有点热闹,各大品牌争先恐后的推出自家期间手机,小米MIX 2.三星Note8国行版和iPhone 8/X都已经正式发布了.而华为新旗舰Mate 10也将于10月16日正式发布. 更重要 ...

  • 人脸识别的基本原理

    编辑导语:人脸识别产品早已被应用到生活的各个场景之中.但是你了解它的应用原理吗?本篇文章里,作者便将人脸识别原理进行了拆解.感兴趣的话就一起看下去吧. 现在AI发展的如火如荼,我们已逐步进入智能时代. ...

  • 以人脸识别技术为主的智慧校园安防解决方案

    今天给大家带来的是以人脸识别技术为基础的智慧校园安防系统解决方案,针对学校的围墙周界.大门.档案室.校学生宿舍以及学校危险地带的危险活动检测,系统将告警信息推送给管理人员,采取应对措施,下面我们来看具 ...

  • 人脸识别行业报告(2021,全文)

    人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术.随着深度学习.大数据和云计算等领域的不断突破,人脸识别也获得高速发展,市场潜力不断释放.全球人脸识别市场渗透率快速攀升,产业正进入增长快车 ...

  • 2021年人脸识别行业白皮书

    人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术.随着深度学习.大数据和云计算等领域的不断突破,人脸识别也获得高速发展,市场潜力不断释放.主流的生物识别方式有:指纹识别.虹膜识别.语音识别 ...

  • 人脸识别 严管才有未来

    <信息安全技术 人脸识别数据安全要求>日前向社会公开征求意见.在人脸识别野蛮生长.隐患频现的当下,大家对即将出台的"国标"寄予了很大期待. 从具体内容看,"国 ...

  • 网络安全与数据合规周报 | “人脸识别第一案”二审宣判;10家互联网平台企业承诺不利用大数据“杀熟”

    内容提要 国内要闻 "人脸识别第一案"二审宣判 工信部公开征集三项行业标准和标准计划项目意见 工信部公开征集关于<智能网联汽车生产企业及产品准入管理指南(试行)>的意见 ...

  • 7行Python的人脸识别

    随着去年alphago 的震撼表现,AI 再次成为科技公司的宠儿.AI涉及的领域众多,图像识别中的人脸识别是其中一个有趣的分支.百度的BFR,Face++的开放平台,汉王,讯飞等等都提供了人脸识别的A ...

  • 现阶段智慧社区与人脸识别技术 AI智能科研领域发展方向

    人脸识别简单的解释就是给出两张脸,系统搜索确定是否是同一个人,这就是它最初的定义.它有银行柜台.海关.酒店入住.网吧认证等多种应用场景,检查你的身份证是否和你是同一个人.   目前,人脸识别技术已经得 ...

  • 【凡夫沙龙】能否启用人脸识别抓拍非机动车违法

    读者来函 "红灯行.绿灯停"等的交通规则估计三岁儿童都会背,但是我遍翻一些报纸杂志,少见有对慢车道行驶的电动车.自行车逆向行驶的要求. 某日下午骑自行车去市里办事,因为刹车有点不灵 ...