对抗攻击之利用水印生成对抗样本
论文标题:Adv-watermark: A Novel Watermark Perturbation for AdversarialExamples
论文链接:https://arxiv.org/pdf/2008.01919.pdf
引言
对抗样本生成的方法有很多,但它们都是在原图像上添加对抗扰动。本文提出的生成对抗样本的的方法很有趣,它是利用水印的不可察觉性,在水印上做文章从而生成对抗样本,即在干净图像中添加有意义的水印也可以攻击深度神经网络模型。如下图所示是分别是字母水印对抗样本和logo水印的对抗样本。
1.论文的贡献
本文的贡献可以归结如下三点:
作者提出了一种新的对抗样本算法Adv-watermark。水印同时具有水印特性(版权保护)和对抗样本的功能(导致训练好的模型误分类),需要注意的一点在于除了水印区域并没有其它的对抗扰动。
作者提出一种基于Adv-watermark的优化算法论文称为BHE。该优化方法采用基于种群的全局搜索策略方式生成对抗性样本。
实验结果显示,当水印大小为宿主图像大小的4/9(个人感觉扰动的像素过多,有点违背对抗样本的定义)时,它可以获得97%以上的攻击成功率。水印大小是宿主图像大小的1/16,也可以达到65%左右的攻击成功率。
2.算法介绍
2.1对抗水印
论文中使用除了R,G,B以外还有alpha共四个混合通道来生成对抗水印,通道是指背景图像中前景区域的透明度。论文中用表示alpha通道的值,表示尺寸为的宿主图像(称为宿主图片很准确即为无对抗扰动的图片),表示尺寸为的水印图像,表示生成的图像,当,时,其生成对抗水印公式为:
当 , 时,计算公式为:
其中表示图像x,下标, 为表示像素位置,,表示水印图像嵌入的位置。作者不仅使用了图像水印,而且还使用了文本水印。
2.2问题凝练
该问题涉及两组参数,第一组参数是水印在宿主图像中的位置;第二组参数是水印的透明度。在宿主图像中嵌入可看作是一个实际扰动的对抗性水印,可以对局部进行修改主机映像的信息。对抗性水印扰动允许干净图像成为对抗样本。
对抗水印在不影响图像视觉效果的前提下,干扰决定图像分类的重要局部区域,攻击训练良好的分类模型。如下图所示为梯度加权类激活映射生成的热力图,可以清楚地看到Resnet101将输入图像预测为相应的正确类。
将对抗水印嵌入到图像中,可以改变生成的热图上概率分布。其中图中的第一行是原始图像(通过Resnet101正确分类)及其对应的热力图,下排是带有可见水印的对抗性图像及其对应的热图。
2.3优化算法BHE
论文中提出了一种新的优化算法为BHE。该方法是一种启发式随机搜索算法,可用于求解多元函数的全局最小值。如下图所示,BHE包括四部分,本文接下来会依次展开说明。
BHE是一种基于群体进化的优化算法,个人感觉BHE这就是一种普通的粒子群算法,适合求解非凸函数的最优解或者是局部最优解。每个解决方案都是一个群体的个体。其中、和元素被认为是其基因。
设表示第代人口中的第个个体,并且表示的第个基因。所以会有如下公式:
在该公式中,为初始群体中第个个体的第个基因,为第个基因的最小值,为第基因的最大值。
BasinHopping是一种随机优化算法。在每次迭代过程中,BH生成一些随机扰动的新坐标,然后找到局部极小值,最后根据最小函数值接受或拒绝新坐标,具体的计算公式如下所示:
目前还未发现该文有开源代码。
在看,让更多人看到