Paper笔记：《LaVAN: Localized and Visible Adversarial Noise》

论文: http://proceedings.mlr.press/v80/karmon18a/karmon18a.pdf
（该论文代码未开源）

Motivation

这篇paper聚焦于基于patch的对抗攻击，过去的对抗攻击主要是基于LpL_{p}Lp约束，即将噪声添加在整幅图像上，同时限制噪声的大小满足∣δ∣<Lp|\delta| <\,L_{p}∣δ∣<Lp，从而保证噪声难以被人眼所察觉。但是由于施加在整图的噪声难以进行打印，同时噪声量较小很容易受到环境影响，因此LpL_{p}Lp攻击难以引入到现实应用中。而基于patch的攻击将噪声施加在图像中一个闭合的局部区域内，但是对噪声的大小不加太大的限制。Brown等人有一篇相似的工作，主要是通过3D打印的方式将攻击patch打印并贴在图像上，从而在现实场景下实现对抗攻击。但是为了保证在现实场景中的攻击泛化性，生成的patch在90%的场景下，至少要占据图像10%的面积才能攻击成功，如果需要使得攻击的patch不易被察觉，则至少要占据35%的面积。而本文的工作不考虑引入到现实应用场景，主要聚焦于数字领域。

Contribution

本文提出了一种基于patch的对抗攻击算法，生成的攻击patch只占据图像不到2%的面积，并且不遮挡任何关键的目标区域，同时保证极高的攻击成功率。本文的核心贡献是patch对于图像以及位置的universal属性，即一次生成的攻击patch可以放置在任意图像的任意位置上，均能实现很高的攻击成功率。不过攻击只成功于生成攻击时对应的threat model，因此虽然文中没有明确体积，但本文应该是一篇在白盒场景下的工作。
此外，作者通过对噪声图像的梯度进行监控，发现攻击成功不仅仅取决于patch区域，驳斥了“patch攻击成功的原因是patch区域对分类器而言更显著”的观点。

Method

如图1所示，本文采用的攻击方法与常用的基于梯度优化的攻击方式原理一致，其主要区别在于两个点：
（1）由于patch攻击的特点，作者设置mask（用m∈{0,1}nm\in\{0,1\}^nm∈{0,1}n表示）来指示攻击区域，定义攻击后的图像为(1−m)⨀x+m⨀δ(1-m)\bigodot\,x+m\bigodot\,\delta(1−m)⨀x+m⨀δ，其中δ\deltaδ表示攻击噪声，同时，为了避免patch遮挡关键区域，作者将patch的位置设置在图像的四个角附近。
（2）如下式所示，作者设计了新的攻击目标，类似于margin loss，作者认为这可以拉开不同类别在特征空间的距离，并且加速收敛。其中，M(x)M(x)M(x)代表softmax层之前的logits向量。
argmaxδ[M(y=ytarget∣(1−m)⨀x+m⨀δ)−M(y=ysource∣(1−m)⨀x+m⨀δ)]\underset{\delta}{argmax}[M(y=y_{target}|(1-m)\bigodot\,x+m\bigodot\,\delta)-M(y=y_{source}|(1-m)\bigodot\,x+m\bigodot\,\delta)] δargmax[M(y=ytarget∣(1−m)⨀x+m⨀δ)−M(y=ysource∣(1−m)⨀x+m⨀δ)]
作者在网络域和图像域进行相关实验，其中，图像域要求归一化后的像素值在[0,1]范围内，而网络域则不加任何限制。类似于PGD攻击，在生成图像域攻击patch时，每个迭代步之后会进行像素值的裁剪工作（对应图1的标红区域）。
以上均是针对单一图像固定位置生成的攻击，作者发现攻击patch在图像及位置之间均没有迁移性，即便将patch位移一两个像素，也会导致攻击不成功。因此，为了生成前文提到的universal的攻击，作者在每个迭代步中都使用不同的图像和位置，图像和位置的选取方法则是在uniform分布中随机获取。

图1 攻击算法整体流程

Experiments and Analysis

在这里只讨论universal的攻击结果，关于单一图像固定位置的攻击，本质上与基于LpL_pLp的全局攻击一样，攻击效果必然是可预见的非常好，对这部分感兴趣的朋友可以查阅原文。

攻击效果

为了测试攻击对于patch位置的鲁棒性，作者按照每隔1个像素一次的密度，将生成的攻击patch添加到未参与攻击生成的图片的各个位置上，如图2所示，攻击几乎在任何位置都可以成功。作者在14个类别（各100张图片）的数据集上进行测试，在网络域场景下，发现83%的样本可以以超过0.9的置信度成功实现target攻击，超过97%的样本可以成功实现untarget攻击。
为了测试攻击在图像间的鲁棒性，作者选择了100张未参与攻击生成的图片进行测试，在图像域场景下，虽然只有43%的图像实现了置信度0.9以上的target的攻击，但是有89%的图像实现了target攻击，并且100%的图像均可成功实现untarget攻击。
此外，作者对于攻击效果与类别的关系进行了探讨，具体的实验结果可参考原文，作者发现图像特征复杂的类别（例如火山）更难被攻击成功，而图像特征较简单的类别（如排球）则更容易被攻击。

图2 patch攻击位置鲁棒性的测试结果

patch区域对分类器的影响

此前的paper持有“patch攻击生效的原因是patch区域对分类器来说具有更高的显著性”的观点，为了验证这点的真伪，作者设计了相关的实验。作者将攻击图片导入分类器，并进行梯度的反传使得分类器逐渐偏向正确的分类结果，通过监控分类器结果对于原图的梯度，来分析图片中的各个区域对于攻击效果的影响。如图3可以发现，虽然patch区域占据一部分梯度，但是其他区域同样也分担了一部分梯度。而在部分样本中，patch区域的梯度只占一小部分。作者通过这个实验证明，分类器的错误输出不仅仅源于patch区域，也受到图像其他部分的影响，patch区域对于分类器来说更显著的理论是错误的。

图3 图像区域对于攻击效果的影响示意图