Mind the Box: $\ell_1$-APGD for Sparse Adversarial Attacks on Image Classifiers

文章目录

概
主要内容

Croce F. and Hein M. Mind the box: ℓ1\ell_1ℓ1-APGD for sparse adversarial attacks on image classifiers. In International Conference on Machine Learning (ICML), 2021.

概

以往的ℓ1\ell_1ℓ1攻击, 为了保证
∥x′−x∥1≤ϵ,x′∈[0,1]d,\|x' - x\|_1 \le \epsilon, x' \in [0, 1]^d, ∥x′−x∥1≤ϵ,x′∈[0,1]d,
其是通过两步投影的方式完成的, 即
x′=PH∘PB1(x;ϵ)(u).x' = P_H \circ P_{B_1 (x; \epsilon)} (u). x′=PH∘PB1(x;ϵ)(u).
其中B1B_1B1表示1范数球, 而HHH表示[0,1]d[0, 1]^d[0,1]d的空间.
本文直接
x′=PS(u),S:=H⋂B1(x;ϵ).x' = P_S (u), \: S := H \bigcap B_1 (x; \epsilon). x′=PS(u),S:=H⋂B1(x;ϵ).

主要内容

上图展示了1范数球和SSS, 可以发现, 差别还是很大的.
正因如此, 和ℓ∞,ℓ2\ell_{\infty}, \ell_2ℓ∞,ℓ2不同, 基于二步投影的ℓ1\ell_1ℓ1攻击非常低效.
于是乎, 作者直接投影到SSS, 即考虑如下的优化问题:
min⁡z∥z−u∥22s.t.∥z−x∥1≤ϵ,z∈[0,1]d.\min_{z} \: \|z - u\|_2^2 \\ \mathrm{s.t.} \: \|z - x\|_1 \le \epsilon, \: z \in [0, 1]^d. zmin∥z−u∥22s.t.∥z−x∥1≤ϵ,z∈[0,1]d.

不妨令w~=z−x\tilde{w} = z - xw~=z−x, 则
min⁡w~∥w~−(u−x)∥22s.t.∥w~∥1≤ϵ,w~+x∈[0,1]d.\min_{\tilde{w}} \: \|\tilde{w} - (u - x)\|_2^2 \\ \mathrm{s.t.} \: \|\tilde{w}\|_1 \le \epsilon, \: \tilde{w} + x \in [0, 1]^d. w~min∥w~−(u−x)∥22s.t.∥w~∥1≤ϵ,w~+x∈[0,1]d.
再令w=sign(u−x)w~w = \mathrm{sign}(u-x) \tilde{w}w=sign(u−x)w~, 此时有
min⁡w∥w−∣u−x∣∥22s.t.∥w∥1≤ϵ,sign(u−x)w+x∈[0,1]d.\min_{w} \: \|w - |u - x|\|_2^2 \\ \mathrm{s.t.} \: \|w\|_1 \le \epsilon, \: \mathrm{sign}(u-x)w+ x \in [0, 1]^d. wmin∥w−∣u−x∣∥22s.t.∥w∥1≤ϵ,sign(u−x)w+x∈[0,1]d.
显然, www非负(否则徒增消耗罢了).
为此, 我们可以归结为上述问题为下述类型问题:
min⁡z12∥z−∣u∣∥22s.t.∑izi≤ϵ,zi≥0,sign(u)z+x∈[0,1]d.\min_{z} \: \frac{1}{2}\|z - |u|\|_2^2 \\ \mathrm{s.t.} \: \sum_i z_i \le \epsilon, \: z_i \ge 0, \: \mathrm{sign}(u)z + x \in [0, 1]^d. zmin21∥z−∣u∣∥22s.t.i∑zi≤ϵ,zi≥0,sign(u)z+x∈[0,1]d.
约束条件可以进一步改写为
∑izi≤ϵ,zi∈[0,γi],γi=max⁡{−xsign(u),(1−x)sign(u)}.\sum_i z_i \le \epsilon, \\ z_i \in [0, \gamma_i], \\ \gamma_i = \max \{-x\mathrm{sign} (u), (1 - x)\mathrm{sign}(u) \}. i∑zi≤ϵ,zi∈[0,γi],γi=max{−xsign(u),(1−x)sign(u)}.
注: 这是从这篇论文中学到的一个很有趣的技巧:
a≤sign(u)z+x≤b⇔sign(u)a≤z+sign(u)x≤sign(u)borsign(u)b≤z+sign(u)x≤sign(u)a⇔z∈[(a−x)sign(u),(b−x)sign(u)].\begin{array}{ll} & a \le \mathrm{sign}(u)z + x \le b \\ \Leftrightarrow& \mathrm{sign}(u) a \le z + \mathrm{sign}(u) x \le \mathrm{sign}(u)b \\ or & \mathrm{sign}(u) b \le z + \mathrm{sign}(u) x \le \mathrm{sign}(u)a \\ \Leftrightarrow& z \in [(a - x)\mathrm{sign}(u), (b - x)\mathrm{sign}(u)]. \end{array} ⇔or⇔a≤sign(u)z+x≤bsign(u)a≤z+sign(u)x≤sign(u)bsign(u)b≤z+sign(u)x≤sign(u)az∈[(a−x)sign(u),(b−x)sign(u)].
下面通过拉格朗日乘子法求解(既然是个凸问题, 假设γ>0\gamma > 0γ>0):
L(z;λ;α;β)=12∥z−∣u∣∥22+λ(∑izi−ϵ)−αTz+βT(z−γ).\mathcal{L}(z;\lambda; \alpha; \beta) = \frac{1}{2} \|z - |u|\|_2^2 + \lambda (\sum_i z_i - \epsilon) - \alpha^Tz + \beta^T (z - \gamma). L(z;λ;α;β)=21∥z−∣u∣∥22+λ(i∑zi−ϵ)−αTz+βT(z−γ).
由此可得KKT条件:
∇ziL=(zi−∣ui∣)+λ−αi+βi=0;λ(∑izi−ϵ)=0;αizi=0,βi(zi−γi)=0;λ,αi,βi≥0.\nabla_{z_i}\mathcal{L} = (z_i - |u_i|) + \lambda - \alpha_i + \beta_i = 0; \\ \lambda (\sum_i z_i - \epsilon) = 0; \\ \alpha_i z_i = 0, \beta_i (z_i - \gamma_i) = 0; \\ \lambda, \alpha_i, \beta_i \ge 0. ∇ziL=(zi−∣ui∣)+λ−αi+βi=0;λ(i∑zi−ϵ)=0;αizi=0,βi(zi−γi)=0;λ,αi,βi≥0.
故
zi=∣ui∣−λ+αi−βi.z_i = |u_i| - \lambda + \alpha_i - \beta_i. zi=∣ui∣−λ+αi−βi.
我们再来具体分析:
1.
βi≠0⇒zi=γi>0⇒αi=0.\beta_i \not = 0 \Rightarrow z_i = \gamma_i > 0 \Rightarrow \alpha_i = 0. βi=0⇒zi=γi>0⇒αi=0.
故
βi=max⁡(0,∣ui∣−γi−λ).\beta_i = \max(0, |u_i| - \gamma_i - \lambda). βi=max(0,∣ui∣−γi−λ).
2.
αi≠0⇒zi=0⇒βi=0.\alpha_i \not = 0 \Rightarrow z_i = 0 \Rightarrow \beta_i = 0. αi=0⇒zi=0⇒βi=0.
故
αi=max⁡(0,λ−∣ui∣).\alpha_i = \max(0, \lambda - |u_i|). αi=max(0,λ−∣ui∣).
于是
zi={0,λ>∣ui∣∣ui∣−λ,∣ui∣−γi≤λ≤∣ui∣γi,λ<∣ui∣−γi.z_i=\left\{ \begin{array}{ll} 0, & \lambda > |u_i| \\ |u_i| - \lambda, & |u_i| - \gamma_i \le \lambda \le |u_i| \\ \gamma_i, & \lambda < |u_i| - \gamma_i. \end{array} \right . zi=⎩⎨⎧0,∣ui∣−λ,γi,λ>∣ui∣∣ui∣−γi≤λ≤∣ui∣λ<∣ui∣−γi.
其中λ\lambdaλ是下列方程的解:
λ(∑izi−ϵ)=0.\lambda (\sum_i z_i - \epsilon) = 0. λ(i∑zi−ϵ)=0.
其有一个特殊的表达方式:
zi=max⁡(0,min⁡(γi,∣ui∣−λ)).z_i = \max(0, \min(\gamma_i, |u_i| - \lambda)). zi=max(0,min(γi,∣ui∣−λ)).
故
λ(∑imax⁡(0,min⁡(γi,∣ui∣−λ))−ϵ)=0.\lambda (\sum_i \max(0, \min(\gamma_i, |u_i| - \lambda)) - \epsilon) = 0. λ(i∑max(0,min(γi,∣ui∣−λ))−ϵ)=0.

若λ=0\lambda=0λ=0时:
∑imax⁡(0,min⁡(γi,∣ui∣−λ))≤ϵ,\sum_i \max(0, \min(\gamma_i, |u_i| - \lambda)) \le \epsilon, i∑max(0,min(γi,∣ui∣−λ))≤ϵ,
则此时λ=0\lambda=0λ=0恰为最优解, 否则需要通过
∑imax⁡(0,min⁡(γi,∣ui∣−λ))=ϵ,\sum_i \max(0, \min(\gamma_i, |u_i| - \lambda)) = \epsilon, i∑max(0,min(γi,∣ui∣−λ))=ϵ,
求解出λ\lambdaλ.
因为∑imax⁡(0,min⁡(γi,∣ui∣−λ))\sum_i \max(0, \min(\gamma_i, |u_i| - \lambda))∑imax(0,min(γi,∣ui∣−λ))关于λ\lambdaλ是单调递减的, 作者给了一个方便的算法求解(虽然我对这个算法的表述有一点点疑惑).

除了投影之外, 作者还给出了一个最速下降方向, 证明是类似的.

作者关于ℓ\ellℓ攻击的分析感觉很通透, 不错的文章啊.