Backdoor Attack with Imperceptible Input and Latent Modification

文章目录

Backdoor Attack with Imperceptible Input and Latent Modification
回顾
贡献
威胁模型
方法
- Preliminaries
- Learning to backdoor
- Wasserstein Regularization
- Optimization
- Results
- - attack baseline
  - defense baseline
conclusion

Backdoor Attack with Imperceptible Input and Latent Modification

现有防御发现后门趋于在特征空间或者latent space留下痕迹

本文方法Wasserstein Backdoor (WB) Attack：最小化干净数据和后门数据的潜在表示之间的Wasserstein distance

针对那些依赖在latent space中区别干净样本和投毒样本的防御（characterizing后门图像和干净图像之间的特征或潜在表示的差异）。

回顾

在推理阶段的对抗样本攻击归类为evasion attack

Adversarial examples are not easily detected: Bypassing ten detection methods.

训练过程投毒：BadNets；Neural trojans；clean-label poisoning

之前的工作已经证明，后门图像和干净图像在潜在空间的激活不同。

训练阶段：AC检测潜在空间的聚类和spectral Signature检测潜在表示的协方差的光谱

测试阶段：

A unifified framework for analyzing and detecting malicious examples of dnn models.

Deep probabilistic models to detect data poisoning attacks

CleaNN：利用 concentration inequality检测异常重构，在输入进入模型之前抑制。

贡献

提出一种非凸约束优化问题，使投毒样本和干净样本的潜在分布难以区别。利用Wasserstein的变体sliced-Wasserstein distance。
sliced-Wasserstein distance：利用训练好的分类器的判别方向，而不是从unit sphere中随机取样本
实验证明就latent indistinguishability而言，WB方法的性能比现有SOTA好

威胁模型

假设后门注入是在训练中执行的，并且对手可以访问包括结构和参数在内的模型。本文提出在输入空间中使用难以感知的扰动来制作有毒图像，清除后门攻击在中毒分类器的潜在空间中留下有形的痕迹。

方法

Preliminaries

$fθ:X→CX是输入，C是目标类θ是学习到的参数数据集S={(xi,yi):xi∈X,yi∈C,i=1,⋯N}干净样本(x,y)后门样本(T(x),η(y))T是后门注入函数，η是目标标签函数干净样本和后门样本训练后的f满足：f(x)=y,f(T(x))=η(y)all−to−one:目标标签一致，η(y)=c;all−to−all:目标标签移动一位η(y)=(y+1)mod∣C∣\begin{align} & f_\theta:\;X \rightarrow C \\ & X是输入，C是目标类\\ & \theta 是学习到的参数\\ & 数据集S\,=\, \{ (x_i,y_i)\;:\, x_i \in X,\;y_i \in C,i=1, \cdots N\} \\ & 干净样本(x,y) \\ & 后门样本(T(x),\eta(y)) \\ & T是后门注入函数，\eta是目标标签函数 \\ & 干净样本和后门样本训练后的f满足：f(x)=y, \; \, f(T(x))=\eta (y) \\ & all-to-one:\, 目标标签一致，\eta (y)=c; \\ & all-to-all:\, 目标标签移动一位\eta (y)=(y+1) mod |C| \\ \end{align}$

Learning to backdoor

$学习参数θ:θ∗=argminθ∑i=1Nζ(fθ(xi),yi)产生poisonimage:Tξ(x)=x+gξ(x)∣∣gξ(x)∣∣∞≤ϵ∀xgξ添加不可感知的噪声，把生成函数设置成autoencoder或者U−Net架构学习参数ξ:ξ∗=argminξ∑i=1Nζ(fθ(Tξ(xi)),η(yi))+Rϕ(Fc,Fb)Rϕ是正则化约束，Fc和Fb分别是干净表示和投毒表示的正则约束minθ∑i=1Nαζ(fθ(xi),yi)+βζ(fθ(Tϵ∗(θ)(xi)),η(yi))α和β控制干净和后门损失信号的混合程度\begin{align} & 学习参数 \theta :\theta^*\,=\, \underset{\theta}{arg \; min} \sum_{i=1}^{N} \zeta(f_{\theta}(x_i),\,y_i) \\ & 产生poison image: T_{\xi}(x)=x+g_{\xi}(x) & ||g_{\xi}(x)||_\infty \leq \epsilon \;\forall x \\ & g_{\xi}添加不可感知的噪声，把生成函数设置成autoencoder或者U-Net架构 \\ & 学习参数\xi: \xi^*\,=\, \underset{\xi}{arg \; min} \sum_{i=1}^{N} \zeta(f_{\theta}(T_{\xi}(x_i)),\,\eta (y_i)) \;+R_{\phi}(F_c,F_b)\\ & R_{\phi}是正则化约束，F_c和F_b分别是干净表示和投毒表示的正则约束 \\ & \underset{\theta}{min} \sum_{i=1}^{N}\alpha \zeta(f_{\theta}(x_i),y_i) \,+\, \beta \zeta(f_{\theta} \, (T_{\epsilon*(\theta)}(x_i)), \, \eta(y_i)) \\ & \alpha 和\beta 控制干净和后门损失信号的混合程度\\ \end{align}$

Wasserstein Regularization

干净的和后门的潜在表示是分离的或分布的不同的————通过正则化约束来最小化这种分布差异————由于我们不能假设这两个潜在分布有共同的支持度，或者它们的密度函数是已知的，所以常用的发散（KL和JSD），很难实现分布差异最小化————提出Wasserstein-2 distance

边缘概率度量µ和v分别是由干净数据和中毒数据的潜在表示的经验样本Fc和Fb定义

设qµ和qv为µ是μ和v对应的密度函数，

一维μ和v的Wasserstein-2 距离：

灵感来源：Generative modeling using the sliced wasserstein distance（CVPR2018）

Generalized sliced wasserstein distances（NeurIPS2019）

sliced-Wasserstein distance：SWD

切片随机性带来计算复杂度。在大多数问题中，SWD需要大量的随机方向，通常在1000到10000之间，以提供距离的可靠估计。在DSWD中，随机方向的数量被固定为可能的输出标签的数量，这对于许多分类问题通常是很小的。

提出投影送入输出层来代替SWD的均匀线性投影。当潜在空间是分类器的倒数第二层时，投影：DSWD

论文证明了DSWD是潜在分布的有效距离度量

结论：现有的防御方法选择了神经网络的倒数第二层。作为进行防御分析差异的空间。论文提出的DSWD距离是该空间中概率测度的有效距离函数。

Optimization

f与T固定一个，更新另一个，交替进行——在干净数据上性能不够好——MIST只需要几轮，而CIFAR10，GTSRB、Tiny数据集上需要几百轮。————训练一定epochs后，固定T，仅训练f
思想来源LIRA

Results

attack baseline

defense baseline

activation clustering: 在有毒分类器中，干净样本和后门样本的潜在表示形成单独的聚类，使用K-means等聚类方法很容易检测到。本文对WB提出的优化可以减少这种差异。

对比Adversarial embedding，BadNets和WaNet对这种检测方法的鲁棒性

spectral signature：是一种样本过滤防御，找到数据的潜在向量的协方差矩阵的最大奇异值。然后计算每个样本与这个奇异值的相关性得分，并将那些具有离群值得分的样本标记为后门样本。

本文方法的干净样本和后门样本得分近似
Neural Cleanse：寻找每个可能的目标标签的最佳patch模式，然后，通过异常指数来量化最优的后门触发模式是否是一个离群值。异常指数大于2是后门模型。WaNet和WB对这种防御有好的鲁棒性。
STRIP：给定分类器和输入图像，首先扰动图像，并根据这些扰动图像的预测熵（即预测是否一致）确定模型中后门的存在。STRIP未能检测到WB产生的后门样本

conclusion

Wasserstein Backdoor学习一个触发函数，它会向输入图像添加视觉上难以察觉的噪声。通过sliced Wasserstein distance最小化干净图像和后门图像在latent space的表示之间分布差异。

补充：

数据集的问题：都是小数据集。

防御鲁棒性：只打破AC和signature的假设

思想不是首发：Adversarial Embedding：通过对抗正则化最小化干净样本和投毒样本之间latent distribution的距离。

干净图像和后门图像在latent space的表示之间分布差异。

补充：

没有测试大规模数据集，和vit等其他模型架构；
防御鲁棒性：打破AC和spectral signature的假设，对其他SOTA防御没有验证。

思想首发：Adversarial Embedding：通过对抗正则化最小化干净样本和投毒样本之间latent distribution的距离。