Backdoor Attack with Imperceptible Input and Latent Modification
文章目录
- Backdoor Attack with Imperceptible Input and Latent Modification
- 回顾
- 贡献
- 威胁模型
- 方法
- Preliminaries
- Learning to backdoor
- Wasserstein Regularization
- Optimization
- Results
- attack baseline
- defense baseline
- conclusion
Backdoor Attack with Imperceptible Input and Latent Modification
现有防御发现后门趋于在特征空间或者latent space留下痕迹
本文方法Wasserstein Backdoor (WB) Attack:最小化干净数据和后门数据的潜在表示之间的Wasserstein distance
针对那些依赖在latent space中区别干净样本和投毒样本的防御(characterizing后门图像和干净图像之间的特征或潜在表示的差异)。
回顾
在推理阶段的对抗样本攻击归类为evasion attack
Adversarial examples are not easily detected: Bypassing ten detection methods.
训练过程投毒:BadNets;Neural trojans;clean-label poisoning
之前的工作已经证明,后门图像和干净图像在潜在空间的激活不同。
训练阶段:AC检测潜在空间的聚类和spectral Signature检测潜在表示的协方差的光谱
测试阶段:
A unifified framework for analyzing and detecting malicious examples of dnn models.
Deep probabilistic models to detect data poisoning attacks
CleaNN:利用 concentration inequality检测异常重构,在输入进入模型之前抑制。
贡献
- 提出一种非凸约束优化问题,使投毒样本和干净样本的潜在分布难以区别。利用Wasserstein的变体sliced-Wasserstein distance。
- sliced-Wasserstein distance:利用训练好的分类器的判别方向,而不是从unit sphere中随机取样本
- 实验证明就latent indistinguishability而言,WB方法的性能比现有SOTA好
威胁模型
假设后门注入是在训练中执行的,并且对手可以访问包括结构和参数在内的模型。本文提出在输入空间中使用难以感知的扰动来制作有毒图像,清除后门攻击在中毒分类器的潜在空间中留下有形的痕迹。
方法
Preliminaries
fθ:X→CX是输入,C是目标类θ是学习到的参数数据集S={(xi,yi):xi∈X,yi∈C,i=1,⋯N}干净样本(x,y)后门样本(T(x),η(y))T是后门注入函数,η是目标标签函数干净样本和后门样本训练后的f满足:f(x)=y,f(T(x))=η(y)all−to−one:目标标签一致,η(y)=c;all−to−all:目标标签移动一位η(y)=(y+1)mod∣C∣\begin{align} & f_\theta:\;X \rightarrow C \\ & X是输入,C是目标类\\ & \theta 是学习到的参数\\ & 数据集S\,=\, \{ (x_i,y_i)\;:\, x_i \in X,\;y_i \in C,i=1, \cdots N\} \\ & 干净样本(x,y) \\ & 后门样本(T(x),\eta(y)) \\ & T是后门注入函数,\eta是目标标签函数 \\ & 干净样本和后门样本训练后的f满足:f(x)=y, \; \, f(T(x))=\eta (y) \\ & all-to-one:\, 目标标签一致,\eta (y)=c; \\ & all-to-all:\, 目标标签移动一位\eta (y)=(y+1) mod |C| \\ \end{align} fθ:X→CX是输入,C是目标类θ是学习到的参数数据集S={(xi,yi):xi∈X,yi∈C,i=1,⋯N}干净样本(x,y)后门样本(T(x),η(y))T是后门注入函数,η是目标标签函数干净样本和后门样本训练后的f满足:f(x)=y,f(T(x))=η(y)all−to−one:目标标签一致,η(y)=c;all−to−all:目标标签移动一位η(y)=(y+1)mod∣C∣
Learning to backdoor
学习参数θ:θ∗=argminθ∑i=1Nζ(fθ(xi),yi)产生poisonimage:Tξ(x)=x+gξ(x)∣∣gξ(x)∣∣∞≤ϵ∀xgξ添加不可感知的噪声,把生成函数设置成autoencoder或者U−Net架构学习参数ξ:ξ∗=argminξ∑i=1Nζ(fθ(Tξ(xi)),η(yi))+Rϕ(Fc,Fb)Rϕ是正则化约束,Fc和Fb分别是干净表示和投毒表示的正则约束minθ∑i=1Nαζ(fθ(xi),yi)+βζ(fθ(Tϵ∗(θ)(xi)),η(yi))α和β控制干净和后门损失信号的混合程度\begin{align} & 学习参数 \theta :\theta^*\,=\, \underset{\theta}{arg \; min} \sum_{i=1}^{N} \zeta(f_{\theta}(x_i),\,y_i) \\ & 产生poison image: T_{\xi}(x)=x+g_{\xi}(x) & ||g_{\xi}(x)||_\infty \leq \epsilon \;\forall x \\ & g_{\xi}添加不可感知的噪声,把生成函数设置成autoencoder或者U-Net架构 \\ & 学习参数\xi: \xi^*\,=\, \underset{\xi}{arg \; min} \sum_{i=1}^{N} \zeta(f_{\theta}(T_{\xi}(x_i)),\,\eta (y_i)) \;+R_{\phi}(F_c,F_b)\\ & R_{\phi}是正则化约束,F_c和F_b分别是干净表示和投毒表示的正则约束 \\ & \underset{\theta}{min} \sum_{i=1}^{N}\alpha \zeta(f_{\theta}(x_i),y_i) \,+\, \beta \zeta(f_{\theta} \, (T_{\epsilon*(\theta)}(x_i)), \, \eta(y_i)) \\ & \alpha 和\beta 控制干净和后门损失信号的混合程度\\ \end{align} 学习参数θ:θ∗=θargmini=1∑Nζ(fθ(xi),yi)产生poisonimage:Tξ(x)=x+gξ(x)gξ添加不可感知的噪声,把生成函数设置成autoencoder或者U−Net架构学习参数ξ:ξ∗=ξargmini=1∑Nζ(fθ(Tξ(xi)),η(yi))+Rϕ(Fc,Fb)Rϕ是正则化约束,Fc和Fb分别是干净表示和投毒表示的正则约束θmini=1∑Nαζ(fθ(xi),yi)+βζ(fθ(Tϵ∗(θ)(xi)),η(yi))α和β控制干净和后门损失信号的混合程度∣∣gξ(x)∣∣∞≤ϵ∀x
Wasserstein Regularization
干净的和后门的潜在表示是分离的或分布的不同的————通过正则化约束来最小化这种分布差异————由于我们不能假设这两个潜在分布有共同的支持度,或者它们的密度函数是已知的,所以常用的发散(KL和JSD),很难实现分布差异最小化————提出Wasserstein-2 distance
边缘概率度量µ和v分别是由干净数据和中毒数据的潜在表示的经验样本Fc和Fb定义
设qµ和qv为µ是μ和v对应的密度函数,
一维μ和v的Wasserstein-2 距离:
灵感来源:Generative modeling using the sliced wasserstein distance(CVPR2018)
Generalized sliced wasserstein distances(NeurIPS2019)
sliced-Wasserstein distance:SWD
切片随机性带来计算复杂度。在大多数问题中,SWD需要大量的随机方向,通常在1000到10000之间,以提供距离的可靠估计。在DSWD中,随机方向的数量被固定为可能的输出标签的数量,这对于许多分类问题通常是很小的。
提出投影送入输出层来代替SWD的均匀线性投影。当潜在空间是分类器的倒数第二层时,投影:DSWD
论文证明了DSWD是潜在分布的有效距离度量
结论:现有的防御方法选择了神经网络的倒数第二层。作为进行防御分析差异的空间。论文提出的DSWD距离是该空间中概率测度的有效距离函数。
Optimization
f与T固定一个,更新另一个,交替进行——在干净数据上性能不够好——MIST只需要几轮,而CIFAR10,GTSRB、Tiny数据集上需要几百轮。————训练一定epochs后,固定T,仅训练f
思想来源LIRA
Results
attack baseline
defense baseline
- activation clustering: 在有毒分类器中,干净样本和后门样本的潜在表示形成单独的聚类,使用K-means等聚类方法很容易检测到。本文对WB提出的优化可以减少这种差异。
对比Adversarial embedding,BadNets和WaNet对这种检测方法的鲁棒性
spectral signature:是一种样本过滤防御,找到数据的潜在向量的协方差矩阵的最大奇异值。然后计算每个样本与这个奇异值的相关性得分,并将那些具有离群值得分的样本标记为后门样本。
本文方法的干净样本和后门样本得分近似
Neural Cleanse:寻找每个可能的目标标签的最佳patch模式,然后,通过异常指数来量化最优的后门触发模式是否是一个离群值。异常指数大于2是后门模型。WaNet和WB对这种防御有好的鲁棒性。
STRIP:给定分类器和输入图像,首先扰动图像,并根据这些扰动图像的预测熵(即预测是否一致)确定模型中后门的存在。STRIP未能检测到WB产生的后门样本
conclusion
Wasserstein Backdoor学习一个触发函数,它会向输入图像添加视觉上难以察觉的噪声。通过sliced Wasserstein distance最小化干净图像和后门图像在latent space的表示之间分布差异。
.
补充:
数据集的问题:都是小数据集。
防御鲁棒性:只打破AC和signature的假设
思想不是首发:Adversarial Embedding:通过对抗正则化最小化干净样本和投毒样本之间latent distribution的距离。
干净图像和后门图像在latent space的表示之间分布差异。
.
补充:
没有测试大规模数据集,和vit等其他模型架构;
防御鲁棒性:打破AC和spectral signature的假设,对其他SOTA防御没有验证。
思想首发:Adversarial Embedding:通过对抗正则化最小化干净样本和投毒样本之间latent distribution的距离。
Backdoor Attack with Imperceptible Input and Latent Modification相关推荐
- 基于扭曲的后门攻击——WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK
WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK ICLR 2021 https://arxiv.org/abs/2102.10369 之前的触发 ...
- Clean-label Backdoor Attack against Deep Hashing based Retrieval论文笔记
论文名称 Clean-label Backdoor Attack against Deep Hashing based Retrieval 作者 Kuofeng Gao (Tsinghua Unive ...
- 论文精读 —— Invisible Backdoor Attack with Sample-Specific Triggers
文章目录 带有样本特定触发器的隐形后门攻击 论文信息 论文贡献 理解性翻译 摘要 1. 引言 2. 相关工作 2.1. 后门攻击 2.2. 后门防御 3. 深入了解现有防御 4. 样本特定的后门攻击( ...
- Poison Ink: Robust and Invisible Backdoor Attack 论文笔记
1. 论文信息 论文名称 Poison Ink: Robust and Invisible Backdoor Attack 作者 Jie Zhang(中国科学技术大学) 会议/出版社 IEEE Tra ...
- Rethinking the trigger of backdoor attack
Rethinking the trigger of backdoor attack https://arxiv.org/abs/2004.04692 本文是关于后门攻击的论文.本文指出目前的大多数后门 ...
- Linux UserSpace Back-Door、Rootkit SSH/PAM Backdoor Attack And Defensive Tchnology
catalog 0. 引言 1. Pam后门 2. SSH后门 3. Hijacking SSH 4. Hijacking SSH By Setup A Tunnel Which Allows Mul ...
- 论文笔记(精读文章) - Invisible Backdoor Attack with Sample-Specific Triggers
文章目录 订制样本触发器方法的隐蔽式后门攻击 基本信息 论文贡献 算法思路 前提假设 问题定义 基本步骤 实验验证 实验设置 数据集与模型 实验比较基准 攻击实验 防御实验 度量方式 实验结果分析(重 ...
- 【论文合集】Awesome Backdoor Learning
关于后门攻击&防御的博客与论文. ECCV2022对抗攻击&防御论文汇总 | Li's Blog (tuoli9.github.io) ICLR2022对抗攻击&防御论文汇总 ...
- 对抗攻击与防御(2022年顶会顶刊AAAI、ACM、 ECCV、NIPS、ICLR、CVPR)adversarial attack and defense汇总
文章目录 AAAI' 2022 论文汇总 CVPR'2022论文汇总 ACM'2022论文汇总 ECCV'2022论文汇总 ICLR'2022论文汇总 NIPS'2022论文汇总 后续 AAAI' 2 ...
- 《Bypassing Backdoor Detection Algorithms in Deep Learning》阅读总结
Abstract: 攻击者可以通过修改训练数据和模型参数来将后门嵌入到模型中.大多数针对后门攻击的检测算法都是针对input samples和model parameters,通过恶意输入和良性输入在 ...
最新文章
- 分布式RPC实践--Dubbo基础篇
- 41 JavaScript中的闭包
- linux桌面天气,Ubuntu桌面美化:添加Gmail +天气预报插件[图文]
- java只有高跟很高_女明星们为了合影不输,练就踩高跷本领,鞋跟一个比一个高!...
- php里面电话验证码,PHP的中问验证码
- 在无头单链表的一个非头节点前插入一个节点(C语言)
- “405 – 不允许用于访问此页的 HTTP 谓词。”的解决方案
- MySQL工作中的实际用_总结工作中经常用到的mysql基础知识
- 静态路由实现负载均衡和高可用
- CentOS7下安装JDK及IDEA
- Linux服务器开发环境搭建 Nginx+PHP+MongoDB
- Python 语言程序设计(5-1)函数的定义与使用
- 你知道url中的特殊符号含义么
- Bootstrap4颜色拾取器插件
- 躺着赚钱|闲鱼自动发货脚本|自动化|Auto.js
- 中兴java笔试题_中兴Java开发笔试题目及答案(7)
- ecosys m5021cdn_京瓷ECOSYS M5021cdn驱动
- 批处理 使用Win7照片查看器
- C语言中的EOF是什么?
- Android游戏添加游戏动画,Android游戏中的动画制作