文章目录

  • Backdoor Attack with Imperceptible Input and Latent Modification
  • 回顾
  • 贡献
  • 威胁模型
  • 方法
    • Preliminaries
    • Learning to backdoor
    • Wasserstein Regularization
    • Optimization
    • Results
      • attack baseline
      • defense baseline
  • conclusion

Backdoor Attack with Imperceptible Input and Latent Modification

现有防御发现后门趋于在特征空间或者latent space留下痕迹

本文方法Wasserstein Backdoor (WB) Attack:最小化干净数据和后门数据的潜在表示之间的Wasserstein distance

针对那些依赖在latent space中区别干净样本和投毒样本的防御(characterizing后门图像和干净图像之间的特征或潜在表示的差异)。

回顾

在推理阶段的对抗样本攻击归类为evasion attack

Adversarial examples are not easily detected: Bypassing ten detection methods.

训练过程投毒:BadNets;Neural trojans;clean-label poisoning

之前的工作已经证明,后门图像和干净图像在潜在空间的激活不同。

训练阶段:AC检测潜在空间的聚类和spectral Signature检测潜在表示的协方差的光谱

测试阶段:

A unifified framework for analyzing and detecting malicious examples of dnn models.

Deep probabilistic models to detect data poisoning attacks

CleaNN:利用 concentration inequality检测异常重构,在输入进入模型之前抑制。

贡献

  • 提出一种非凸约束优化问题,使投毒样本和干净样本的潜在分布难以区别。利用Wasserstein的变体sliced-Wasserstein distance。
  • sliced-Wasserstein distance:利用训练好的分类器的判别方向,而不是从unit sphere中随机取样本
  • 实验证明就latent indistinguishability而言,WB方法的性能比现有SOTA好

威胁模型

假设后门注入是在训练中执行的,并且对手可以访问包括结构和参数在内的模型。本文提出在输入空间中使用难以感知的扰动来制作有毒图像,清除后门攻击在中毒分类器的潜在空间中留下有形的痕迹。

方法

Preliminaries

fθ:X→CX是输入,C是目标类θ是学习到的参数数据集S={(xi,yi):xi∈X,yi∈C,i=1,⋯N}干净样本(x,y)后门样本(T(x),η(y))T是后门注入函数,η是目标标签函数干净样本和后门样本训练后的f满足:f(x)=y,f(T(x))=η(y)all−to−one:目标标签一致,η(y)=c;all−to−all:目标标签移动一位η(y)=(y+1)mod∣C∣\begin{align} & f_\theta:\;X \rightarrow C \\ & X是输入,C是目标类\\ & \theta 是学习到的参数\\ & 数据集S\,=\, \{ (x_i,y_i)\;:\, x_i \in X,\;y_i \in C,i=1, \cdots N\} \\ & 干净样本(x,y) \\ & 后门样本(T(x),\eta(y)) \\ & T是后门注入函数,\eta是目标标签函数 \\ & 干净样本和后门样本训练后的f满足:f(x)=y, \; \, f(T(x))=\eta (y) \\ & all-to-one:\, 目标标签一致,\eta (y)=c; \\ & all-to-all:\, 目标标签移动一位\eta (y)=(y+1) mod |C| \\ \end{align} fθ:XCX是输入,C是目标类θ是学习到的参数数据集S={(xi,yi):xiX,yiC,i=1,N}干净样本(x,y)后门样本(T(x),η(y))T是后门注入函数,η是目标标签函数干净样本和后门样本训练后的f满足:f(x)=y,f(T(x))=η(y)alltoone:目标标签一致,η(y)=c;alltoall:目标标签移动一位η(y)=(y+1)modC

Learning to backdoor

学习参数θ:θ∗=argminθ∑i=1Nζ(fθ(xi),yi)产生poisonimage:Tξ(x)=x+gξ(x)∣∣gξ(x)∣∣∞≤ϵ∀xgξ添加不可感知的噪声,把生成函数设置成autoencoder或者U−Net架构学习参数ξ:ξ∗=argminξ∑i=1Nζ(fθ(Tξ(xi)),η(yi))+Rϕ(Fc,Fb)Rϕ是正则化约束,Fc和Fb分别是干净表示和投毒表示的正则约束minθ∑i=1Nαζ(fθ(xi),yi)+βζ(fθ(Tϵ∗(θ)(xi)),η(yi))α和β控制干净和后门损失信号的混合程度\begin{align} & 学习参数 \theta :\theta^*\,=\, \underset{\theta}{arg \; min} \sum_{i=1}^{N} \zeta(f_{\theta}(x_i),\,y_i) \\ & 产生poison image: T_{\xi}(x)=x+g_{\xi}(x) & ||g_{\xi}(x)||_\infty \leq \epsilon \;\forall x \\ & g_{\xi}添加不可感知的噪声,把生成函数设置成autoencoder或者U-Net架构 \\ & 学习参数\xi: \xi^*\,=\, \underset{\xi}{arg \; min} \sum_{i=1}^{N} \zeta(f_{\theta}(T_{\xi}(x_i)),\,\eta (y_i)) \;+R_{\phi}(F_c,F_b)\\ & R_{\phi}是正则化约束,F_c和F_b分别是干净表示和投毒表示的正则约束 \\ & \underset{\theta}{min} \sum_{i=1}^{N}\alpha \zeta(f_{\theta}(x_i),y_i) \,+\, \beta \zeta(f_{\theta} \, (T_{\epsilon*(\theta)}(x_i)), \, \eta(y_i)) \\ & \alpha 和\beta 控制干净和后门损失信号的混合程度\\ \end{align} 学习参数θ:θ=θargmini=1Nζ(fθ(xi),yi)产生poisonimage:Tξ(x)=x+gξ(x)gξ添加不可感知的噪声,把生成函数设置成autoencoder或者UNet架构学习参数ξ:ξ=ξargmini=1Nζ(fθ(Tξ(xi)),η(yi))+Rϕ(Fc,Fb)Rϕ是正则化约束,FcFb分别是干净表示和投毒表示的正则约束θmini=1Nαζ(fθ(xi),yi)+βζ(fθ(Tϵ(θ)(xi)),η(yi))αβ控制干净和后门损失信号的混合程度∣∣gξ(x)ϵx

Wasserstein Regularization

干净的和后门的潜在表示是分离的或分布的不同的————通过正则化约束来最小化这种分布差异————由于我们不能假设这两个潜在分布有共同的支持度,或者它们的密度函数是已知的,所以常用的发散(KL和JSD),很难实现分布差异最小化————提出Wasserstein-2 distance

边缘概率度量µ和v分别是由干净数据和中毒数据的潜在表示的经验样本Fc和Fb定义

设qµ和qv为µ是μ和v对应的密度函数,

一维μ和v的Wasserstein-2 距离:

灵感来源:Generative modeling using the sliced wasserstein distance(CVPR2018)

Generalized sliced wasserstein distances(NeurIPS2019)

sliced-Wasserstein distance:SWD

切片随机性带来计算复杂度。在大多数问题中,SWD需要大量的随机方向,通常在1000到10000之间,以提供距离的可靠估计。在DSWD中,随机方向的数量被固定为可能的输出标签的数量,这对于许多分类问题通常是很小的。

提出投影送入输出层来代替SWD的均匀线性投影。当潜在空间是分类器的倒数第二层时,投影:DSWD

论文证明了DSWD是潜在分布的有效距离度量

结论:现有的防御方法选择了神经网络的倒数第二层。作为进行防御分析差异的空间。论文提出的DSWD距离是该空间中概率测度的有效距离函数。

Optimization

f与T固定一个,更新另一个,交替进行——在干净数据上性能不够好——MIST只需要几轮,而CIFAR10,GTSRB、Tiny数据集上需要几百轮。————训练一定epochs后,固定T,仅训练f
思想来源LIRA

Results

attack baseline


defense baseline
  • activation clustering: 在有毒分类器中,干净样本和后门样本的潜在表示形成单独的聚类,使用K-means等聚类方法很容易检测到。本文对WB提出的优化可以减少这种差异。

对比Adversarial embedding,BadNets和WaNet对这种检测方法的鲁棒性

  • spectral signature:是一种样本过滤防御,找到数据的潜在向量的协方差矩阵的最大奇异值。然后计算每个样本与这个奇异值的相关性得分,并将那些具有离群值得分的样本标记为后门样本。

    本文方法的干净样本和后门样本得分近似

  • Neural Cleanse:寻找每个可能的目标标签的最佳patch模式,然后,通过异常指数来量化最优的后门触发模式是否是一个离群值。异常指数大于2是后门模型。WaNet和WB对这种防御有好的鲁棒性。

  • STRIP:给定分类器和输入图像,首先扰动图像,并根据这些扰动图像的预测熵(即预测是否一致)确定模型中后门的存在。STRIP未能检测到WB产生的后门样本

conclusion

Wasserstein Backdoor学习一个触发函数,它会向输入图像添加视觉上难以察觉的噪声。通过sliced Wasserstein distance最小化干净图像和后门图像在latent space的表示之间分布差异。

.

补充:

数据集的问题:都是小数据集。

防御鲁棒性:只打破AC和signature的假设

思想不是首发:Adversarial Embedding:通过对抗正则化最小化干净样本和投毒样本之间latent distribution的距离。

干净图像和后门图像在latent space的表示之间分布差异。

.

补充:

没有测试大规模数据集,和vit等其他模型架构;
防御鲁棒性:打破AC和spectral signature的假设,对其他SOTA防御没有验证。

思想首发:Adversarial Embedding:通过对抗正则化最小化干净样本和投毒样本之间latent distribution的距离。

Backdoor Attack with Imperceptible Input and Latent Modification相关推荐

  1. 基于扭曲的后门攻击——WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK

    WANET – IMPERCEPTIBLE WARPING-BASED BACKDOOR ATTACK ICLR 2021 https://arxiv.org/abs/2102.10369 之前的触发 ...

  2. Clean-label Backdoor Attack against Deep Hashing based Retrieval论文笔记

    论文名称 Clean-label Backdoor Attack against Deep Hashing based Retrieval 作者 Kuofeng Gao (Tsinghua Unive ...

  3. 论文精读 —— Invisible Backdoor Attack with Sample-Specific Triggers

    文章目录 带有样本特定触发器的隐形后门攻击 论文信息 论文贡献 理解性翻译 摘要 1. 引言 2. 相关工作 2.1. 后门攻击 2.2. 后门防御 3. 深入了解现有防御 4. 样本特定的后门攻击( ...

  4. Poison Ink: Robust and Invisible Backdoor Attack 论文笔记

    1. 论文信息 论文名称 Poison Ink: Robust and Invisible Backdoor Attack 作者 Jie Zhang(中国科学技术大学) 会议/出版社 IEEE Tra ...

  5. Rethinking the trigger of backdoor attack

    Rethinking the trigger of backdoor attack https://arxiv.org/abs/2004.04692 本文是关于后门攻击的论文.本文指出目前的大多数后门 ...

  6. Linux UserSpace Back-Door、Rootkit SSH/PAM Backdoor Attack And Defensive Tchnology

    catalog 0. 引言 1. Pam后门 2. SSH后门 3. Hijacking SSH 4. Hijacking SSH By Setup A Tunnel Which Allows Mul ...

  7. 论文笔记(精读文章) - Invisible Backdoor Attack with Sample-Specific Triggers

    文章目录 订制样本触发器方法的隐蔽式后门攻击 基本信息 论文贡献 算法思路 前提假设 问题定义 基本步骤 实验验证 实验设置 数据集与模型 实验比较基准 攻击实验 防御实验 度量方式 实验结果分析(重 ...

  8. 【论文合集】Awesome Backdoor Learning

    关于后门攻击&防御的博客与论文. ECCV2022对抗攻击&防御论文汇总 | Li's Blog (tuoli9.github.io) ICLR2022对抗攻击&防御论文汇总 ...

  9. 对抗攻击与防御(2022年顶会顶刊AAAI、ACM、 ECCV、NIPS、ICLR、CVPR)adversarial attack and defense汇总

    文章目录 AAAI' 2022 论文汇总 CVPR'2022论文汇总 ACM'2022论文汇总 ECCV'2022论文汇总 ICLR'2022论文汇总 NIPS'2022论文汇总 后续 AAAI' 2 ...

  10. 《Bypassing Backdoor Detection Algorithms in Deep Learning》阅读总结

    Abstract: 攻击者可以通过修改训练数据和模型参数来将后门嵌入到模型中.大多数针对后门攻击的检测算法都是针对input samples和model parameters,通过恶意输入和良性输入在 ...

最新文章

  1. 分布式RPC实践--Dubbo基础篇
  2. 41 JavaScript中的闭包
  3. linux桌面天气,Ubuntu桌面美化:添加Gmail +天气预报插件[图文]
  4. java只有高跟很高_女明星们为了合影不输,练就踩高跷本领,鞋跟一个比一个高!...
  5. php里面电话验证码,PHP的中问验证码
  6. 在无头单链表的一个非头节点前插入一个节点(C语言)
  7. “405 – 不允许用于访问此页的 HTTP 谓词。”的解决方案
  8. MySQL工作中的实际用_总结工作中经常用到的mysql基础知识
  9. 静态路由实现负载均衡和高可用
  10. CentOS7下安装JDK及IDEA
  11. Linux服务器开发环境搭建 Nginx+PHP+MongoDB
  12. Python 语言程序设计(5-1)函数的定义与使用
  13. 你知道url中的特殊符号含义么
  14. Bootstrap4颜色拾取器插件
  15. 躺着赚钱|闲鱼自动发货脚本|自动化|Auto.js
  16. 中兴java笔试题_中兴Java开发笔试题目及答案(7)
  17. ecosys m5021cdn_京瓷ECOSYS M5021cdn驱动
  18. 批处理 使用Win7照片查看器
  19. C语言中的EOF是什么?
  20. Android游戏添加游戏动画,Android游戏中的动画制作

热门文章

  1. 推荐:本人使用频率最高的20款Mac软件(全)
  2. 怎么用计算机算e的次方,如何在计算器上计算e的x次方?
  3. DETR | 基于匈牙利算法的样本分配策略
  4. Akka 指南 之「集群分片」
  5. access和tagware_NDoc 用户指南
  6. NDoc1.3.1使用手册
  7. 数据可视化笔记5 时间数据可视化
  8. android sd卡如何读取,Android应用中怎么读取 sd卡中的数据
  9. Css3中align-content,css align-content属性怎么用
  10. laravel 发送邮件