论文标题：What Doesn’t Kill You Makes You Robust (er) Adversarial Training against Poisons and Backdoors

论文单位：Department of Electrical Engineering and Computer Science,University of Siegen

论文作者：Jonas Geiping,Liam Fowl

收录会议：预印版

开源代码：未开源

那些杀不死你的东西会使你更健壮

抵御投毒和后门的对抗训练（防御）

简单总结

一个针对投毒和后门攻击的防御框架

以前的防御有两个缺点，不可以抵挡自适应攻击；只能针对特定攻击进行防御。
场景：防御方自行训练模型，拥有操控模型和训练数据的权限。
针对防御的攻击方法：大部分投毒和后门攻击算法
本文提出了一个针对各种不同类型攻击的防御框架，当然不是训练了一个防御模型就是万能的，简单来说，当防御者知道攻击者使用哪种方法来攻击，就可以通过对抗这种攻击方法从而达到非常好的防御效果。
该方法的实现，简单来说，分为两步。
- 第一步：选择一种数据投毒攻击方法，使可能带有触发器△t\triangle_t△t的目标图像和训练数据（通过△p\triangle_p△p投毒）的损失最小，得到△t\triangle_t△t和△p\triangle_p△p。理解：这里得到的△p\triangle_p△p是攻击最终需要得到的毒，在标准的攻击里，投毒后即完成攻击了；这里的△t\triangle_t△t应该是不需要优化的，默认的、人为添加的，可能是指定触发器，也可能什么也没有。这一步是为了模拟目标图像中毒的过程得到最毒的△p\triangle_p△p。
- 第二步：然后让训练数据+△p+\triangle_p+△p还能正确分类（对抗训练的本质），让目标图像+△t+\triangle_t+△t继续误分类（继续朝着错误的方向走下去），进行训练模型。
  
  这两步反复交替，即可将最毒的△p\triangle_p△p加在训练数据上，仍能分类准确，得到非常鲁棒的模型。
在文中提到，训练对抗一个特定的代理攻击，例如gradient matching，对于其他的一些攻击来说，仍然可以防御成功。但是没有说全部，对几个比较先进的攻击都是防御成功的。

值得做的点（仅从本文出发）

对抗训练确实可以说是对抗攻击唯一一个鲁棒可靠的防御手段，它的变体的论文也是数不胜数，这条线做下去也是非常有趣的。
之前看到的那篇输入感知的动态的后门攻击，不知道该篇的对抗投毒是否能够成功防御，需要实验证明一下。按照公式推导的话，我认为直接套用是防御不了的，需要对公式进行修改，可以给出一个更加通用的防御框架。

abstract

以前的防御都有下面至少一个缺点：
- 不可以抵挡自适应攻击
- 不可以推广到不同的数据投毒威胁模型
对抗训练及其变体是防御对抗攻击（推理时）唯一强壮的防御，作者扩展了对抗性训练框架，以防御（训练时）投毒和后门攻击。
主要做法是：通过在训练期间制造毒药并将它们注射到训练批次中，使网络对投毒的影响脱敏。作者证明了这种防御可以应对自适应攻击，可以推广到各种威胁模型，并且比以前的防御带来更好的性能

1.introduction

现有的防御策略有三个主要缺点：

为了提升防御的效果会交换健壮性，简单来说，就是将测试的准确性交换到了现实世界从业者无法忍受的程度
只对特定的威胁模型具有鲁棒性，而不是对专门为规避防御而设计的自适应攻击
只适用于特定的威胁模型，而不能为实践者提供一个普遍适用的框架

作者提出了一种对抗性训练的变体，它利用对抗性中毒的数据来代替（测试时间）对抗性的例子。
作者表明，该策略既表现出改进的鲁棒性-准确性权衡，也表现出更大的灵活性，以抵御广泛的威胁，包括自适应攻击。
作者证明了该框架在防御一系列数据篡改威胁模型方面的有效性，包括定向数据投毒和后门触发攻击，这两种攻击都是从迁移学习中进行的，在大规模数据集上预先训练的大型模型对可能中毒的少量数据进行了微调
作者将这个防御在特征空间中的影响可视化，并与一系列相关的防御策略进行比较。

2.related work

测试防御性能的突出攻击工作

Feature Collision
Bilevel Optimization
Gradient Matching
Patch attacks
Hidden Trigger Backdoor

3.Generalizing Adversarial Training to Data Poisoning

经典的对抗训练定义

准备一个强大的威胁模型

对抗训练就是通过对抗最恶意的情况进行训练，所以在该投毒和后门防御场景下，也需要一个非常强有力的攻击模型作为对抗。因此为了对抗广泛的投毒，作者训练了一个强大的代理攻击者。

3.1. 对抗投毒

定义鲁棒的估计的目标函数

其中，Lθ\mathcal{L}_ \thetaLθ表示带有参数θ\thetaθ的模型的loss，Ladv\mathcal{L}_ {adv}Ladv表示任意一个数据投毒攻击的目标函数，xpx_pxp近似训练数据（通过△p\triangle_p△p投毒），xtx_txt近似一个可能带有触发器△t\triangle_t△t的目标图像。

在gradient matching攻击方法中，因为不需要修改目标图像，所以△t\triangle_t△t为0，所以△p∈argmin∆∈Ssim(∇θLθ(xp+∆,yp),∇θLθ(xt,yp))\triangle_p \in argmin_{∆ \in S}sim(\nabla_\theta \mathcal{L}_ \theta(x_p+∆,y_p),\nabla_\theta \mathcal{L}_\theta(x_t,y_p))△p∈argmin∆∈Ssim(∇θLθ(xp+∆,yp),∇θLθ(xt,yp))，simsimsim指的是余弦相似度。
对于简单后门触发器，∆p=∆t∆p =∆t∆p=∆t是未优化的随机绘制补丁。该鲁棒估计问题是对抗性训练的严格推广，我们可以通过Ladv=−∑i∈{p,t}Lθ(xi+∆i,yi)L_{adv} = -\sum _{i∈\{p,t\}} \mathcal{L}_θ(x_i +∆_i, y_i)Ladv=−∑i∈{p,t}Lθ(xi+∆i,yi)恢复。
数据中毒攻击，如backdoor triggers, feature collision and gradient alignment，通过干扰xp+∆px_p +∆_pxp+∆p，使其在某些度量中与xt+∆tx_t +∆_txt+∆t相关，然后模型学习这种关联，实现攻击成功，但作者提出的鲁棒的目标函数是去最小化这种小型恶意关联的影响，使其攻击失败。

下面给出实现算法的伪代码：

作者认为其他防御可视为对抗投毒的特殊情况。这一方法概括和解释了以前关于预防中毒的工作。

有个细节：选择恶意标签yty_tyt时，这些标签如果完全是随机选择，所有目标实例得到的平均梯度会很小，更新会很慢。所以采用了一个方法，就是以ypy_pyp中出现最多的标签作为该batch的恶意标签yty_tyt。

3.2.自适应攻击场景

设计新的防御算法的一个关键步骤是它们能够抵抗自适应攻击，即当攻击者了解一个新的防御，可以进行修改攻击以响应该防御。

作者接下来证明了其提出的防御对模型的特征空间有很大的影响，这可能使得很难用其他自适应攻击绕过该防御。

4. Analysis

第一行为特征碰撞攻击和防御比较，第二行为梯度匹配攻击和防御比较。可以看到两个攻击在没有防御的情况下，都成功把三角形（目标图像）带偏了，但在对抗投毒训练的模型下，中毒数据并没有成功把目标图像带偏。

5. Experiments

三个不同的场景：
- 只重新训练模型的最后一个线性层，微调
- 防御者重新训练所有层
- 从头开始，防御者训练一个新的模型

与其他防御比较

一种攻击的训练对其他攻击来说是稳健的

当真正的攻击者利用不同的攻击时，这种针对特定代理攻击的防御是否可以绕过。在传输设置中，我们可以很容易地评估类似条件下的多个攻击。作者发现仅使用gradient matching，一个强大的攻击，对抗投毒成功地防御了一系列其他攻击。

投毒后门防御阅读笔记，What Doesn‘t Kill You Makes You Robust (er) Adversarial Training against Poisons and Back相关推荐

后门攻击阅读笔记，Graph Backdoor
论文标题:Graph Backdoor 论文单位:Pennsylvania State University,Zhejiang University 论文作者:Zhaohan Xi,Ren Pang, ...
论文阅读笔记——[MPN]: Multi-task Learning with Coarse Priors for Robust Part-aware Person Re-identification
论文:Multi-task Learning with Coarse Priors for Robust Part-aware Person Re-identification TPAMI 2022 ...
Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记
Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记前言 Abstract ...
《对抗攻击与防御分类方法综述》阅读笔记20220401
<对抗攻击与防御分类方法综述> A Review of Adversarial Attack and Defense for Classification Methods DOI:10.1 ...
【论文阅读笔记】FLAME: Taming Backdoors in Federated Learning
个人阅读笔记,若有错误欢迎指正会议: USENIX Security Symposium 2022 论文地址:[2101.02281] FLAME: Taming Backdoors in Fed ...
RelExt: Relation Extraction using Deep Learning approaches for Cybersecurity Knowledge Graph 阅读笔记
RelExt: Relation Extraction using Deep Learning approaches for Cybersecurity Knowledge Graph Improve ...
DGP 论文阅读笔记
DGP 论文阅读笔记论文题目:Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation Ex ...
研究生如何做文献阅读笔记
** 研究生如何做文献阅读笔记 ** 研究生如何做文献阅读笔记? 说实在的,我自己也不是很会读书.读书的速度也不快,只是喜欢读书罢了.阅读文献,对于开题期间的研究生和写论文期间的研究生是很重要的功课, ...
NeurIPS 2022 | 一种基于毒性样本敏感性的有效后门防御！
香港中文大学(深圳)和清华大学联合完成的后门防御工作被NeurIPS 2022接收为Spotlight论文.基于投毒的后门攻击对由不可信来源数据所训练的模型构成了严重威胁.给定一个后门模型,我们观察到 ...
文档资源推荐研究生如何做文献阅读笔记（强力推荐！！！）
转自:http://www.soudoc.com/bbs/viewthread.php?tid=9056542&extra=&page=1 研究生如何做文献阅读笔记? 说实在的,我自己 ...

投毒后门防御阅读笔记，What Doesn‘t Kill You Makes You Robust (er) Adversarial Training against Poisons and Back