Pre-trained Adversarial Perturbations-对抗机器学习论文

Pre-trained Adversarial Perturbations

文章目录

Pre-trained Adversarial Perturbations
- 摘要
- 1 介绍
- 2 相关工作
- 3 方法
- - 3.1 符号和问题表述
  - 3.2 我们的设计
- 4 实验
- - 4.1 设置
  - 4.2 主要结果
  - 4.3 消融实验
  - - 4.3.1 攻击不同层的效果
    - 4.3.2 均匀高斯采样的影响
    - 4.4 feature map 的可视化
    - 4.5 准确率和鲁棒性之间的权衡
- 5 讨论
- - 5.1 准备工作
  - 5.2 解释
- 6 结论

摘要

本文通过引入预训练的对抗扰动（Pre-trained Adversarial Perturbations（PAP））来研究预训练模型的鲁棒性，PAP是为预训练模型特制的通用扰动，用于在不了解下游任务的情况下攻击微调模型时保持有效性
提出了一种低层提升攻击（Low-Level Layer Lifting Attack（L4A））方法，通过提升预训练模型中**？低层的神经元激活**来生成有效的 PAP
L4A 配备了增强的噪声增强策略，可以有效地针对微调模型生成更多可转移的 PAP

1 介绍

采用预训练模型微调而不是从头开始训练模型的模式已经成为一种新兴趋势
深度学习模型容易受到对抗样本的攻击，同时对抗样本有一个有趣的特性：可转移性
本文中我们介绍了预训练对抗扰动（PAPs），一种为预训练模型设计的新型通用对抗扰动，具体来说，为预训练模型生成 PAP，以有效地欺骗通过微调预训练模型得到的任何下游任务模型，如图：

攻击者首先在互联网上下载预训练模型的权重，并通过提升预训练模型低层的神经元激活来生成 PAP，采用一种称为均匀高斯采样的数据增强技术来提高 PAP 的可转移性。当用户微调预训练模型来完成下游任务时，攻击者可以将 PAP 添加到微调模型的输入中，从而在不知道特定下游任务的情况下欺骗它们

为了生成更有效的 PAP，我们提出了一种低层提升攻击（L4A）方法，旨在提升低层的特征激活。由于发现模型层的级别越低，其参数在微调过程中变化越小，因此我们生成 PAP 来破坏预训练模型中的低级特征表示，使攻击对于微调之后的模型能更好地保留。为了缓解 PAP 对源域的过度拟合，使用噪声增强技术改进了 L4A。实验评估表明，我们的方法平均下来实现了更高的攻击成功率

2 相关工作

自监督学习：支持从未标记的数据进行学习，为了实现这一点，早期的方法利用手工制作的 pretext tasks，包括彩色化、旋转预测、位置预测和 selfie；另一种方法是对比学习，将输入图像映射到特征空间，并最小化相似图像之间的距离，同时使不同图像彼此远离
对抗样本：一个有趣特性：跨数据可转移性和跨模型可转移性
预训练到微调程序的鲁棒性：介绍了之前部分人提出的一些防御方法，接着指出我们的工作和之前部分工作的主要区别是我们从攻击者的角度考虑问题

3 方法

3.1 符号和问题表述

Pre-trained Adversarial Perturbations (PAPs)： 一个 PAP 是一个小预算内的通用扰动 δ ，由 f_θ 和 D_p 构建（ fθ为预训练模型及其参数 θ ，D_p 为预训练模型的数据集），使得微调数据集 D_t 中的大多数实例的分类结果都发生改变。公式如下：

本文选用的是 L∞ 范式

已存在一些通用扰动的工作：
- universal adversarial perturbation（UAP）： 利用迭代方法生成一个扰动 δ，可以在数据集 D 中的大多数实例上欺骗模型，利用如下公式计算将 x + δ 发送到决策边界的最小的扰动 ζ，然后将其加到 δ 中：

fast feature fool (FFF)： 其目的是在每层产生最大的虚假的激活：

3.2 我们的设计

上述这些攻击由于忽略了微调过程，在我们的问题设置中显示出了有限的跨微调模型可转移性。两个挑战降低了表现性能
- 微调模型的偏差：微调过程中，模型参数可能会发生很大变化
- 数据集的偏差：不同数据集的统计值（平均值和标准差）可能有很大差异
为了解决这一问题，提出了一种使用均匀高斯采样策略（uniform Gaussian sampling）的低层提升攻击（Low-Level Layer Lifting Attack）方法
- 我们发现，层的级别越高，在微调过程中其参数变化越大

纵坐标表示微调模型与其相应的预训练模型之间差异的F-范数

低层提升攻击的方法也与低层卷积层充当边缘检测器的知识一致，边缘检测器提取边缘和纹理等低层特征，并且几乎没有高层语义信息
公式如下： ？就随机取某个 δ 且只修改第k层的权重使得模型的损失函数最小，k如何选取非0层呢，代码中如何保证只更新第k层的参数？

层越低，性能越好，所以默认 k 选择第一层。f 为在特征提取预训练模型 f_θ 中输入图像 x 的第 k 层的特征映射（feature map）

还发现，融合连续低层的对抗损失可以提高性能，则又有如下的方法：

均匀高斯采样，与预训练的数据集相比，下游数据集的分布可能有很大差异，因此我们提出了使用不同的均值和偏差对高斯噪声进行采样，以避免过拟合 ？公式如何理解？中外边的 E 是做了什么处理？为什么可以避免过拟合？

4 实验

4.1 设置

预训练模型：使用 Resnet 作为主干的 SimCLR、使用 Resnet50作为主干的 MOCO、基于 transformer 的 ViT-base-16、跨膜态的 CLIP
数据集和预处理：使用 ILSVRC 2012数据集，先 resize 为256✖256，再中心裁剪为 224✖224
比较的方法：选择 UAP 来测试跨微调模型的转移性、UAPEPGD 研究跨模型和跨微调模型转移性之间的关系，由于我们的算法基于特征级别，因此选择了其他特征攻击（FFF、ASV、DR、SSP）进行比较
默认设置和范数：batch size：16、step size：0.0002、所有的扰动在以0.05为边界的 L_∞ 范数内、使用 ASR 指标显示结果，表示干净图像添加扰动后整个测试集的分类错误率

4.2 主要结果

攻击成功率最高

4.3 消融实验

4.3.1 攻击不同层的效果

攻击的层越低，我们的算法表现越好。因为在微调时低层的改变更少

左图是在预训练测试集上的 ASR，右图是在微调后下游任务测试集上的 ASR

4.3.2 均匀高斯采样的影响

探究公式中不同 λ 值大小

选择攻击成功率最高的 10(-0.5)

研究采用预训练数据集的固定统计数据（ImageNet的平均值和标准差）是否有帮助：

None：不适用数据增强
ImageNet：采用 ImageNet 的平均值和标准差
Uniform：采样一对均匀分布的平均值和标准差

Uniform 的效果最好，表明我们提出的该方法有助于避免预训练数据集的过拟合

4.4 feature map 的可视化

左侧为模型的输入，中间和右侧分别为预训练模型和微调模型的 feature map：

微调模型可以使其对特定区域相关的特征（如轮胎和车灯）敏感；然而，在图像中添加一个对抗性的扰动后可以显著提升所有激活，并最终掩盖有用的特征。此外，在微调中我们的攻击效果可以很好地保持

4.5 准确率和鲁棒性之间的权衡

研究了微调时 epoch 对攻击性能的影响：

微调模型对 PAP 的准确率和鲁棒性存在分歧：右图中在第 5 个 epoch 达到了最佳鲁棒性，然而在之后的 epoch 中准确率上升但鲁棒性却降低
这些发现揭示了从预训练到微调范式的安全问题

5 讨论

我们介绍了梯度队列并使用它解释了我们方法的有效性。特别地，我们展示了为什么我们的方法在预训练阶段比 UAPs 效果差，但当评估下游任务时在跨微调模型转移性上表现更好。

5.1 准备工作

梯度序列

其中的每一项由以下公式获取，其中 L 表示 UAP、L4A等迭代攻击方法的损失函数

梯度对齐：

其中的项为梯度序列中连续的两项。

L4A 算法具有更大的梯度对齐，并通过实验发现梯度对齐与 ImageNet 上的攻击成功率成负相关，而在微调域中成正相关

算法的有效性，PAPs 的生成公式可以化为以下等式：

Span{∆δθ,Dp} 表示由∆δθ,Dp 的元素跨越的子空间，最佳的 δ 可以被视为 ∆δθ,Dp 中元素的线性组合，因此它是方程的可行域。

特别是，该式子的可行域小于原公式（式子1），这反映了当随机梯度下降法不包括在 Span{∆δθ,Dp} 中时可能不会收敛到全局最大值，并且在 Span{∆δθ,Dp} 中的局部最大值表示算法在微调域中的有效性。

5.2 解释

结论：较大的梯度对齐保证了跨微调模型的良好的转移性。该值越大，代表cos值越大，则角度越小，如图（没太看懂这个解释）

6 结论

本文讨论了预训练模型的安全问题，攻击者可以根据预训练模型生成对抗干扰，在不直到受害者模型和下游任务的情况下，在微调模型上实现高成功率
考虑到从预训练模型到微调范式的内在品质，提出了一种新的算法 L4A ，它在此类问题中表现良好，但其有个限制就是在预训练域中的性能比 UAPs 差
提出的 L4A 仅使用预训练域中的信息，若攻击者获得有关下游任务的一些信息时，可能能够使用这些知识来增强 PAPs，从而攻击更强，我们将其留给未来的工作

原文链接：https://arxiv.org/pdf/2210.03372.pdf