Pre-trained Adversarial Perturbations

文章目录

  • Pre-trained Adversarial Perturbations
    • 摘要
    • 1 介绍
    • 2 相关工作
    • 3 方法
      • 3.1 符号和问题表述
      • 3.2 我们的设计
    • 4 实验
      • 4.1 设置
      • 4.2 主要结果
      • 4.3 消融实验
        • 4.3.1 攻击不同层的效果
        • 4.3.2 均匀高斯采样的影响
        • 4.4 feature map 的可视化
        • 4.5 准确率和鲁棒性之间的权衡
    • 5 讨论
      • 5.1 准备工作
      • 5.2 解释
    • 6 结论

摘要

  • 本文通过引入预训练的对抗扰动(Pre-trained Adversarial Perturbations(PAP))来研究预训练模型的鲁棒性,PAP是为预训练模型特制的通用扰动,用于在不了解下游任务的情况下攻击微调模型时保持有效性
  • 提出了一种低层提升攻击(Low-Level Layer Lifting Attack(L4A))方法,通过提升预训练模型中**?低层的神经元激活**来生成有效的 PAP
  • L4A 配备了增强的噪声增强策略,可以有效地针对微调模型生成更多可转移的 PAP

1 介绍

  • 采用预训练模型微调而不是从头开始训练模型的模式已经成为一种新兴趋势

  • 深度学习模型容易受到对抗样本的攻击,同时对抗样本有一个有趣的特性:可转移性

  • 本文中我们介绍了预训练对抗扰动(PAPs),一种为预训练模型设计的新型通用对抗扰动,具体来说,为预训练模型生成 PAP,以有效地欺骗通过微调预训练模型得到的任何下游任务模型,如图:

攻击者首先在互联网上下载预训练模型的权重,并通过提升预训练模型低层的神经元激活来生成 PAP,采用一种称为均匀高斯采样的数据增强技术来提高 PAP 的可转移性。当用户微调预训练模型来完成下游任务时,攻击者可以将 PAP 添加到微调模型的输入中,从而在不知道特定下游任务的情况下欺骗它们

  • 为了生成更有效的 PAP,我们提出了一种低层提升攻击(L4A)方法,旨在提升低层的特征激活。由于发现模型层的级别越低,其参数在微调过程中变化越小,因此我们生成 PAP 来破坏预训练模型中的低级特征表示,使攻击对于微调之后的模型能更好地保留。为了缓解 PAP 对源域的过度拟合,使用噪声增强技术改进了 L4A。实验评估表明,我们的方法平均下来实现了更高的攻击成功率

2 相关工作

  • 自监督学习:支持从未标记的数据进行学习,为了实现这一点,早期的方法利用手工制作的 pretext tasks,包括彩色化、旋转预测、位置预测和 selfie;另一种方法是对比学习,将输入图像映射到特征空间,并最小化相似图像之间的距离,同时使不同图像彼此远离
  • 对抗样本:一个有趣特性:跨数据可转移性和跨模型可转移性
  • 预训练到微调程序的鲁棒性:介绍了之前部分人提出的一些防御方法,接着指出我们的工作和之前部分工作的主要区别是我们从攻击者的角度考虑问题

3 方法

3.1 符号和问题表述

  • Pre-trained Adversarial Perturbations (PAPs): 一个 PAP 是一个 小预算内的通用扰动 δ ,由 f_θ 和 D_p 构建( fθ为预训练模型及其参数 θ ,D_p 为预训练模型的数据集),使得微调数据集 D_t 中的大多数实例的分类结果都发生改变。公式如下:

本文选用的是 L∞ 范式

  • 已存在一些通用扰动的工作:

    • universal adversarial perturbation(UAP): 利用迭代方法生成一个扰动 δ,可以在数据集 D 中的大多数实例上欺骗模型,利用如下公式计算将 x + δ 发送到决策边界的最小的扰动 ζ,然后将其加到 δ 中:

  • fast feature fool (FFF): 其目的是在每层产生最大的虚假的激活:

3.2 我们的设计

  • 上述这些攻击由于忽略了微调过程,在我们的问题设置中显示出了有限的跨微调模型可转移性。两个挑战降低了表现性能

    • 微调模型的偏差:微调过程中,模型参数可能会发生很大变化
    • 数据集的偏差:不同数据集的统计值(平均值和标准差)可能有很大差异
  • 为了解决这一问题,提出了一种使用均匀高斯采样策略(uniform Gaussian sampling)的低层提升攻击(Low-Level Layer Lifting Attack)方法

    • 我们发现,层的级别越高,在微调过程中其参数变化越大

纵坐标表示微调模型与其相应的预训练模型之间差异的F-范数

  • 低层提升攻击的方法也与低层卷积层充当边缘检测器的知识一致,边缘检测器提取边缘和纹理等低层特征,并且几乎没有高层语义信息
  • 公式如下: ?就随机取某个 δ 且只修改第k层的权重使得模型的损失函数最小,k如何选取非0层呢,代码中如何保证只更新第k层的参数?

​ 层越低,性能越好,所以默认 k 选择第一层。f 为在特征提取预训练模型 f_θ 中输入图像 x 的第 k 层的特征映射(feature map)

  • 还发现,融合连续低层的对抗损失可以提高性能,则又有如下的方法:

  • 均匀高斯采样,与预训练的数据集相比,下游数据集的分布可能有很大差异,因此我们提出了使用不同的均值和偏差对高斯噪声进行采样,以避免过拟合 ?公式如何理解?中外边的 E 是做了什么处理?为什么可以避免过拟合?

4 实验

4.1 设置

  • 预训练模型:使用 Resnet 作为主干的 SimCLR、使用 Resnet50作为主干的 MOCO、基于 transformer 的 ViT-base-16、跨膜态的 CLIP
  • 数据集和预处理:使用 ILSVRC 2012数据集,先 resize 为256✖256,再中心裁剪为 224✖224
  • 比较的方法:选择 UAP 来测试跨微调模型的转移性、UAPEPGD 研究跨模型和跨微调模型转移性之间的关系,由于我们的算法基于特征级别,因此选择了其他特征攻击(FFF、ASV、DR、SSP)进行比较
  • 默认设置和范数:batch size:16、step size:0.0002、所有的扰动在以0.05为边界的 L_∞ 范数内、使用 ASR 指标显示结果,表示干净图像添加扰动后整个测试集的分类错误率

4.2 主要结果

攻击成功率最高

4.3 消融实验

4.3.1 攻击不同层的效果
  • 攻击的层越低,我们的算法表现越好。因为在微调时低层的改变更少

左图是在预训练测试集上的 ASR,右图是在微调后下游任务测试集上的 ASR

4.3.2 均匀高斯采样的影响
  • 探究公式中不同 λ 值大小

选择攻击成功率最高的 10(-0.5)

  • 研究采用预训练数据集的固定统计数据(ImageNet的平均值和标准差)是否有帮助:

  • None:不适用数据增强

  • ImageNet:采用 ImageNet 的平均值和标准差

  • Uniform:采样一对均匀分布的平均值和标准差

Uniform 的效果最好,表明我们提出的该方法有助于避免预训练数据集的过拟合

4.4 feature map 的可视化

左侧为模型的输入,中间和右侧分别为预训练模型和微调模型的 feature map:

  • 微调模型可以使其对特定区域相关的特征(如轮胎和车灯)敏感;然而,在图像中添加一个对抗性的扰动后可以显著提升所有激活,并最终掩盖有用的特征。此外,在微调中我们的攻击效果可以很好地保持
4.5 准确率和鲁棒性之间的权衡

研究了微调时 epoch 对攻击性能的影响:

  • 微调模型对 PAP 的准确率和鲁棒性存在分歧:右图中在第 5 个 epoch 达到了最佳鲁棒性,然而在之后的 epoch 中准确率上升但鲁棒性却降低
  • 这些发现揭示了从预训练到微调范式的安全问题

5 讨论

我们介绍了梯度队列并使用它解释了我们方法的有效性。特别地,我们展示了为什么我们的方法在预训练阶段比 UAPs 效果差,但当评估下游任务时在跨微调模型转移性上表现更好。

5.1 准备工作

  • 梯度序列

其中的每一项由以下公式获取,其中 L 表示 UAP、L4A等迭代攻击方法的损失函数

  • 梯度对齐:

其中的项为梯度序列中连续的两项。

L4A 算法具有更大的梯度对齐,并通过实验发现梯度对齐与 ImageNet 上的攻击成功率成负相关,而在微调域中成正相关

  • 算法的有效性,PAPs 的生成公式可以化为以下等式:

Span{∆δθ,Dp} 表示由∆δθ,Dp 的元素跨越的子空间,最佳的 δ 可以被视为 ∆δθ,Dp 中元素的线性组合,因此它是方程的可行域。

特别是,该式子的可行域小于原公式(式子1),这反映了当随机梯度下降法不包括在 Span{∆δθ,Dp} 中时可能不会收敛到全局最大值,并且在 Span{∆δθ,Dp} 中的局部最大值表示算法在微调域中的有效性。

5.2 解释

结论:较大的梯度对齐保证了跨微调模型的良好的转移性。该值越大,代表cos值越大,则角度越小,如图(没太看懂这个解释)

6 结论

  • 本文讨论了预训练模型的安全问题,攻击者可以根据预训练模型生成对抗干扰,在不直到受害者模型和下游任务的情况下,在微调模型上实现高成功率
  • 考虑到从预训练模型到微调范式的内在品质,提出了一种新的算法 L4A ,它在此类问题中表现良好,但其有个限制就是在预训练域中的性能比 UAPs 差
  • 提出的 L4A 仅使用预训练域中的信息,若攻击者获得有关下游任务的一些信息时,可能能够使用这些知识来增强 PAPs,从而攻击更强,我们将其留给未来的工作

原文链接:https://arxiv.org/pdf/2210.03372.pdf

Pre-trained Adversarial Perturbations-对抗机器学习论文相关推荐

  1. 对抗机器学习论文-Towards Evaluating the Robustness of Neural Networks(CW2)

    Towards Evaluating the Robustness of Neural Networks 文章目录 Towards Evaluating the Robustness of Neura ...

  2. 对抗攻击经典论文剖析(下)【DeepFool、One pixel attack、Universal adversarial perturbations、ATN】

    引言 上一篇讲的几篇经典对抗攻击论文主要讲的是如何在梯度上扰动或者优化,即尽可能保证下的扰动,不被人类发现,却大大降低了模型的性能.这一篇我们将会有一些更有意思的对抗攻击样本生成,包括像素级别的扰动以 ...

  3. 【李宏毅机器学习】adversarial attack 对抗攻击

    note: 对抗训练(adversarial training)通过对抗攻击(adversarial attack)的手段,即生成对抗样本(对部分原样本加入微小的扰动,可能导致误分类),是的NN能适应 ...

  4. 对抗机器学习(Adversarial Machine Learning)发展现状

    目录 1. 了解对手 1. 1 攻击目标(Goal) 1. 2 知识储备(Knowledge) 1.3 能力限制(Capability) 1.4 攻击策略(Strategy) 2. 学会主动 2.1 ...

  5. 论文阅读 (81):Fast Feature Fool: A Data Independent Approach to Universal Adversarial Perturbations

    文章目录 1 概述 1.1 题目 1.2 摘要 1.3 代码 1.4 引用 2 快速特征愚弄 (Fast feature fool) 3 实验 3.1 在不同网络上生成的扰动 3.2 数据集示意 3. ...

  6. 深度学习和机器博弈如何结合_对抗机器学习的博弈论方法

    深度学习和机器博弈如何结合 Artificial Intelligence has known a great success in recent years as it provided us wi ...

  7. 繁凡的对抗攻击论文精读(二)CVPR 2021 元学习训练模拟器进行超高效黑盒攻击(清华)

    点我轻松弄懂深度学习所有基础和各大主流研究方向入门综述! <繁凡的深度学习笔记>,包含深度学习基础和 TensorFlow2.0,PyTorch 详解,以及 CNN,RNN,GNN,AE, ...

  8. 最新综述:图像分类中的对抗机器学习

    ©PaperWeekly 原创 · 作者|孙裕道 学校|北京邮电大学博士生 研究方向|GAN图像生成.人脸对抗样本生成 论文标题: Adversarial Machine Learning in Im ...

  9. GAN 生成对抗网络论文阅读路线图

    路线图按照下面四个准则构建而成:  ●  从提纲到细节  ●  从经典到前沿  ●  从通用领域到特定领域  ●  专注于最先进的技术 Generative Adversarial Networks ...

  10. 干货警告!国外有个小姐姐给29篇经典机器学习论文写了总结 | 资源

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 如果你想在人工智能领域深耕,阅读经典论文是一个必须要做的事情. 但是,怎么读?读哪些?论文中哪些是关键?都是需要让人去琢磨的地方. 最近, ...

最新文章

  1. 利用python进行数据分析 英文-如何学习和评价《利用python进行数据分析》这本书?...
  2. python中常见的异常错误
  3. python getmenu不到菜单句柄,从弹出菜单win32 api Python中选择项目
  4. 【转】extern “C“以及__declspec(dllexport) 讲解和def文件dll导出方法
  5. scrapy基础知识之防止爬虫被反的几个策略::
  6. 算法笔记_面试题_10.所有可能的满二叉树
  7. 遍历点击事件(屏蔽同类名的其它点击事件,防止多次请求)
  8. BP神经网络学习总结
  9. 服务器可以把ssd虚拟成内存,西数黑科技:把SSD当内存用
  10. Mac的反编译工具一:otool (objdump工具的OSX对应工具)。
  11. 校园网认证破解教程(广某大学)
  12. linux 中cat用法
  13. 屏蔽CSDN博客广告的油猴脚本
  14. 读书感受 之 《乔布斯全书》
  15. 使用 Kind 在 5 分钟内快速部署一个 Kubernetes 高可用集群
  16. html教程转换mp3,kgm转换mp3图文版教程,值得收藏
  17. ubuntu apt-get install更新域名解析失败问题的处理方法
  18. java winrar_Java使用winrar解压缩 | 学步园
  19. 发生事故单位照常发工资可不可以索要误工费
  20. 面试让我手写红黑树?!

热门文章

  1. CEO修炼手册:识人、识人还是识人
  2. 【CNN+VIT】LocalViT: Bringing Locality to Vision Transformers
  3. android农历日历,万年历农历日历app
  4. 【bzoj3772】 精神污染 dfs序+主席树
  5. ctfshow菜狗杯wp
  6. Storyboard故事板
  7. AR涂涂乐⭐六、 UGUI精灵格式、自动延迟截图、优化“4”、移出扫描框终止截图进程
  8. 有关Android插件化思考
  9. springboot之整合slf4j
  10. html 小游戏 俄罗斯方块