神经网络中的对抗样本
文章目录
- 对抗网络
- 参考资料
对抗网络
参照2013年的论文《Intriguing properties of neural networks》的论文中指出神经网络的两个特性
1.神经网络中包含语义信息的部分并不是在每个独立的神经元,而是整个空间;
2.神经网络学习到的从输入到输出的映射在很大程度上是不连续的。
其造成的结果简单直观地用图表示如图1:
图1 2014年的《Threat of Addversarial Attacks on Deep Learning in Computer Vision: A Survey》有关于对抗攻击更为具体的综述,另外《Explaining and harnessing adversarial examples》指出产生对抗攻击的原因并非网络的复杂性,而是是**高纬空间中的线性特性**。
对抗攻击中的混淆分类器( 由Biggo和Szegedy都提出的攻击策略 ):
x ∗ = a r g m i n x g ^ ( x ) , s . t . d ( x , x 0 ) ≥ d m a x x^∗=argmin_x\hat g(x),s.t.d(x,x^0) \geq d_{max} x∗=argminxg^(x),s.t.d(x,x0)≥dmax
寻找一个对抗样本x,使它尽可能被分类为目标类别,并且与某个原来的样本 x 0 x_0 x0在样本空间距离小于 d m a x d_{max} dmax。
KaTeX parse error: No such environment: alignat at position 8: \begin{̲a̲l̲i̲g̲n̲a̲t̲}̲{} Minimize||r|…
对于给定的某个样本 x x x,找到离它最近的样本,使得被分类为标签 l l l。
此时应用梯度下降法( 或者牛顿法,BFGS,L-BFGS等)
当 f ( x ) 在 x k 附 近 连 续 可 微 , 令 x = x k + a d , d 为 单 位 方 向 , 如 果 g k = ∇ f ( x k ) ≠ 0 由 泰 勒 展 开 得 f ( x ) = f ( x k ) + ( ∇ f ( x k ) ) T ( x − x k ) + o ( ∥ x − x k ∥ ) 改 写 为 f ( x + α d ) = f ( x k ) + α g k T d + o ( α ) , α > 0 当f(x)在x_k附近连续可微,令x=x_k+ad,d为单位方向,\\\\ 如果g_k=\nabla f(x_k) \not=0 \\\\ 由泰勒展开得 \quad f(x)=f(x_k)+(\nabla f(x_k))^T(x-x_k)+o(\parallel x-x_k \parallel) \\\\ 改写为 \quad f(x+\alpha d)=f(x_k)+\alpha g_k^T d + o(\alpha),\alpha>0 \\\\ 当f(x)在xk附近连续可微,令x=xk+ad,d为单位方向,如果gk=∇f(xk)=0由泰勒展开得f(x)=f(xk)+(∇f(xk))T(x−xk)+o(∥x−xk∥)改写为f(x+αd)=f(xk)+αgkTd+o(α),α>0
设 θ \theta θ为 d d d与 − g k -g_k −gk之间的夹角,则有$g_k^T=-g_kcos\theta , 显 然 ,显然 ,显然\cos\theta=1 时 , 时, 时,g_k^T 下 降 最 快 , 从 而 下降最快,从而 下降最快,从而f(x) 下 降 最 快 , 此 时 下降最快,此时 下降最快,此时d=-g_k$ 。
联系混淆分类器,即
f ( x + r ) = f ( x k ) + α g k T d + o ( α ) , α > 0 f(x+r)=f(x_k)+\alpha g_k^T d + o(\alpha),\alpha>0 f(x+r)=f(xk)+αgkTd+o(α),α>0
从《 Evasion attacks against machine learning at test time 》可知对抗攻击并非神经网络独有。(本人认为是传统的机器学习方法在低纬度的线性空间中表现不明显或者从效果上来说还没有达到需要大量关注对抗攻击的地步。)
对于低纬度空间,可以简单地增加神经元数量通过变换空间完成分类,而实际问题中的数据可能很复杂,某些较宽的神经网络对于这种问题避重就轻地拉伸解决,问题图示和拉伸之后如图2:
图2 较高纬度的复杂问题的数据及其拉伸 当前,针对对抗攻击的防御措施正在沿着三个主要方向发展:
在学习期间使用经过改良的训练,或者在测试期间使用经过改良的输入。
修改网络,例如,通过添加更多的层/子网络,更改损失/激活功能等。
在对看不见的示例进行分类时,使用外部模型作为网络预处理。
增强神经网络本身的鲁棒性
Box-constrained L-BFGS优化算法可以找到对抗样本的途径,解决对抗攻击最直观的方法是 增强神经网络本身的鲁棒性 ,即将对抗样本加入到训练集中。
以ogistic regression为例训练对抗样本。如果我们要训练一个模型来识别标签 y ∈ − 1 , 1 y ∈ − 1 , 1 , P ( y = 1 ) = σ ( w ⊤ x + b ) P ( y = 1 ) = σ ( w ⊤ x + b ) y∈{−1,1}y∈{−1,1}, P(y=1)=σ(w⊤x+b)P(y=1)=σ(w⊤x+b) y∈−1,1y∈−1,1,P(y=1)=σ(w⊤x+b)P(y=1)=σ(w⊤x+b),其中 σ σ σσ σσ为 s i g m o i d sigmoid sigmoid函数,然后在
E x , y ∼ p d a t a ζ ( − y ( w ⊤ x + b ) ) E x , y ∼ p d a t a ζ ( − y ( w ⊤ x + b ) Ex,y∼pdataζ(−y(w⊤x+b)) \\\\ Ex,y∼pdataζ(−y(w⊤x+b) Ex,y∼pdataζ(−y(w⊤x+b))Ex,y∼pdataζ(−y(w⊤x+b)
上作梯度下降,其中 ζ ( x ) = l o g ( 1 + e x p ( z ) ) ζ ( x ) = l o g ( 1 + e x p ( z ) ) ζ(x)=log(1+exp(z))ζ(x)=log(1+exp(z)) ζ(x)=log(1+exp(z))ζ(x)=log(1+exp(z))是softplus函数。下面将 x x xx xx代替为 x x xx xx上面的线性扰动,推到出的解析式为
E x , y ∼ p d a t a ζ ( y ( ϵ ∣ ∣ w ∣ ∣ 1 − w ⊤ x − b ) ) Ex,y∼pdataζ(y(ϵ||w||1−w⊤x−b)) Ex,y∼pdataζ(y(ϵ∣∣w∣∣1−w⊤x−b))预处理
例如:PixelDefend将对抗图像输入分类器之前,将其转换为清晰的图像;高阶表征引导去噪器(HGD)消除察觉不到的扰动视为噪声。
一般而言,预处理的方法更实用,因为它们不需要重新训练神经网络。然而,在训练降噪器时,HGD 仍然需要大量的对抗图像。因此,在对抗图像较少的情况下很难获得良好的 HGD。PixelDefend 的主要思想是模拟图像空间的分布,当空间太大时,模拟结果会很差。
截止至2018年,表现最优异的防御对抗攻击方法是图像压缩
由于局部结构中相邻像素之间具有很强的相似性和相关性,因此图像压缩可以在保留显著信息的同时减少图像的冗余信息。在此基础上,论文《 a simple and accurate method to fool deep neural networks》中设计了 ComDefend利用图像压缩来消除对抗扰动或打破对抗扰动的结构 ,如图
在清晰的图像上添加不可察觉的扰动可能会欺骗训练有素的深度神经网络。本文主要的思想是提出了一种端到端的图像压缩模型来防御对抗性示例。所提出的模型由压缩卷积神经网络(ComCNN)和重建卷积神经网络(ResCNN)组成。ComCNN用于维护原始图像的结构信息并消除对抗性干扰(预处理降噪)。ResCNN用于重建高质量的原始图像。ComDefend将对抗图像转换为其最原始的图像,然后将其输入经过训练的分类器中。预处理模块,并且不会在整个过程中修改分类器的结构。因此,将其与其他特定于模型的防御模型结合使用,以共同提高分类器的鲁棒性。
参考资料
- Akhtar, N., & Mian, A. (2018). Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey. IEEE Access, 1–1.
- Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I., & Fergus, R. (2013, December 21). Intriguing properties of neural networks.
- Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014, December 20). Explaining and Harnessing Adversarial Examples.
- Neural Networks, Manifolds, and Topology
- cleverhans blog
- How Adversarial Attacks Work
- Adversarial Attacks and Defences for Convolutional Neural Networks
- Adversarial Training-Fast gradient sign method
- Adversarial examples in deep learning
- 对抗样本与对抗训练
- 《深度学习 卷积神经网络从入门到精通》
- 图像对抗样本的生成(FGSM)
- Jia X , Wei X , Cao X , et al. ComDefend: An Efficient Image Compression Model to Defend Adversarial Examples[J]. 2018.
- Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.
- Huang L, Joseph A D, Nelson B, et al. Adversarial machine learning[C]//Proceedings of the 4th ACM workshop on Security and artificial intelligence. ACM, 2011: 43-58.
- Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[J]. arXiv preprint arXiv:1412.6572, 2014.
- Moosavi-Dezfooli S M, Fawzi A, Frossard P. Deepfool: a simple and accurate method to fool deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2574-2582.
神经网络中的对抗样本相关推荐
- 神经网络中的对抗攻击与对抗样本
文章来源:https://baijiahao.baidu.com/s?id=1596201339578975526&wfr=spider&for=pc 前言 在学习神经网络白盒.黑盒对 ...
- 清华朱军团队包揽三项冠军 | NIPS 2017对抗样本攻防竞赛总结(附学习资料)
来源:AI科技评论 作者:高云河 本文共8989字,建议阅读10分钟. 本次比赛总结由谷歌大脑.清华大学以及其它参与研究人员们联合撰写,为你介绍NIPS 2017 对抗样本攻防比赛的情况. 自 Ian ...
- AdvFlow:一种基于标准化流的黑盒攻击新方法,产生更难被发觉的对抗样本 | NeurIPS‘20
本文提出一种新的黑盒对抗攻击方法AdvFlow,通过利用标准化流来建模对抗样本的数据分布,使得生成的对抗样本的分布和正常样本接近,从而让对抗样本更难被检测出来,打破了对抗样本和正常样本的分布大不相同的 ...
- 论文盘点:GAN生成对抗样本的方法解析
©PaperWeekly 原创 · 作者|孙裕道 学校|北京邮电大学博士生 研究方向|GAN图像生成.情绪对抗样本生成 引言 对抗样本的生成方式很多.一般情况下会分成三大类,第一种是基于梯度的生成方式 ...
- 一文读懂文本处理中的对抗训练
作者丨WenZe.Leo 单位丨追一科技AI Lab研究员 背景与研究意义 深度学习技术的快速发展,大幅提升了众多自然语言处理任务(比如文本分类,机器翻译等)的效果,越来越多的深度学习模型被用于现实生 ...
- [当人工智能遇上安全] 1.人工智能真的安全吗?浙大团队外滩大会分享AI对抗样本技术
您或许知道,作者后续分享网络安全的文章会越来越少.但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个<当人工智能遇上安全>系列博客,详细介绍人工智能与安全相关的论文. ...
- [论文阅读] (04) 人工智能真的安全吗?浙大团队外滩大会分享AI对抗样本技术
外滩大会 AI安全-智能时代的攻守道 Deep Learning Security: From the NLP Perspective 浙江大学 <秀璋带你读论文>系列主要是督促自己阅读优 ...
- CVPR 2021 出自港中文,对抗变换提高对抗样本的可迁移性
关注公众号,发现CV技术之美 1 引言 该论文发表于CVPR2021,主要是关于黑盒攻击中对抗样本可迁移性的研究.论文的创新点很新颖,虽然论文代码没有开源,但是自己实现起来也相对简单. 论文作者借助对 ...
- 论智能问答中的对抗攻击及防御策略
大数据产业创新服务媒体 --聚焦数据 · 改变商业 编者按 深度学习模型应用广泛,但其自身有一定的"脆弱性",即模型输入的微小改动,在不影响人判断的情况下,可能使模型的输出出错,这 ...
最新文章
- 马维英坐镇,共话AI赋能生命健康与生物医药
- 聊聊redisson的DelayedQueue
- CF1140F Extending Set of Points 【按时间分治,并查集】
- oracle ojvm generic,Oracle OJVM安全补丁
- linux检查启动与否,关于linux启动的问题。
- 安装pytorch-metric-learning
- java打包后找不到图片路径,解决Vue项目打包后打开index.html页面显示空白以及图片路径错误的问题...
- Linux 完全卸载 MySQL
- cad查看_天正电气CAD教程之标注实例讲解
- htlm5实习报告_Wa zhu ti网站html5搭建设计毕业论文+html源码+实习报告+答辩问题
- 前后端分离项目,有什么优缺点
- 【壁纸】kali linux 2021.1 自带原版壁纸分享
- 微信小程序招聘管理系统+后台管理系统
- 产品运营模型:AARRR模型
- GIS大讨论(十):GIS专业就业之职业态度
- 我的物联网项目(十五) 微服务业务拆分
- H5实现拨打电话功能
- python刷页面浏览量
- 华为正式发布HarmonyOS 3开发者预览版
- 如何快速接入海康威视的设备