摘要

包括神经网络在内的一些机器学习模型,会错分对抗样本并以高置信度输出错误答案。早期对这种现象的解释集中在非线性和过拟合上。相反,我们认为神经网络易受对抗性干扰的主要原因是其线性特性。这一解释得到了新的定量实验的支持,同时首次解释了关于它们的一个有趣的事实:对抗样本对模型结构以及训练集具有泛化性。此外,这种观点还提供了一种生成对抗样本的的简单而快速的方法。通过这种方法为对抗训练提供样本,我们减少了MNIST数据集上maxout网络的test error。

1 介绍

Szegedy等人(2014b)提出了一个有趣的发现:一些机器学习模型,包括SOTA神经网络,容易受到对抗样本的攻击。也就是说,这些机器学习模型对对抗样本进行了错误分类,这些对抗样本与从数据分布中提取的正确分类样本仅略有不同。在许多情况下,在训练数据的不同子集上训练的具有不同结构的各种模型会对同一个对抗样本进行错分。这表明对抗样本暴露了我们训练算法中的fundamental blind spots。

存在这些对抗样本的原因是一个谜,speculative explanations表明,这是由于extreme nonlinearity of deep neural networks,同时可能伴有insufficient model averaging以及insufficient regularization of the purely supervised learning problem。我们证明这些speculative hypotheses是不必要的。高维空间中的linear behavior足以引起对抗样本。这种观点使我们能够设计一种快速生成对抗样本的方法,从而使对抗训练变得切实可行。我们表明,对抗训练相比仅使用dropout可以提供额外的正规化优benefit。dropout、预训练和model averaging等通用正则化策略不会显著降低模型对对抗样本的脆弱性,但改用RBF网络等非线性模型族可以做到这一点。

我们的解释提出了 fundamental tension between designing models that are easy to train due to their linearity and designing models that use nonlinear effects to resist adversarial perturbation。从长远来看,通过设计更强大的优化方法,可以成功地训练更多的非线性模型,从而避免这种tradeoff。

2 相关工作

zegedy等人(2014b)展示了神经网络和相关模型的各种有趣特性。与本文最相关的内容包括:

  • Box-constrained L-BFGS can reliably find adversarial examples.
  • 在一些数据集上,例如ImageNet,对抗样本与原始样本非常接近,以至于肉眼无法区分差异。
  • 同一个对抗样本经常被具有不同结构或者在同一训练集的不同子集上训练得到的各种分类器错误分类。
  • 浅层softmax回归模型也容易受到对抗样本的影响
  • 在对抗样本上进行训练可以正则化模型-然而,由于在获取对抗样本时需要进行昂贵的计算,因此这种方式并不实用。

这些结果表明,基于现代机器学习技术的分类器,即使在测试集上已经获得了优异性能,也没有学习到决定正确输出标签的underlying concepts。取而代之的是,这些算法建立了一个Potemkin village,它可以很好地处理naturally occuring数据,but is exposed as a fake when one visits points in space that do not have high probability in the data distribution。这尤其令人失望,因为计算机视觉中的一种流行方法是使用convolutional network features as a space where Euclidean distance approximates perceptual distance。如果感知距离非常小的图像对应于网络输出中完全不同的类别,那么这种相似性显然是有缺陷的。

这些结果通常被解释为深层网络中的一个缺陷,尽管线性分类器也有同样的问题。我们认为了解这一缺陷是一个修复它的机会。事实上,Gu&Rigazio(2014)和Chalupka等人(2014)已经开始了设计能够抵抗对抗扰动的模型的第一步,尽管还没有一个模型能够成功地做到这一点并同时在干净的输入上保持SOTA准确性。

3 对对抗样本的线性解释

我们首先解释线性模型中存在的对抗样本。

在许多问题中,一个独立的输入特征的精度通常是有限的。例如,数字图片通常仅实用8位来表示一个像素,所以它们会 discard all information below 1/255 of the dynamic range。由于特征的精度受到限制, it is not rational for the classifier to respond differently to an input xxx than to an adversarial input x~=x+η\tilde{x}=x+\etax~=x+η if every element of the perturbation η\etaη is smaller than the precision of the features. 对于problems with well-separated classes,我们期望分类器能够在xxx和x~\tilde{x}x~的∥η∥∞<ϵ\Vert\eta\Vert_{\infty}<\epsilon∥η∥∞​<ϵ时对两者分配同样的类别,这里ϵ\epsilonϵ is small enough to be discarded by the sensor or data storage apparatus associated with our problem.

考虑权重向量www以及对抗样本x~间的dotproduct\tilde{x}间的dot productx~间的dotproduct:

wTx~=wTx+wTηw^T\tilde{x}=w^Tx+w^T\etawTx~=wTx+wTη

对抗扰动导致activation增加wTηw^T\etawTη。我们可以通过指定η=sign(w)\eta=\text{sign}(w)η=sign(w),在η\etaη受最大范数约束下最大化该增加。如果www有nnn个维度,且权重向量的一个元素的平均大小为mmm,则activation将增加ϵmn\epsilon mnϵmn。由于∥η∥∞\Vert\eta\Vert_{\infty}∥η∥∞​does not grow with the dimensionality of the problem,但η\etaη的扰动引起的activation变化可以随nnn线性增长,然后对于高维问题,我们可以对输入进行许多微小的更改,这些更改加起来等于对输出的一个很大的更改。我们可以将其视为一种“accidental steganography”,其中线性模型被迫专门关注与其权重最接近的信号,即使存在多个信号,并且其他信号的振幅要大得多。

这种解释表明,如果一个简单的线性模型的输入具有足够的维度,那么它可能会存在对抗样本。先前对对抗样本的解释援引了神经网络的假设属性,例如它们假定的highly non-linear nature。我们基于线性的假设更简单,也可以解释为什么softmax回归容易受到对抗扰动的影响。

4 非线性模型的线性扰动

从线性视角看待对抗样本提供了一种快速生成它们的方法。我们假设神经网络过于线性,无法抵抗线性对抗扰动。LSTM、ReLUs和maxout网络都被有意设计为以非常线性的方式运行,以便更容易进行优化。出于同样的原因,许多非线性模型(如sigmoid网络)会被仔细调整,使其大部分时间都处于非饱和、更线性的状态。这种线性行为表明cheap, analytical perturbations of a linear model should also damage neural networks。

我们使用θ\thetaθ表示模型的参数,xxx表示模型输入,yyy表示xxx的标签,J(θ,x,y)J(\theta,x,y)J(θ,x,y)表示用于训练网络的cost。我们可以线性化当前θ\thetaθ附近的cost function,获取an optimal max-norm constrained pertubation of:

η=ϵsign(∇xJ(θ,x,y))\eta=\epsilon\text{sign}(\nabla_xJ(\theta,x,y))η=ϵsign(∇x​J(θ,x,y))

我们将这种方式称为生成对抗样本的“fast gradient sign method”。注意我们所需的梯度可以通过反向传播有效进行计算。

我们发现,这种方法可以有效使得各种各样的模型对输入进行错误分类。图1展示了ImageNet上的一个例子。


我们发现,使用ϵ=0.25\epsilon=0.25ϵ=0.25,我们使浅层softmax分类器在MNIST上测试集的错误率为99.9%,且平均置信度为79.3%。在相同的设定下,maxout网络错误分类了89.4%的对抗样本,平均置信度为97.6%。类似地,在预处理版本的CIFAR-10测试集上使用卷积maxout网络时,使用ϵ=0.1\epsilon=0.1ϵ=0.1,我们获得87.15%的错误率和96.6%的平均置信度。其他生成对抗性示例的简单方法也是可能的。例如,我们还发现,rotating xxx by a small angle in the direction of the gradient reliably produces adversarial examples。

简单的算法能够生成错误分类的对抗样本,这一事实为我们解释线性导致的对抗样本提供了证据。这些算法还可以作为一种加速对抗训练甚至只是分析训练网络的方法。

5 线性模型对抗训练 versus weight decay

我们可以考虑的最简单的模型是Logistic回归。在这种情况下,fast gradient sign方法是精确的。我们可以利用这个案例来获得一些直观理解,了解如何在简单的设定下生成对抗样本。图二展示了部分图像:

如果我们使用P(y=1)=σ(wTx+b)P(y=1)=\sigma(w^T x+b)P(y=1)=σ(wTx+b)来训练一个模型识别标签y∈{−1,1}y\in\{-1,1\}y∈{−1,1},这里σ(z)\sigma(z)σ(z)是logistic sigmoid function,那么训练过程包含gradient descent on:

Ex,y∼pdataζ(−y(wTx+b))\mathbb{E}_{x,y\sim p_{data}}\zeta(-y(w^Tx+b))Ex,y∼pdata​​ζ(−y(wTx+b))

这里ζ(z)=log(1+exp(z))\zeta(z)=log(1+exp(z))ζ(z)=log(1+exp(z))是softplus函数。

Explaining and Harnessing Adversarial Examples论文解读相关推荐

  1. EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES 论文笔记

    EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES 论文笔记 EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES 原 ...

  2. Explaining and Harnessing Adversarial Examples——论文的学习笔记01

    这篇文章由Goodfellow等人发表在ICLR'2015会议上,是对抗样本领域的经典论文.这篇文章主要提出与之前论文不同的线性假设来解释对抗样本的存在性.同时,论文提出了一种简单的对抗样本生成方法: ...

  3. 对抗机器学习——FGSM经典论文 EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES

    EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES 论文URL http://users.wpi.edu/~kmus/ECE579M_files/Readin ...

  4. 对抗攻击经典论文——FGSM学习笔记 EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES

    论文下载:Explaining and Harnessing Adversarial Examples 1摘要 几种机器学习模型,包括神经网络,一致地将对抗样本误分类--通过对数据集样本添加细微而刻意 ...

  5. 论文笔记——EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES(解释和利用对抗样本)

    本文参考了三篇笔记,帮助很大: <Explaining and Harnessing Adversarial Examples>阅读笔记 [论文笔记]Explaining & Ha ...

  6. explaining and harnessing adversarial examples(FGSM)

    explaining and harnessing adversarial examples(FGSM) 论文简述 论文重点 先前工作 对抗样本的线性解释 非线性模型的线性扰动 *线性模型的对抗扰动推 ...

  7. Explaining and Harnessing Adversarial Examples

    Explaining and Harnessing Adversarial Examples 包括神经网络在内的一些机器学习模型,始终对对抗性样本进行错误分类–通过对数据集中的例子应用小的但有意的最坏 ...

  8. 论文解读 | Explaining and Harnessing Adversarial Examples

    核心观点: 神经网络对于对抗样本的攻击如此脆弱的原因,是因为网络的线性本质. 文章还提出了最早的 FGSM (Fast Gradient Sigh Method)对抗样本生成方法. 通过在训练样本中加 ...

  9. 【论文阅读笔记】Explaining And Harnessing Adversarial Examples

    0.论文摘要 本文提出了对于对抗样本存在原因的新解释--神经网络的线性特性,并提出了快速有效生成对抗样本的方法以及基于对抗的模型训练方式. 1.对抗样本的线性解释 考虑如上公式,其中  代表一个生成的 ...

  10. 论文笔记(五)《explaining and harnessing adversarial examples》

    2020.03.23陆陆续续的在读论文了,参考了其他人分享的读书笔记,但是还是没怎么读懂,理不清思路.继续读吧 <解释和利用对抗样本> 基础知识 abstract 包括神经网络在内的几个机 ...

最新文章

  1. 代码实践|通过简单代码来回顾卷积块的历史
  2. 【转载】selenium webdriver进行元素定位
  3. SAP反记帐和红字冲销
  4. Scala range reverse debug
  5. 因涉及微信小游戏“欢乐斗地主”不正当竞争纠纷 腾讯获途游游戏赔偿56万元...
  6. 骁龙710加持!索尼将推5.7寸小屏机型Xperia 4
  7. 计算机组成原理CRC相关运算,计算机专业基础综合计算机组成原理(数据的表示和运算)-试卷1...
  8. 为什么数据科学家需要承担开发运维的工作?
  9. 3-8 堆栈模拟队列 (25 分)
  10. 全网首发:char数组矩阵转bit的算法
  11. 实对称矩阵特征值特征向量求解算法C语言实现
  12. 记一个tcp udp测试工具ethrc
  13. 内点、外点、边界点(yee些概念)
  14. 【Mac】 自带的播放器quicktimeplayer 如何带声音2倍速播放
  15. IDEA安装yarn
  16. 文献笔记:Plasmonic metagratings for simultaneous determination of Stokes parameters
  17. datetime instant 转_java8 Date Localdatetime instant 相互转化(转) 及当天的最大/最小时间...
  18. 基于SSM的校园外卖点餐系统
  19. java中引用数组元素时 数组下标可以是_引用数组元素时,数组下标可以是( )...
  20. 用计算机给手机充电,用电脑USB口长期给手机充电有危险吗?

热门文章

  1. ENVI的seamless mosaic工具详解
  2. python解析GF1卫星数据.xml文件
  3. 压力测试jmeter入门教程
  4. 实习踩坑之路:一个诡异的SQL?PageHelper莫名多了一个Limit子句,导致SQL执行错误?
  5. Android的JNI【实战教程】6⃣️--温控计
  6. 不敢相信?System.currentTimeMillis() 居然存在性能问题
  7. java harris corner_Harris Corner Detection
  8. 接口自动化测试框架搭建(3、excel的设计excel文件的读取)--python+HTMLTestRunnerCN+request+unittest+mock+db
  9. c# 对象json互相转换_能够将Excel 数据转换成Json格式的实用工具 excel2json
  10. python 安装了不能用_解决Python安装后pip不能用的问题