Intriguing properties of neural networks
神经网络有趣的特性
深度神经网络：
1）优点：
深度神经网络是一种高度表达性的模型，在语音和视觉识别任务上取得了最好的表现
2）相关理论
1.可以通过寻找最大程度激活给定单元的输入集来分析各个单元的语义
本文：对神经网络在坐标间解离变异因子的猜想提出了质疑，自然基底检查一些层激活φ(x)的属性时并不优于一个随机基底。
2.局部泛化在非常接近训练实例的情况下也能起到预期的作用
本文：对于深度神经网络，许多核心方法所依据的平滑性假设是不成立的
平滑性理解：（即下图中的各个浅彩色区域）
以2维向量为例，设类别数为6，分类结果如下图所示。
黑色实线为决策边界，彩色块为正样本，对应的浅色区域为该类别的所属空间。当加入扰动时，目标样本落入彩色块周围的区域，根据浅色区域可判断所属类别（平滑性）

而本文发现，当加入扰动时，目标样本落入彩色块周围区域，根据白色区域进行类别判断可能引起错误分类。（即浅色区域的猜想不存在）

3）Intriguing properties
1.在神经网络的高层中，包含语义信息的是空间，而不是单个单元。
2.深度神经网络学习的输入—输出映射在很大程度上是不连续的，施加某种难以察觉的扰动可引起网络对图像的错误分类。
4）对抗性样本
1.来源：是通过优化输入以使预测误差最大化来发现的
2.特点：相对健壮，并且作用于具有不同层数、激活或训练在训练数据的不同子集上的神经网络。
3.通过反向传播学习的深度神经网络具有非直观的特征和固有的盲点，其结构与数据分布的关系不明显
5）实验
利用该模型及其在围绕训练数据的局部空间建模方面的缺陷，使该过程具有自适应能力
对训练进行反馈式的对抗性的例子可能会提高模型的泛化能力

文章目录

Abstract
1. Introduction
2. Framework
3. Units of: φ(x)
4. Blind Spots in Neural Networks
- 4.1 Formal description
- 4.2 Experimental results
- 4.3 Spectral Analysis of Unstability
5. Discussion

Abstract

深度神经网络是一种高度表达性的模型，最近在语音和视觉识别任务上取得了最好的表现。虽然他们的表达能力是他们成功的原因，但这也导致他们学习的无法解释的解决方案可能具有反直觉属性的。在本文中，我们报告了两个这样的性质。

首先，根据不同的单元分析方法，我们发现在单个的高层单元和高层单元的随机线性组合之间没有区别。这表明，在神经网络的高层中，包含语义信息的是空间，而不是单个单元。
其次，我们发现深度神经网络学习的输入—输出映射在很大程度上是不连续的。我们可以通过施加某种难以察觉的扰动来引起网络对图像的错误分类，这种扰动是通过使网络的预测误差最大化来发现的。此外，这些扰动的特定性质并不是学习的随机产物：相同的扰动可以导致不同的网络对相同的输入进行错误分类，而这些网络是在数据集的不同子集上训练的。

1. Introduction

深度神经网络是一种功能强大的学习模型，在视觉和语音识别问题上表现优异[9,8]。神经网络之所以能够获得高性能，是因为它能够表达任意的计算，而这些计算是由少量的大量并行非线性步骤组成的。但由于计算结果是通过监督学习的反向传播自动更新的，因此很难解释，并可能具有反直觉的性质。本文讨论了深度神经网络的两个反直觉性质。

第一个性质与单个单位的语义有关。以前的工作[6,13,7]通过寻找最大程度激活给定单元的输入集来分析各个单元的语义。对单个单元的检查使得隐含的假设（即最后一个特征层的单元）形成了一个特殊的基础，这对于提取语义信息特别有用。相反，我们在第3节中指出，φ(x)的随机投影在语义上与φ(x)的坐标难以区分。这对神经网络在坐标间解离变异因子的猜想提出了质疑。通常，似乎是整个激活空间而不是单个单元包含了大量的语义信息。最近，Mikolov等人[12]对单词表示也得出了类似的、但更有力的结论。即表示单词的向量空间中的不同方向会产生丰富的语义关系编码和类比。同时，向量表示在空间旋转之前是稳定的，因此向量表示的各个单位不太可能包含语义信息。
第二个性质是关于神经网络相对于其输入的小扰动的稳定性。考虑一个最先进的深度神经网络，它能很好地泛化到对象识别任务。我们期望这样的网络对其输入的小扰动具有鲁棒性，因为小扰动不能改变图像的对象类别。然而，我们发现，对测试图像施加一个难以察觉的非随机扰动，可能会任意改变网络的预测(见图5)。这些扰动是通过优化输入以使预测误差最大化来发现的。我们把这样混乱的例子称为对抗性的例子。

我们自然期望最小必要扰动的精确配置是在不同的反向传播学习运行中出现的正常可变性的随机产物。然而，我们发现对抗性的例子是相对健壮的，并且作用于具有不同层数、激活或训练在训练数据的不同子集上的神经网络。也就是说，如果我们使用一个神经网络生成一组对抗的例子，我们发现这些例子对另一个网络在统计意义上仍然hard，即使该神经网络使用不同的超参数甚至是不同的训练集。

这些结果表明，通过反向传播学习的深度神经网络具有非直观的特征和固有的盲点，其结构与数据分布的关系不明显。

2. Framework

符号表示：x属于Rm表示输入图像，φ(x)是一些层的激活值。我们首先研究φ(x)的像的性质，然后寻找它的盲点。
我们在几个不同的网络和三个数据集上进行了大量的实验：

对于MNIST数据集，我们使用了以下架构[11]：
一个简单的全连接网络，带有一个或多个隐藏层和一个Softmax分类器。我们称这个网络为FC。
在自动编码器顶层训练的分类器。我们把这个网络称为AE。
ImageNet数据集[3]。
Krizhevsky等人的架构[9]。我们称它为AlexNet。
来自Youtube(见[10])的∼10M图像样本
有10亿个可学习参数的无监督训练网络。我们称之为QuocNet。

MNIST实验中,我们使用正则化的权重衰减λ。此外，在一些实验中，我们将MNIST训练数据集分成两个独立的数据集P1和P2，每个数据集有30000个训练样本。

3. Units of: φ(x)

传统的计算机视觉系统依赖于特征提取：通常单个特征很容易解释，例如颜色直方图或量化的局部导数。这允许检查特征空间的各个坐标，并将它们链接回输入域中有意义的变化。类似的推理在以前的工作中也被用于分析应用于计算机视觉问题的神经网络。这些工作将一个隐藏单元的激活解释为一个有意义的特征。他们寻找最大限度地激活了这一单一特征[6,13,7,4]的输入图像。
上述技术可以正式表述为图像x’的视觉检查，它满足(或接近最大可达值)：

其中I是未经过网络训练的数据分布中的一组剩余图像，ei是与第I个隐藏单元相关联的自然基向量。
我们的实验表明，任何随机方向的v属于Rn都能产生类似的可解释语义性质。更正式地说，我们发现图像x’在语义上彼此相关，对于许多这样的x’

这表明自然基底检查φ(x)属性时并不优于一个随机基底。这就对神经网络在坐标间分解变异因子的概念提出了质疑。

首先，我们使用训练在MNIST上的卷积神经网络来评估上述声明。我们使用MNIST测试集作为I。图1所示的图像最大程度地激活了自然基底，图2所示的图像最大程度地激活了随机方向。在这两种情况下，得到的图像都有许多高层次的相似性。

接下来，我们在AlexNet上重复我们的实验，我们使用验证集作为I。图3和图4比较了训练网络上的自然基底和随机基底。这些行对于单个单元和单元的组合都具有语义意义。

尽管这样的分析可以洞察φ在输入分布的特定子集上生成不变性的能力，但它不能解释其域其余部分的行为。在下一节中，我们将看到φ在几乎每个点的数据分布附近都具有反直觉的性质。

4. Blind Spots in Neural Networks

到目前为止，单元级别的检查方法除了确认由深度神经网络学习的表示的复杂性方面的某些直觉之外，几乎没有什么实用价值[6,13,7,4]。全球网络级的环境检测方法可用于解释模型的分类决策[1]，也可用于，例如，识别导致对给定可视输入实例进行正确分类的输入部分(换句话说，可以使用已训练模型进行weakly-supervised定位)。这样的全局分析是有用的，因为它可以使我们更好地理解由已训练网络表示的输入到输出的映射。

一般来说，神经网络的输出层单元是其输入的高度非线性函数。当使用交叉熵损失(使用Softmax激活函数)进行训练时，它表示给定输入(以及目前给出的训练集)的标签的条件分布。有人认为[2]，在神经网络的输入和输出单元之间的非线性层的深度堆栈是该模型在输入空间上编码非局部泛化的一种方法。换句话说，假设输出单元有可能将不重要的(并且假定为非epsilon)概率分配给输入空间中在其附近不包含训练实例的区域。例如，这些区域可以表示来自不同视点的相同对象，这些视点相对较远(在像素空间中)，但是它们共享原始输入的标签和统计结构。
在这些论证中隐含着，局部泛化在非常接近训练实例的情况下也能起到预期的作用。特别是对于一个足够小的半径 ε > 0 在一个给定的训练输入x附近，一个满足 ||r|| < ε 的x + r将被分配一个高概率的正确类的模型。这种平滑先验对计算机视觉问题是有效的。一般来说，给定图像的微小扰动通常不会改变底层类。

我们的主要结果是，对于深度神经网络，许多核心方法所依据的平滑性假设是不成立的。具体来说，我们证明了通过使用一个简单的优化过程，我们能够找到对抗性的样本，这些样本是通过对一个正确分类的输入图像的微小扰动而获得的，因此它不再是正确分类的。
在某种意义上，我们所描述的是一种以一种有效的方式(通过优化)遍历网络所表示的流形，并在输入空间中找到对抗性例子的方法。对抗性的例子代表了流形中低概率(高维)的“pockets”，简单地对给定样本周围的输入进行随机抽样很难有效地找到这些“pockets”。目前，许多最先进的计算机视觉模型已经在训练过程中采用了输入变形，以提高模型的鲁棒性和收敛速度[9,13]。然而，对于一个给定的例子来说，这些变形在统计上是低效的：它们高度相关，并且在整个模型的训练过程中都是从相同的分布中得出的。我们提出了一种方案，利用该模型及其在围绕训练数据的局部空间建模方面的缺陷，使该过程具有自适应能力。
我们明确地将其与hard-negative mining联系起来，因为它在本质上是相近的：在计算机视觉中，hard-negative mining包括识别由模型给出的低概率的训练集示例(或其中的一部分)，但这些示例应该是高概率的，如cf.[5]。然后改变训练集分布，强调这种hard negatives，并进行进一步的模型训练。如前所述，本工作中提出的优化问题也可以建设性地使用，类似于hard-negative mining原理。

4.1 Formal description

我们定义

为一种将图像像素值向量映射到离散标签集的分类器，我们还假设f有一个相关的连续损失函数，用lossf表示

对于给定的x属于Rm和目标标签 l（1 < = l < = k），我们的目标是求解以下box- constricted优化问题:

最小的r可能不是唯一的，但是我们用D(x,l)表示任意选择的最小值的一个这样的x+r。通俗地说，x+r是被f分类为l的最接近x的图像。很明显，D(x, f(x)) = f(x)，所以只有f(x)不等于 l 时这个任务才是重要的。通常，D(x,l)的精确计算是一个困难的问题，所以我们用一个box-constrained L-BFGS来近似代替它。具体地，我们通过行搜索找到了D(x,l)的一个近似值，从而找到了c>0的最小值，使得下面问题的最小值r满足f(x + r) = l

这种惩罚函数法可以得到D(x,l)在凸损耗情况下的精确解，但是神经网络一般是非凸的，所以我们在这种情况下只能得到近似解。

4.2 Experimental results

我们的最小失真函数D具有以下有趣的性质，我们将在本节中通过非正式的证据和定量实验来支持这些性质：

对于我们所研究的所有网络(MNIST、QuocNet[10]、AlexNet[9])，对于每个样本，我们总是设法生成非常接近的、在视觉上难以区分的、被原始网络错误分类的对抗性示例(参见图5和http://goo.gl/huaGPb)。
跨模型泛化：使用不同的超参数(层数、正则化或初始权值)从零开始训练的网络会对相当大一部分的例子进行错误分类。
跨训练集模型泛化：在不相交训练集上从零开始训练的网络，会对相当大比例的样本进行错误分类。
上述观察结果表明，对抗性的例子具有一定的普遍性，而不仅仅是对特定模型或特定训练集选择的过度拟合的结果。它们还表明，对训练进行反馈式的对抗性的例子可能会提高模型的泛化能力。MNIST上我们的初步实验支持这一假设：我们已经成功地训练一个两层100-100-10的非卷积神经网络，其测试误差低于1.2%，方法是将一个随机子集的对抗性样本不断地替换为新生成的对抗性样本，并始终将其混合到原始训练集中。我们使用了重量衰减，但是这个网络没有dropout。作为比较，这种大小的网络在仅通过权值衰减进行正则化时可以达到1.6%的错误，而通过使用谨慎应用的dropout可以改进到1.3%左右。一个细微但重要的细节是，我们只能通过为每个层输出生成对抗性样本来改进，这些样本用于训练上面的所有层。该网络以交替的方式进行训练，除了原有的训练集之外，还为每一层分别维护和更新一个对抗样本池。根据我们的初步观察，更高层次的对抗性样本似乎比输入或较低层的更有用。在我们未来的工作中，我们计划系统地比较这些影响。

出于空间方面的考虑，我们只给出了我们执行的MNIST实验的一个代表性子集的结果(参见表1)。

本文的结果与大量非卷积模型的结果一致。对于MNIST，我们还没有卷积模型的结果，但是我们对AlexNet的第一个定性实验让我们有理由相信卷积网络可能也会有类似的表现。我们的每个模型都使用L-BFGS进行训练，直到收敛。前三个模型是线性分类器，在像素级使用不同的权值衰减参数λ。我们所有的例子都使用了连接权值的二次权值衰减：

加到总损失函数。其中k为本层的单元数。三个模型都是简单线性(softmax)分类器，没有隐藏的单元(FC10(λ))。其中，FC10(1)以极高的λ= 1进行训练，为了测试这种极端环境中是否仍可能产生对抗性样本。另外两个模型是一个简单的具有两个隐层的sigmoid神经网络和一个分类器。最后一个模型AE400-10由一个带sigmoid激活的单层稀疏自编码器和一个带Softmax分类器的400个节点组成。这个网络已经被训练，直到它得到非常高质量的第一层过滤器，这一层没有微调。最后一列测量的是在训练集上达到0%精度所需的最小平均像素水平失真。失真度由

在原始x和失真的x’图像之间度量，其中n = 784是图像像素的数量。将像素强度缩放到[0,1]。
在我们的第一个实验中，我们为给定的网络生成了一组对抗性实例，并将这些实例提供给其他网络，以度量错误分类实例的比例。最后一列显示了在整个训练集上达到0%精度所需的平均最小失真。实验结果如表2所示。

表2的列显示了失真的训练集上的错误(误分类实例的比例)。最后两行给出了在给定的高斯噪声的干扰下产生的误差，以供参考。请注意，即使是标准差为0.1的噪声也优于除一个模型之外的所有模型的对抗噪声的stddev。图7显示了在本实验中使用的两个网络中所生成的对抗性实例的可视化结果。

一般的结论是，即使对于使用不同超参数训练的模型，对抗性实例也很难训练。虽然基于自动编码器的版本似乎受对抗样本的影响较小，它也不是完全免疫。

尽管如此，这个实验仍然留下了一个依赖于训练集的问题。生成的样本的难度仅仅依赖于我们作为样本的训练集的特定选择，还是这种影响甚至可以推广到训练在完全不同的训练集上的模型？
为了研究交叉训练集的泛化问题，我们将60000张MNIST训练图像分成大小分别为30000的P1和P2两部分，分别在P1和P2上训练了三个sigmoid激活的非卷积网络：两个是FC100-100-10和FC123-456-10，在P1上训练，在P2上训练FC100-100-10。我们为P1训练两个网络的原因是为了研究同时改变hypermarameter和训练集的累积效应。模型FC100-100-10和FC100-100-10具有相同的超参数：它们都是100-100-10网络，而FC123-456-10具有不同数量的隐藏单元。在这个实验中，我们扭曲了测试集的元素，而不是训练集。表3总结了这些模型的基本事实。

在为测试集生成具有100%错误率和最小失真的对抗性示例之后，我们将这些示例提供给每个模型。每个模型的误差显示在表4上半部分对应的列中。

在最后的实验中，我们通过使用例子

而不是x’来放大失真的影响。这将失真平均放大40%，标准差由0.06变为0.1。失真的示例被反馈给每个模型，错误率显示在表4的下面部分。有趣的结论是，对抗性的例子对于在不相交训练集上训练的模型来说仍然很难，尽管它们的影响性大大降低。

4.3 Spectral Analysis of Unstability

前一节展示了由纯监督训练产生的深层网络的例子，这些例子对于一种特殊形式的小扰动来说是不稳定的。与它们在网络和训练集上的泛化特性无关，对抗性的样本表明，输入(在欧几里得意义上)存在小的加性扰动，这些加性扰动在最后一层的输出上产生大的扰动。本节描述了一个通过测量每个修正层的频谱来测量和控制网络加性稳定性的简单程序。
在算数上，φ(x)代表一个K层网络的输出，x为输入，W为已训练的参数

其中φk表示k-1层到k层的映射操作。φ(x)的不稳定性可以通过检测各层的上Lipschitz常数来解释(k=1,…,K)，定义为Lk>0。

因此整个网络满足

半整流层(包括卷积层和全连接层)由如下映射定义

||W||为W的算子范数（即，它的最大奇异值）。由于非线性函数ρ(x) = max (0,x)收缩，即对于所有x，r满足||ρ(x)-ρ(x+r)|| ≤ ||r|| ，因此

因此Lk ≤ ||Wk||。另一方面,max-pooling层的φk收缩：

因为它的雅可比矩阵是对输入坐标子集的投影，因此不会扩展梯度。最后，如果φk为对比度归一化层

可以证明

0.5<=γ<=1,符合最常见的操作规则。
结果表明，只需计算各全连接和卷积层的算子范数，就可以得到网络不稳定性的保守测度。全连接情形是简单的，因为范数是由全连接矩阵的最大奇异值直接给出的。让我们来描述卷积的情况。如果W表示一个通用的4维张量，实现一个具有C个输入特征、D个输出特征的卷积层支持N×N和空间步长△的卷积层

其中xc表示第c个输入特征图，wc,d表示输入特征图c和输出特征图之间的空间卷积核。应用Parseval公式，得到其算子范数为

表5给出了使用(1)从[9]的ImageNet 深度卷积网络计算得到的上Lipschitz界限，表明失稳可以在第一个卷积层出现。

这些结果与前一节中构建的盲点的存在性是一致的，但是它们并没有试图解释为什么这些示例可以泛化到不同的超参数或训练集。我们强调我们计算上界：大的上界不会自动转化为对抗性例子的存在；然而，小范围保证不会出现这样的例子。这建议对参数进行简单的正则化，包括惩罚每个Lipschitz上边界，这可能有助于改进网络的泛化误差。

5. Discussion

我们证明了深层神经网络在单个单位的语义意义和它们的不连续方面都具有反直觉的性质。对抗性负样本的存在似乎与网络获得高泛化性能的能力相矛盾。的确，如果这个网络可以很好地泛化，那么它怎么会被这些与常规例子难以区分的对抗性负样本所混淆呢?可能的解释是，对抗性负样本的概率极低，因此在测试集中从未(或很少)观察到，但它是密集的(很像有理数)，因此它几乎在每个测试样本用例附近都能找到。然而，我们对对抗性负样本出现的频率并没有深入的了解，因此这个问题应该在未来的研究中加以解决。

Intriguing properties of neural networks手动翻译相关推荐

论文笔记（一）《Intriguing properties of neural networks》
对抗样本(一)<Intriguing properties of neural networks> 神经网络的有趣特性两点: 性质1:单个的深层神经元与随机线性组合的多个深层神经元并没有 ...
论文阅读笔记：Intriguing properties of neural networks
论文阅读笔记:Intriguing properties of neural networks 深度学习对抗样本的开山之作要点以往的观点认为深度神经网络的高层特征中每一个分量描述了一种特质,但是这 ...
对抗样本论文阅读Intriguing properties of neural networks
Intriguing properties of neural networks 文章提出了神经网络中的两个有趣的特性,首次提出了对抗样本adversarial examples的概念 Represe ...
Intriguing properties of neural networks
作者: 19届 lz 论文:<Intriguing properties of neural networks> 特性: 根据单元分析的各种方法,我们发现单个高级单元和高级单元的随机线性组 ...
Intriguing properties of neural networks——L-BFGS attack
2014的文章Intriguing properties of neural networks引发了关于对抗样本研究的热潮.其实对抗样本的研究很早就有了,只是当时没有得到足够的重视,最早的文章应该是下 ...
论文解读-Intriguing properties of neural networks（ICLR2014）
Intriguing properties of neural networks(ICLR2014) 这篇文章被认为是对抗样本的开山之作,首次发现并提出了对抗样本,作者阵容豪华,被引了很多次.但是文章 ...
《Intriguing properties of neural networks》代码实现——Pytorch
<Intriguing properties of neural networks>代码实现--Pytorch 一.代码实现 #导入库 import torch import torch. ...
关于Intriguing properties of neural networks的理解
这是有关神经网络的对抗样本的首篇文章,Szegedy等人发现了神经网络的一些(两个)有趣的性质. 第一个是关于高维神经网络的神经元的含义问题,先前的一些工作认为深度神经网络的神经元都代表着某一个特 ...
解读 intriguing properties of neural networks
题目:神经网络的隐藏属性作者:一作: Christian Szegedy (GooLeNet, BN) 三作: Ilya Sutskever (AlexNet二作,S2S) 六作:Ian ...

Intriguing properties of neural networks手动翻译