【ZFNet】Visualizing and Understanding Convolutional Networks (2013) 全文翻译

作者：Matthew D. Zeiler and Rob Fergus
（Dept. of Computer Science, New York University, USA, {zeiler,fergus}@cs.nyu.edu）

摘要

大型卷积网络模型最近在ImageNet benchmark中Krizhevsky等人身上展示了令人印象深刻的分类性能。但是，对于它们为什么表现如此出色或如何进行改进尚无明确的解释。在本文中，我们将探讨这两个问题。我们介绍了一种新颖的可视化技术，可深入理解中间特征层的功能以及分类器的操作。在诊断角色中使用时，这些可视化使我们能够找到在ImageNet分类benchmark上优于Krizhevsky等人的模型架构。我们还进行了消解研究，以发现不同模型层对性能的贡献。我们展示了在ImageNet上训练的模型可以很好地推广到其他数据集：重新训练softmax分类器时，它令人信服地击败了Caltech-101和Caltech-256数据集上的最新结果。

1. 引言

自1990年代初期LeCun等人提出卷积网络以来，卷积网络（convnets）在诸如手写数字分类和面部检测等任务上表现出出色的性能。在过去的18个月中，几篇论文表明，它们还可以在更具挑战性的视觉分类任务中提供出色的性能。Ciresan等人展示了NORB和CIFAR10数据集的最新性能。最值得注意的是，Krizhevsky等人在ImageNet 2012分类基准上显示了创纪录的击败表现，其convnet模型实现了16.4％的错误率，而第二名的结果为26.1％。继这项工作之后，Girshick等人在PASCAL VOC数据集上显示了领先的检测性能。性能的显著提高归因于以下几个因素：（i）提供大量的训练集，并提供数百万个带有标签的样本；（ii）强大的GPU实现，使训练大型模型变得切实可行；（iii）更好的模型正则化策略，例如Dropout。
尽管取得了令人鼓舞的进步，但是对于这些复杂模型的内部操作和行为，以及它们如何获得如此好的性能，仍然知之甚少。从科学的角度来看，这是非常不令人满意的。在没有清楚地了解它们如何工作以及为什么起作用的情况下，将更好的模型的开发简化为反复试验。在本文中，我们介绍了一种可视化技术，该技术可以揭示在模型的任何层上激发单个特征图的输入刺激。它还使我们能够在训练过程中观察特征的演变，并诊断模型的潜在问题。我们提出的可视化技术使用了Zeiler等人提出的多层反卷积网络（deconvnet），将特征激活投影回输入像素空间。我们还通过遮挡输入图像的部分来对分类器输出进行敏感性分析，揭示场景的哪些部分对于分类很重要。
使用这些工具，我们从Krizhevsky等人的体系结构开始，探索不同的体系结构，发现了在ImageNet上性能更优的体系结构。然后，我们仅在顶部重新训练softmax分类器，即可探索模型对其他数据集的泛化能力。因此，这是一种有监督的预训练形式，与Hinton等人和其他人推广的无监督的预训练方法形成对比。

2. 方法

正如LeCun等人和Krizhevsky等人所定义的，我们在整个论文中使用标准的全监督卷积模型。这些模型通过一系列图层将彩色2D输入图像 x i x_i xi映射到C个不同类别上的概率向量 y i y_i yi。每一层由（i）将上一层输出（或在第一层的情况下为输入图像）与一组学习的滤波器进行卷积；（ii）通过一个线性校正函数传递响应（ r e l u ( x ) = m a x ( x , 0 ) relu(x)=max(x,0) relu(x)=max(x,0)）；（iii）[可选地]在本地邻域上的最大池化；以及（iv）[可选地]进行跨特征图响应标准化的局部对比操作。有关这些操作的更多详细信息，请参见[18]和[16]。网络的最顶层是常规的全连接网络，最后一层是softmax分类器。图3显示了我们许多实验中使用的模型。
我们使用一个大的N个标签的图像集合{x，y}训练这些模型，其中标记 y i y_i yi是指示真实类别的离散变量。适用于图像分类的交叉熵损失函数用于比较 y i ^ \hat{y_i} yi^和 y i y_i yi。网络的参数（卷积层中的滤波器，全连接层中的权重矩阵和偏置）是通过反向传播求整个网络的参数的导数，并通过随机梯度下降来训练的。训练的详细信息在第3节中给出。

2.1 使用反卷积网络进行可视化

了解卷积网络的操作需要在中间层中解释要素活动。我们提出了一种新颖的方法来将这些活动映射回输入像素空间，以显示最初由哪种输入模式导致了特征图中的给定激活。我们使用反卷积网络（deconvnet）Zeiler等人执行此映射。 deconvnet可以被认为是使用相同组件（过滤，池化）但反过来使用的convnet模型，因此，与其将像素映射到特征相反，反之亦然。在Zeiler等人中，提出了去卷积网络作为一种执行无监督学习的方法。在这里，它们不以任何学习能力使用，就像对已经训练过的卷积网络的探究一样。
为了检查卷积网络，将deconvnet附加到其每一层，如图1（顶部）所示，提供返回图像像素的连续路径。首先，将输入图像呈现给卷积网络，并在整个图层中计算特征。为了检查给定的convnet激活，我们将该层中的所有其他激活设置为零，并将要素映射作为输入传递到附加的deconvnet层。然后，我们依次（i）分解，（ii）校正和（iii）过滤以重建下层中激活所选激活的活动。然后重复此过程，直到达到输入像素空间为止。
解卷： 在卷积网络中，最大池化操作是不可逆的，但是我们可以通过在一组开关变量中记录每个池化区域内最大值的位置来获得近似逆。在去卷积网络中，解池操作使用这些开关将来自上一层的重建内容放置到适当的位置，从而保留刺激的结构。有关该过程的说明，请参见图1（底部）。
校正： 卷积网络使用relu非线性，可校正特征图，从而确保特征图始终为正。为了在每一层上获得有效的特征重建（也应该是正数），我们将重建的信号通过relu非线性传递。（我们还尝试使用前馈relu操作施加的二进制掩码进行校正，但是生成的可视化效果明显不够清晰。）
过滤： 卷积网络使用学习的过滤器对来自上一层的要素贴图进行卷积。为了大致反过来，去卷积网络使用相同滤镜的转置版本（与其他自动编码器模型，例如RBM）相同，但应用于校正后的地图，而不是其下一层的输出。实际上，这意味着垂直和水平翻转每个过滤器。
请注意，在此重构路径中，我们不使用任何对比度归一化操作。从较高的层向下投影使用向上转换时卷积网络中最大池生成的开关设置。由于这些开关设置是给定输入图像所特有的，因此从一次激活获得的重建效果类似于原始输入图像的一小部分，其结构根据其对特征激活的贡献而加权。由于对模型进行了判别式训练，因此它们隐式显示了输入图像的哪些部分是判别式。注意，这些预测不是模型的样本，因为不涉及生成过程。整个过程类似于反向支持单个强激活（而不是通常的梯度），即计算 ∂ h ∂ X n \frac{\partial h}{\partial X_n} ∂Xn∂h，其中h是具有强激活的特征图的元素，而 X n X_n Xn是输入图像。但是，其不同之处在于（i）独立地施加relu和（ii）不使用对比度归一化操作。我们方法的一个普遍缺点是，它仅可视化单个激活，而不显示层中存在的联合活动。然而，如图6所示，这些可视化是输入模式的精确表示，它刺激了模型中的给定特征图：当原始输入图像中与该模式相对应的部分被遮挡时，我们看到了明显的下降。功能图中的活动。

3. 训练细节

现在我们描述将在第4节中看到的大型convnet模型。图3所示的体系结构类似于Krizhevsky等人对ImageNet分类所使用的体系结构。区别之一在于，克里夫斯基夫斯基第3、4、5层中使用的稀疏连接（由于模型被划分为2个GPU），因此在我们的模型中被密集的连接所取代。如第4.1节所述，在检查了图5中的可视化之后，做出了与第1层和第2层有关的其他重要区别。
该模型在ImageNet 2012训练集中进行了训练（130万张图像，分布在1000个不同的类中）。通过将最小尺寸调整为256，裁剪中心256x256区域，减去每像素均值（在所有图像上），然后使用10个大小为224x224的不同子裁剪（角点+中心（水平（不）））对每个RGB图像进行预处理。翻转）。最小批量大小为128的随机梯度下降用于更新参数，其学习速率为 1 0 − 2 10^{-2} 10−2，动量项为0.9。当验证错误达到稳定水平时，我们会在整个培训过程中手动退火学习率。完全连接的层（第6和第7层）中以0.5的比率使用压差。将所有权重初始化为 1 0 − 2 10^{-2} 10−2并将偏差设置为0。

图1. 顶部：连接到卷积层（右）的反卷积层（左）。反卷积层将从下面的层重建卷积层特征的近似版本。底部：反卷积层中反池化操作的示意图，其中使用开关记录了在卷积层中进行池化时每个池化区域（彩色区域）中局部最大值的位置。黑/白条在特征图中是负/正激活

训练过程中第一层过滤器的可视化显示它们占主导地位。为了解决这个问题，我们将卷积层中的每个滤波器重新归一化，其RMS值超过此固定半径的固定半径 1 0 − 1 10^{-1} 10−1。这一点至关重要，尤其是在模型的第一层中，其中输入图像大约在[-128,128]范围内。与Krizhevsky等人一样，每个训练示例产生多种作物和翻转，以扩大训练集的大小。我们使用基于[18]的实现，在70个纪元后停止了训练，这在单个GTX580 GPU上花费了大约12天的时间。

4. 卷积网络可视化

使用第3节中描述的模型，我们现在使用反卷积网络可视化ImageNet验证集上的功能激活。
特征可视化： 图2显示了训练完成后来自我们模型的特征可视化。对于给定的特征图，我们显示了前9个激活，每个激活分别向下投影到像素空间，揭示了激发该图的不同结构并显示了其对输入变形的不变性。除了这些可视化之外，我们还显示了相应的图像补丁。与仅专注于每个补丁内的判别结构的可视化相比，它们具有更大的变化。例如，在第5层第1行第2列中，补丁看上去几乎没有什么共同点，但是可视化显示该特定的特征图着重于背景中的草，而不是前景对象。
每层的投影显示了网络中功能的分层性质。第2层响应角点和其他边缘/颜色相交。第3层具有更复杂的不变性，捕获相似的纹理（例如网格图案（行1，第1行）；文本（R2，C4））。第4层显示出明显的变化，并且是特定于类别的：狗脸（R1，C1）；鸟腿（R4，C2）。第5层显示整个对象的姿态变化很大，例如键盘（R1，C11）和狗（R4）。
训练期间的特征演化： 图4可视化了在投影回像素空间的给定特征图中，最强激活（在所有训练示例中）的训练过程。外观突然跳变是由于最强烈的激活所源自的图像变化所致。可以看到模型的较低层在几个时期内收敛。但是，只有在相当多个时期（40-50）之后才会发展上层，这表明需要让模型训练直到完全收敛。

4.1 架构选择

虽然经过训练的模型的可视化可以深入了解其操作，但它也可以首先帮助选择好的架构。通过可视化Krizhevsky等人的架构的第一和第二层（图5（a）和（c）），各种问题显而易见。第一层滤波器混合了极高和极低的频率信息，很少覆盖中频。另外，第二层可视化显示了由第一层卷积中使用的大步幅4引起的混叠伪影。为了解决这些问题，我们（i）将第1层滤波器的尺寸从11x11减小到7x7，并且（ii）进行了卷积2而不是4的跨越。这种新架构在第1和第2层功能中保留了更多信息，如图5（b）和（d）所示。更重要的是，它还提高了分类性能，如5.1节所示。

4.2 遮挡敏感度

对于图像分类方法，一个自然的问题是模型是真正识别图像中对象的位置，还是仅使用周围环境。图6试图通过用灰色正方形系统地遮盖输入图像的不同部分并监视分类器的输出来回答这个问题。这些示例清楚地表明，该模型正在场景中定位对象，因为当对象被遮挡时，正确类别的概率会大大降低。图6还显示了顶层卷积层最强特征图的可视化效果，此外，该图（根据空间位置求和）中的活动也取决于遮挡物位置。当遮挡物覆盖可视化中出现的图像区域时，我们会看到特征图中的活动大大减少。这表明可视化确实与刺激该特征图的图像结构相对应，从而验证了图4和图2所示的其他可视化。

图2. 训练有素的模型中的特征可视化。对于第2-5层，我们在整个验证数据的特征图的随机子集中显示了前9个激活，并使用我们的反卷积网络方法将其投影到像素空间。我们的重构不是来自模型的样本：它们是来自验证集的重构模式，这些模式在给定的特征图中导致高度激活。对于每个特征图，我们还显示相应的图像补丁。注意：（i）每个特征图内的强分组，（ii）较高层的不变性较大，以及（iii）图像可区分部分的夸大，例如狗的眼睛和鼻子（第4层，第1行，第1列）。最好以电子形式查看。压缩伪像是30Mb提交限制的结果，而不是重构算法本身的结果

图3. 我们的8层convnet模型的架构。图像的224 x 224裁切（带有3个彩色平面）作为输入呈现。它与96个不同的第一层滤镜（红色）进行卷积，每个滤镜的大小为7×7，x和y的步幅均为2。然后，将生成的特征图：（i）通过校正的线性函数（未显示），（ii）合并（使用步幅2在3x3区域内的最大值），以及（iii）跨特征图进行归一化归一化，得出96种不同的55 55个要素特征图。在第2、3、4、5层中重复类似的操作。最后两层是完全连接的，将来自顶部卷积层的要素作为矢量形式的输入（6·6·256 = 9216维度）。最后一层是C向softmax函数，C为类数。所有过滤器和功能图均为正方形

图4. 通过训练随机选择的模型特征子集的演变每个图层的要素显示在不同的块中。在每个块内，我们显示在时期[1,2,5,10,20,30,40,64]中随机选择的特征子集。可视化显示了给定特征图的最强激活（在所有训练示例中），并使用我们的deconvnet方法投影到像素空间。人为地增强了颜色对比度，并且最好以电子形式查看该图

5. 实验

5.1 ImageNet 2012

该数据集包含1.3M / 50k / 100k训练/验证/测试示例，分布在1000个类别中。表1显示了我们在该数据集上的结果。
使用Krizhevsky等人指定的确切架构，我们尝试将其结果复制到验证集上。我们在ImageNet 2012验证集中实现的错误率在其报告值的0.1％之内。
接下来，我们将根据第4.1节（第1层中的7×7过滤器以及第1和第2层中的第2步卷积）中概述的架构更改来分析模型的性能。如图3所示，该模型明显优于Krizhevsky等人的体系结构，比其单个模型的结果高出1.7％（测试前5名）。当我们组合多个模型时，我们获得了14.8％的测试误差，提高了1.6％。该结果接近霍华德的数据增强方法所产生的结果，可以轻松地将其与我们的体系结构结合使用。但是，我们的模型与2013年ImageNet分类竞赛的获胜者有些距离。

图5.（a）：没有要素比例裁剪的第一层要素。请注意，一个功能占主导。（b）：Krizhevsky等人的第一层特征。（c）：我们的第一层功能。较小的步幅（2对4）和过滤器大小（7x7对11x11）可提供更多独特的功能和更少的“死”功能。（d）：Krizhevsky等人第二层要素的可视化。（e）：第二层特征的可视化。这些更加干净，没有在（d）中可见的锯齿失真

表1. ImageNet 2012/2013分类错误率。 ∗表示在ImageNet 2011和2012训练集上都训练过的模型

更改ImageNet模型的大小： 在表2中，我们首先通过调整图层的大小或完全删除它们来探索Krizhevsky等人的体系结构。在每种情况下，都使用修订后的架构从头开始训练模型。移除完全连接的层（6,7）只会使错误略有增加（在下文中，我们指的是top-5验证错误）。考虑到它们包含大多数模型参数，这令人惊讶。去除两个中间卷积层也使错误率的差异相对较小。但是，除去中间的卷积层和完全连接的层，将得到仅具有4个层的模型，其性能会大大降低。这表明模型的整体深度对于获得良好的性能很重要。然后，我们修改模型，如图3所示。更改完全连接的层的大小对性能几乎没有影响（与Krizhevsky等人的模型相同）。但是，增加中间卷积层的大小可以有效提高性能。但是增加这些层数，同时又扩大完全连接的层数会导致过度拟合。

图6. 三个测试示例，其中我们用灰色正方形（第1列）系统地覆盖了场景的不同部分，并查看了顶部（第5层）如何映射（（b）和（c））和分类器输出（（d ）＆（e））更改。（b）：对于灰度的每个位置，我们将总激活记录在一个第5层特征图中（在无遮挡图像中响应最强的一个）。（c）：此特征图的可视化投影到输入图像（黑色正方形）中，以及来自其他图像的该图的可视化。第一行示例显示了最强的特征是狗的脸。遮盖住后，特征图中的活动会减少（（b）中的蓝色区域）。（d）：根据灰色正方形的位置，正确分类概率的图。例如。当狗的脸被遮盖时，“博美犬”的可能性将大大降低。（e）：最可能的标签是封堵器位置的函数。例如。在第一行中，对于大多数位置来说，它是“博美犬”，但是如果狗的脸被遮盖而不是球被遮盖，则表示“网球”。在第二个示例中，汽车上的文字是第5层中最强大的功能，但分类器对车轮最敏感。第三个示例包含多个对象。第5层中最强的特征会拾取人脸，但分类器对狗（（d）中的蓝色区域）敏感，因为它使用了多个特征图

表2. 对Krizhevsky等人的模型和我们的模型进行各种体系结构更改后的ImageNet 2012分类错误率（请参见图3）

5.2 特征生成

上面的实验显示了ImageNet模型的卷积部分对于获得最新性能的重要性。这由图2的可视化支持，该可视化显示了在卷积层中学习到的复杂不变性。现在，我们探索这些特征提取层将其推广到其他数据集（即Caltech-101，Caltech-256和PASCAL VOC 2012）的能力。为此，我们固定了ImageNet训练模型的第1-7层，并对其进行了训练。使用新数据集的训练图像将softmax分类器放在顶部（针对适当的班级数量）。由于softmax包含的参数相对较少，因此可以从相对较少的示例中快速对其进行训练，就像某些数据集一样。
实验将我们从ImageNet获得的特征表示与其他方法使用的手工特征进行了比较。在我们的方法和现有方法中，Caltech / PASCAL训练数据仅用于训练分类器。由于它们具有相似的复杂性（我们的：softmax，其他的：线性SVM），所以特征表示对于性能至关重要。重要的是要注意，两种表示都是使用Caltech和PASCAL训练集以外的图像构建的。例如，HOG描述符中的超参数是通过对行人数据集进行系统实验确定的。
我们还尝试了从头开始训练模型的第二种策略，即将第1-7层重置为随机值，并在PASCAL / Caltech数据集的训练图像上训练它们以及softmax。
一种复杂的情况是，一些加州理工学院的数据集具有一些图像，这些图像也包含在ImageNet训练数据中。使用归一化的相关性，我们识别了这几张“重叠”图像，并将其从Imagenet训练集中删除，然后重新训练了Imagenet模型，从而避免了训练/测试污染的可能性。（对于Caltech-101，我们发现了44个共同的图像（总共9,144张图像），对于任何给定的类别，最大重叠量为10张。对于Caltech-256，我们发现了243个共同的图像（总共30,607张图像），任何给定类别的最大重叠量为18。）
Caltech-101： 我们按照[9]的程序进行操作，每班随机选择15或30张图像进行训练，并且每班最多测试50张图像，并使用5次训练/测试，报告表3中每班准确性的平均值褶皱。培训耗时17分钟，每节课需要30张图像。预先训练的模型比[3]的30个图像/类的最佳报告结果要好2.2％。我们的结果与Donahue等人最近发表的结果相吻合，Donahue等人获得了86.1％的准确性（30 imgs / class）。但是，从头开始训练的卷积模型却做得非常糟糕，仅达到46.5％，这表明不可能在如此小的数据集上训练大型的卷积模型。

表3. 针对我们的卷积模型的Caltech-101分类准确性，相对于两种领先的替代方法

Caltech-256： 我们按照[11]的程序进行操作，每班选择15、30、45或60张训练图像，并在表4中报告每班准确性的平均值。我们的ImageNet预训练模型优于当前状态- Bo等人获得的最新结果。 [3]大幅提高：74.2％比60个训练图像/课程的55.2％。但是，与Caltech-101一样，从头训练的模型的效果也不佳。在图7中，我们探索了“一次性学习”机制。使用我们的预训练模型，只需使用6张Caltech-256训练图像即可击败领先方法，而使用的图像数量是后者的10倍。这显示了ImageNet功能提取器的功能。
PASCAL 2012： 我们使用标准的训练和验证图像在ImageNet预训练的convnet上训练了20向softmax。这不是理想的，因为PASCAL图像可以包含多个对象，而我们的模型仅为每个图像提供了一个唯一的预测。表5显示了测试集上的结果，并与以下几种领先方法进行了比较：Oquab等人在竞争和并发工作中排名前2位，他们使用了带有更合适分类器的卷积网络。 PASCAL和ImageNet图像本质上有很大不同，前者是完整场景，与后者不同。这也许可以解释我们的平均成绩比领先竞争对手的成绩低3.2％，但是我们确实在5个班级上击败了他们，有时差距很大。

表4. Caltech 256分类精度

图7. Caltech-256分类性能随着每个班级的训练图像数量的变化而变化。通过我们的预训练特征提取器，每班仅使用6个训练示例，我们就超过了Bo等人报告的最佳结果

表5. PASCAL 2012分类结果，将我们的Imagenet预训练卷积与领先的两种方法以及Oquab等的最新方法进行了比较

5.3 特征分析

我们探索了Imagenet预训练模型的每一层中的特征如何区分。我们通过更改从ImageNet模型保留的层数并在顶部放置线性SVM或softmax分类器来实现此目的。表6显示了Caltech-101和Caltech-256上的结果。对于这两个数据集，当我们提升模型时都可以看到稳定的改进，通过使用所有图层可以获得最佳结果。这支持了这样的前提，即随着要素层次结构的深入，他们将学习越来越强大的要素。

表6. 对经过ImageNet预训练的卷积网络内的特征图中每一层所包含的判别信息的分析。我们在convnet的不同图层上训练线性SVM或softmax（如括号中所示）。较高的层通常会产生更多的区分特征

6. 讨论

我们以多种方式探索了针对图像分类训练的大型卷积神经网络模型。首先，我们提出了一种新颖的方式来可视化模型中的活动。这表明功能远非随机的，无法解释的模式。而是，它们显示了许多直观上理想的属性，例如组成性，不断增加的不变性和随着我们提升图层而进行的类区分。我们还将展示如何将这些可视化用于识别模型中的问题，从而获得更好的结果，例如，改进Krizhevsky等人的ImageNet 2012令人印象深刻的结果。然后，我们通过一系列遮挡实验证明，该模型在进行分类训练时对图像中的局部结构高度敏感，而不仅仅是使用宽广的场景上下文。对模型的消融研究表明，对网络（而不是任何单个部分）的最小深度对于模型的性能至关重要。
最后，我们展示了ImageNet训练的模型如何很好地推广到其他数据集。对于Caltech-101和Caltech-256，数据集足够相似，因此我们可以击败报告的最佳结果，在后一种情况下，结果可观。我们的卷积模型对PASCAL数据的泛化效果较差，可能会遭受数据集偏差的影响，尽管尽管未针对任务进行调整，但它仍处于最佳报告结果的3.2％之内。例如，如果使用不同的损失函数（每个图像允许多个对象），我们的性能可能会提高。这自然将使网络也能够处理对象检测。

致谢

作者要感谢Yann LeCun进行的有益讨论，并感谢NSERC，NSF资助＃1116923和Microsoft Research的支持。

参考文献