摘要

卷积层是现代深度神经网络的基本构件之一。一个基本假设是，卷积核应该为数据集中的所有示例共享。我们提出了条件参数化卷积，它为每个例子学习专门的卷积核。用CondConv替换正常卷积使我们能够增加网络的大小和容量，同时保持高效的推断。我们证明，在分类和检测任务上，使用CondConv缩放网络可以改善几种现有卷积神经网络架构的性能和推断成本权衡。

引言

我们提出了条件参数化卷积，通过计算卷积核作为输入的函数来挑战静态卷积核的范式。特别地，我们将CondConv层中的卷积核参数化为n个专家(α1W1+)的线性组合。。。+αNWn)⊙x，其中α1，。。。，α是通过梯度下降学习的输入函数。为了有效地增加CondConv层的容量，模型开发人员可以增加专家的数量。这比增加卷积核本身的大小在计算上更有效率，因为卷积核被应用于输入中的许多不同位置，而专家对于每个输入只被组合一次。这允许模型开发人员增加模型容量和性能，同时保持高效的推理。

CondConv可以作为CNN体系结构中现有卷积层的替代。我们证明了用CondConv替换卷积层可以在ImageNet分类和COCO对象检测上提高几种CNN架构的模型容量和性能，同时保持高效的推理。在我们的分析中，我们发现CondConv层跨示例学习语义上有意义的关系来计算条件卷积核。

条件参数化卷积

我们的CondConv层架构有n = 3个内核，而(b)混合了专家的方法。通过在输入上有条件地参数化卷积核，CondConv在数学上等价于混合专家方法，但只需要1个卷积。

在常规卷积层中，相同的卷积核用于所有输入示例。在CondConv层，卷积核是作为输入示例的函数来计算的(图1a)。具体来说，我们通过以下方式对CondConv中的卷积核进行参数化:

其中，每个αi= ri(x)是使用带有学习参数的路由函数计算的示例相关标量权重，n是专家数量，σ是激活函数。当我们调整卷积层以使用CondConv时，每个核Wi具有与原始卷积中的核相同的维数。

我们通常通过增加内核高度/宽度或输入/输出通道的数量来增加常规卷积层的容量。但是，卷积中的每个附加参数都需要与输入要素图中的像素数成比例的附加乘加，这可能很大。在CondConv层，在应用卷积之前，我们为每个示例计算一个卷积核，作为n个专家的线性组合。至关重要的是，每个卷积核只需要计算一次，但在输入图像的许多不同位置应用。这意味着，通过增加n，我们可以增加网络的容量，而推理成本只有很小的增加；每个额外的参数只需要一个额外的乘法-加法。

CondConv层在数学上相当于更昂贵的专家线性混合公式，其中每个专家对应于一个静态卷积(图1b):

因此，CondConv具有与n个专家的线性混合专家公式相同的能力，但是计算效率高，因为它只需要计算一个昂贵的卷积。这个公式让我们深入了解了CondConv的性质，并将其与先前关于条件计算和专家混合的工作联系起来。每个示例的路由函数对于CondConv的性能至关重要:如果学习的路由函数对于所有示例都是常数，则CondConv层的容量与静态卷积层相同。

我们希望设计一个计算效率高、能够有意义地区分输入示例并且易于解释的每示例路由函数。我们通过三个步骤从层输入计算示例相关路由权重αi= ri(x):全局平均池化、全连接层、Sigmoid激活。

其中R是学习的路由权重矩阵，将汇集的输入映射到n个专家权重。正常的卷积运算只在局部感受野上进行，因此我们的路由函数允许使用全局上下文来适应局部运算。

CondConv层可以用来代替网络中的任何卷积层。同样的方法可以很容易地扩展到其他线性函数，如深度卷积和全连接层中的函数。

在ImageNet验证中，与MobileNetV1前沿[38]相比，增加CondConvMobileNetV1模型每层的专家数量可以提高相对于推理成本的性能。每层拥有更多专家的模型实现了单调的更高精度。我们与{1，2，4，8，16，32}位宽度乘数为{0.25，0.50，0.75，1.0}的专家一起训练CondConv模型

结论

本文提出了条件参数化卷积。CondConv挑战了卷积核应该在所有输入示例中共享的假设。这为增加模型容量同时保持高效推理引入了一个新的方向:增加内核生成函数的大小和复杂性。由于核只计算一次，然后在输入中卷积，增加核生成函数的复杂性比增加额外的卷积或扩展现有的卷积要有效得多。CondConv还强调了在走向更大数据集的趋势中的一个重要研究问题，即如何最好地揭示、表示和利用示例之间的关系来提高模型性能。未来，我们希望利用更大的数据集、更复杂的内核生成函数和架构搜索来进一步探索CondConv的设计空间和局限性，以设计更好的基础架构。

对比

CondConv: Conditionally Parameterized Convolutions for Efficient Inference相关推荐

CondConv: Conditionally Parameterized Convolutions for Efficient Inference论文解读
CondConv: Conditionally Parameterized Convolutions for Efficient Inference(CVPR2020) paper:https://l ...
【论文笔记】CondConv: Conditionally Parameterized Convolutions for Efficient Inference
论文论文题目:CondConv: Conditionally Parameterized Convolutions for Efficient Inference 论文地址:https://arxi ...
【论文笔记】Resolution Adaptive Networks for Efficient Inference （CVPR2020）
Resolution Adaptive Networks for Efficient Inference Motivation Method Experiments 借鉴意义与思考论文地址:http ...
[论文阅读] EIE: Efficient Inference Engine on Compressed Neural Network
这是收录于ISCA16(International Symposium on Computer Architecture). 其是Deep Compression以及DSD的系列篇,其在Deep Co ...
韩松EIE:Efficient Inference Engine on Compressed Deep Neural Network论文详解
EIE为韩松博士在ISCA 2016上的论文.实现了压缩的稀疏神经网络的硬件加速.与其近似方法的ESE获得了FPGA2017的最佳论文. 目录一.背景与介绍 1.1 Motivation 1.2 前 ...
韩松 EIE： Efficient Inference Engine on Compressed Deep Neural Network论文详解
EIE为韩松博士在ISCA 2016上的论文,实现了压缩的稀疏神经网络的硬件加速. 与其近似方法的ESE获得了FPGA2017的最佳论文. 背景与介绍最新的DNN模型都是运算密集型和存储密集型,难以 ...
论文阅读——Quantizing deep convolutional networks for efficient inference: A whitepaper
Quantizing deep convolutional networks for efficient inference: A whitepaper Abstract 本文针对如何对卷积神经网络的 ...
Implementing Pruning Convolutional Neural Networks for Resource Efficient Inference in Mxnet
一.代码分析: 参考pytorch代码对论文<Pruning Convolutional Neural Networks for Resource Efficient Inference> ...
[文献阅读] Sparsity in Deep Learning: Pruning and growth for efficient inference and training in NN
文章目录 1. 前言 2. Overview of Sparsity in Deep Learning 2.1 Generalization 2.2 performance and model sto ...

CondConv: Conditionally Parameterized Convolutions for Efficient Inference

用于有效推断的条件参数化卷积

摘要

引言

相关工作

条件参数化卷积

结论

对比

CondConv: Conditionally Parameterized Convolutions for Efficient Inference相关推荐

最新文章

热门文章