轻量级深度学习网络——MobileNet MobileNet v2

这篇文章主要讲的是深度学习网络篇中轻量化网络之一的MobileNet和MobileNet v2。在深度学习中轻量化网络有很多方法，比如说卷积核分解、使用bottleneck结构、用低精度浮点数保存模型、冗余卷积核剪枝和哈弗曼编码等等。MobileNet的主要是在卷积核分解方面做文章，友情提示：MobileNet不是模型压缩技术，而是一种网络形式的优化。下面就进入我们今天的正题——MobileNet & MobileNet v2。
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications——MobileNet论文地址
MobileNetV2: Inverted Residuals and Linear Bottlenecks——MobileNet v2论文地址

MobileNet主要从以下四个方面来介绍：

MobileNet改变的卷积结构

MobileNet的网络结构

两个超参——宽度因子和分辨率因子

更多的实验环节

MobileNet改变的卷积结构

首先声明，并不是从这篇文章开始对卷积进行优化的，在此之前有很多大佬们都对卷积结构进行过优化，比如说我们下面要补充的这篇文章——Factorized Convolutional Neural Networks （论文地址）。至于为什么MobileNet有更多的关注，个人猜测可能效果要更好一些。

先补充一下关于Factorized Convolutional的东西，这样我们理解MobileNet的卷积结构会更轻松。
Factorized Convolutional Neural Networks：因式分解卷积神经网络
我们先来看最最普通的卷积，输入图像（长x宽x通道数）：(h∗w)∗M(h * w) * M(h∗w)∗M，输出图像（长x宽x通道数）：(h∗w)∗N(h * w) * N(h∗w)∗N，卷积核大小（3D卷积：长x宽x通道数x数量）：[(k∗k)∗M]∗N[(k * k) * M] * N[(k∗k)∗M]∗N。
它的卷积过程如下图：

经过Factorized Convolutional优化过的bases卷积，输入输出同上，卷积操作被分为两步（这是这篇文章中因式分解卷积的精髓），第一步是将通道分离开来，对于单通道进行3D卷积，生成b个通道数的Feature Map；第二步是将M个b通道数的Feature Map进行卷积数量为N个、卷积大小为1x1xM的卷积操作；
它的卷积过程如下图：

Factorized Convolutional还有其他方法优化的卷积，比如说基于bases的stacked的卷积结构和拓扑连接等等。有兴趣的伙伴们可以去看论文的原文或者博客，吼吼吼！

看过了Factorized Convolutional以后，我们来看一下MobileNet里面卷积结构。输入和输出同上，卷积同样分为两步，第一步是深度卷积（depthwise convolution），即对输入图像进行数量为M大小为kxkx1的2D卷积；第二步是点态卷积（pointwise convolution），即进行数量为N个大小为1x1xM的卷积进行卷积；
它的卷积过程如下图：

我们可以用比率来比较优化后和优化前的计算量：
(k∗k+N)∗M∗h∗w[(k∗k)∗M]∗[(h∗w)∗N]=1N+1k2\frac{(k * k + N) * M * h * w}{[(k * k) * M] * [(h * w) * N]} = \frac{1}{N} + \frac{1}{k^2} [(k∗k)∗M]∗[(h∗w)∗N](k∗k+N)∗M∗h∗w=N1+k21
显而易见，N的取值在几百左右，k的取值在个位数，且都是正值，所以优化效果还是很明显的。我们可以这样来算一笔账：对于输入Feature Map为14x14x128，输出Feature Map为7x7X256，卷积核大小为3x3和1x1，Factorized conv中b=3，计算量分别如下：

卷积类型	计算量	优化效果
conv	3x3x128x14x14x256=57802752	-
Factorized conv (bases)	(3x3+256)x3x128x14x14=19944960	34.51%
MobileNet conv	(3x3+256)x128x14x14=6648320	11.50%

MobileNet的网络结构

先来看一下MobileNet的卷积模块，将【普通卷积3x3+BN+Relu】拆分成【深度卷积3x3+BN+Relu】+【点态卷积1x1+BN+Relu】，如下图：

基于卷积模块，我们再来看一下网络的整体架构：

上图中需要说明几个地方：

在之前的网络中下采样我们用的方式是pooling，而在MobileNet中下采样采用的是步长为2的卷积实现下采样，即Conv/s2；（思考——为什么卷积可以代替池化做下采样？原因：准确来说步长>1的卷积可以代替平均池化做下采样，对于图像或者Feature Map的矩阵形式来说，下采样的原理就是将原始图像nxn窗口内的图像变成一个像素，所以步长>1的卷积和池化的目的相同）
论文中提到的Shallow MobileNet是将上图中的【5 x Conv】的那一组卷积操作删掉形成的，在后面的实验中也可以看到MobileNet和Shallow MobileNet的比较；

两个超参——宽度因子和分辨率因子

作者还介绍了两个简单的全局参数：宽度因子（Width Multiplier: Thinner Models） 和 分辨率因子（Resolution Multiplier: Reduced representation）。
宽度因子（Width Multiplier: Thinner Models）
将原输入通道M压缩为αMαMαM，将原输出通道N压缩为αNαNαN，其中，α<1α<1α<1，常取值为1 , 0.75， 0.5， 0.25；则计算量为：
DK∗DK∗α∗M∗DF∗DF+αM∗αN∗DG∗DGD_K∗D_K∗α∗M∗D_F∗D_F+αM∗αN∗DG∗DG DK∗DK∗α∗M∗DF∗DF+αM∗αN∗DG∗DG

分辨率因子（Resolution Multiplier: Reduced representation）
将原输入图像的大小压缩为ρDF∗ρDFρD_F∗ρD_FρDF∗ρDF，其中，ρ<1ρ<1ρ<1，常见的压缩后的图像大小：224，192，160，128；则计算量为：
DK∗DK∗M∗ρDF∗ρDF+M∗N∗ρDF∗ρDFD_K∗D_K∗M∗ρD_F∗ρD_F+M∗N∗ρD_F∗ρD_F DK∗DK∗M∗ρDF∗ρDF+M∗N∗ρDF∗ρDF

同时对MobileNet进行宽度因子和分辨率因子的调整，则计算量为：
DK∗DK∗αM∗ρDF∗ρDF+αM∗αN∗ρDF∗ρDFD_K∗D_K∗αM∗ρD_F∗ρD_F+αM∗αN∗ρD_F∗ρD_F DK∗DK∗αM∗ρDF∗ρDF+αM∗αN∗ρDF∗ρDF