本文转载自:https://zhuanlan.zhihu.com/p/31551004

引言

卷积神经网络(CNN)已经普遍应用在计算机视觉领域,并且已经取得了不错的效果。图1为近几年来CNN在ImageNet竞赛的表现,可以看到为了追求分类准确度,模型深度越来越深,模型复杂度也越来越高,如深度残差网络(ResNet)其层数已经多达152层。


图1 CNN在ImageNet上的表现(来源:CVPR2017)
然而,在某些真实的应用场景如移动或者嵌入式设备,如此大而复杂的模型是难以被应用的。首先是模型过于庞大,面临着内存不足的问题,其次这些场景要求低延迟,或者说响应速度要快,想象一下自动驾驶汽车的行人检测系统如果速度很慢会发生什么可怕的事情。所以,研究小而高效的CNN模型在这些场景至关重要,至少目前是这样,尽管未来硬件也会越来越快。目前的研究总结来看分为两个方向:一是对训练好的复杂模型进行压缩得到小模型;二是直接设计小模型并进行训练。不管如何,其目标在保持模型性能(accuracy)的前提下降低模型大小(parameters size),同时提升模型速度(speed, low latency)。本文的主角MobileNet属于后者,其是Google最近提出的一种小巧而高效的CNN模型,其在accuracy和latency之间做了折中。下面对MobileNet做详细的介绍。

深度级可分离卷积 Depthwise separable convolution

MobileNet的基本单元是深度级可分离卷积(depthwise separable convolution),其实这种结构之前已经被使用在Inception模型中。深度级可分离卷积其实是一种可分解卷积操作(factorized convolutions),其可以分解为两个更小的操作:depthwise convolution和pointwise convolution,如图1所示。Depthwise convolution和标准卷积不同,对于标准卷积其卷积核是用在所有的输入通道上(input channels),而depthwise convolution针对每个输入通道采用不同的卷积核,就是说一个卷积核对应一个输入通道,所以说depthwise convolution是depth级别的操作。而pointwise convolution其实就是普通的卷积,只不过其采用1x1的卷积核。图2中更清晰地展示了两种操作。对于depthwise separable convolution,其首先是采用depthwise convolution对不同输入通道分别进行卷积,然后采用pointwise convolution将上面的输出再进行结合,这样其实整体效果和一个标准卷积是差不多的,但是会大大减少计算量和模型参数量。


图1 Depthwise separable convolution

图2 Depthwise convolution和pointwise convolution
这里简单分析一下depthwise separable convolution在计算量上与标准卷积的差别。假定输入特征图大小是 ,而输出特征图大小是 ,其中 是特征图的width和height,这是假定两者是相同的,而 MN 指的是通道数(channels or depth)。这里也假定输入与输出特征图大小(width and height)是一致的。采用的卷积核大小是尽管是特例,但是不影响下面分析的一般性。对于标准的卷积 ,其计算量将是:

而对于depthwise convolution其计算量为: ,pointwise convolution计算量是: ,所以depthwise separable convolution总计算量是:

可以比较depthwise separable convolution和标准卷积如下:

一般情况下 N 比较大,那么如果采用3x3卷积核的话,depthwise separable convolution相较标准卷积可以降低大约9倍的计算量。其实,后面会有对比,参数量也会减少很多。

MobileNet网络结构

前面讲述了depthwise separable convolution,这是MobileNet的基本组件,但是在真正应用中会加入batchnorm,并使用ReLU激活函数,所以depthwise separable convolution的基本结构如图3所示。

图3 加入BN和ReLU的depthwise separable convolution
MobileNet的网络结构如表1所示。首先是一个3x3的标准卷积,然后后面就是堆积depthwise separable convolution,并且可以看到其中的部分depthwise convolution会通过strides=2进行down sampling。然后采用average pooling将feature变成1x1,根据预测类别大小加上全连接层,最后是一个softmax层。如果单独计算depthwise
convolution和pointwise convolution,整个网络有28层(这里Avg Pool和Softmax不计算在内)。我们还可以分析整个网络的参数和计算量分布,如表2所示。可以看到整个计算量基本集中在1x1卷积上,如果你熟悉卷积底层实现的话,你应该知道卷积一般通过一种im2col方式实现,其需要内存重组,但是当卷积核为1x1时,其实就不需要这种操作了,底层可以有更快的实现。对于参数也主要集中在1x1卷积,除此之外还有就是全连接层占了一部分参数。


表1 MobileNet的网络结构

表2 MobileNet网络的计算与参数分布
MobileNet到底效果如何,这里与GoogleNet和VGG16做了对比,如表3所示。相比VGG16,MobileNet的准确度稍微下降,但是优于GoogleNet。然而,从计算量和参数量上MobileNet具有绝对的优势。

表3 MobileNet与GoogleNet和VGG16性能对比

MobileNet瘦身

前面说的MobileNet的基准模型,但是有时候你需要更小的模型,那么就要对MobileNet瘦身了。这里引入了两个超参数:width multiplier和resolution multiplier。第一个参数width multiplier主要是按比例减少通道数,该参数记为 a ,其取值范围为(0,1],那么输入与输出通道数将变成aM 和 a N ,对于depthwise separable convolution,其计算量变为:

因为主要计算量在后一项,所以width multiplier可以按照比例降低计算量,其是参数量也会下降。第二个参数resolution multiplier主要是按比例降低特征图的大小,记为 ,比如原来输入特征图是224x224,可以减少为192x192,加上resolution multiplier,depthwise separable convolution的计算量为:

要说明的是,resolution multiplier仅仅影响计算量,但是不改变参数量。引入两个参数会给肯定会降低MobileNet的性能,具体实验分析可以见paper,总结来看是在accuracy和computation,以及accuracy和model size之间做折中。

MobileNet的TensorFlow实现

TensorFlow的nn库有depthwise convolution算子tf.nn.depthwise_conv2d,所以MobileNet很容易在TensorFlow上实现:

class MobileNet(object):def __init__(self, inputs, num_classes=1000, is_training=True,width_multiplier=1, scope="MobileNet"):"""The implement of MobileNet(ref:https://arxiv.org/abs/1704.04861):param inputs: 4-D Tensor of [batch_size, height, width, channels]:param num_classes: number of classes:param is_training: Boolean, whether or not the model is training:param width_multiplier: float, controls the size of model:param scope: Optional scope for variables"""self.inputs = inputsself.num_classes = num_classesself.is_training = is_trainingself.width_multiplier = width_multiplier# construct modelwith tf.variable_scope(scope):# conv1net = conv2d(inputs, "conv_1", round(32 * width_multiplier), filter_size=3,strides=2)  # ->[N, 112, 112, 32]net = tf.nn.relu(bacthnorm(net, "conv_1/bn", is_training=self.is_training))net = self._depthwise_separable_conv2d(net, 64, self.width_multiplier,"ds_conv_2") # ->[N, 112, 112, 64]net = self._depthwise_separable_conv2d(net, 128, self.width_multiplier,"ds_conv_3", downsample=True) # ->[N, 56, 56, 128]net = self._depthwise_separable_conv2d(net, 128, self.width_multiplier,"ds_conv_4") # ->[N, 56, 56, 128]net = self._depthwise_separable_conv2d(net, 256, self.width_multiplier,"ds_conv_5", downsample=True) # ->[N, 28, 28, 256]net = self._depthwise_separable_conv2d(net, 256, self.width_multiplier,"ds_conv_6") # ->[N, 28, 28, 256]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_7", downsample=True) # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_8") # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_9")  # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_10")  # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_11")  # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_12")  # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 1024, self.width_multiplier,"ds_conv_13", downsample=True) # ->[N, 7, 7, 1024]net = self._depthwise_separable_conv2d(net, 1024, self.width_multiplier,"ds_conv_14") # ->[N, 7, 7, 1024]net = avg_pool(net, 7, "avg_pool_15")net = tf.squeeze(net, [1, 2], name="SpatialSqueeze")self.logits = fc(net, self.num_classes, "fc_16")self.predictions = tf.nn.softmax(self.logits)def _depthwise_separable_conv2d(self, inputs, num_filters, width_multiplier,scope, downsample=False):"""depthwise separable convolution 2D function"""num_filters = round(num_filters * width_multiplier)strides = 2 if downsample else 1with tf.variable_scope(scope):# depthwise conv2ddw_conv = depthwise_conv2d(inputs, "depthwise_conv", strides=strides)# batchnormbn = bacthnorm(dw_conv, "dw_bn", is_training=self.is_training)# relurelu = tf.nn.relu(bn)# pointwise conv2d (1x1)pw_conv = conv2d(relu, "pointwise_conv", num_filters)# bnbn = bacthnorm(pw_conv, "pw_bn", is_training=self.is_training)return tf.nn.relu(bn)

总结

本文简单介绍了Google提出的移动端模型MobileNet,其核心是采用了可分解的depthwise separable convolution,其不仅可以降低模型计算复杂度,而且可以大大降低模型大小。在真实的移动端应用场景,像MobileNet这样类似的网络将是持续研究的重点。后面我们会介绍其他的移动端CNN模型。

参考资料
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Application

【转】【深度学习MobileNet】——深刻解读MobileNet网络结构相关推荐

  1. 深度学习中的经典基础网络结构(backbone)总结

    深度学习中的经典基础网络结构总结 这篇文章从大的发展趋势介绍了下主干网络的发展,而在 CV 经典主干网络 (Backbone) 系列: 开篇 中主要是对一些比较经典的主干网络进行简单梳理. 1. 深度 ...

  2. 深度学习系列9:基础网络结构(更新中)

    1. 基本卷积 卷积可以看作对某个局部的加权求和:它是对应局部感知,它的原理是在观察某个物体时我们既不能观察每个像素也不能一次观察整体,而是先从局部开始认识,这就对应了卷积.CNN使用卷积方法能够获取 ...

  3. 【深度学习】万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布...

      新智元报道   编辑:LRS 好困 [新智元导读]「人脸复原」技术首篇综述! 近年来,随着深度学习的发展和大规模数据集的出现,深度学习在很多领域也取得了进展,但其中「人脸复原」(Face Rest ...

  4. 医学图像配准中的深度学习综述论文解读

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源:https://zhuanlan.zhihu.com/p/9 ...

  5. 深度学习(7): 卷积神经网络2——网络结构

    文章目录 1 卷积神经网络的结构 1.1 输入层 1.2 卷积层 1.3 Pooling层 1.4 全连接层 1.5 输出层 2 卷积操作 2.1 Padding操作 2.2 滑动窗口卷积操作 2.3 ...

  6. 【深度学习】经典卷积神经网络结构说明

    前言   20世纪 90年代,LeCun et al.等人发表一篇关于手写数字识别的论文 [论文PDF下载],论文中使用的网络结果如下: 此网络结构认为是卷积神经网络的开山鼻祖,也确立了CNN的现代结 ...

  7. 【AI易操作-深度学习算法代码解读】基于keras实现图像识别CNN模型-含CNN卷积神经网络模型原理

    图像识别为什么要用卷积神经网络CNN?比传统神经网络好在哪里? 核心差别点:多了卷积层+池化层,所以本文主要是梳理卷积层和池化层设计原理+CNN模型实现(基于Keras代码) 传统神经网络的劣势 我们 ...

  8. 深度学习网络结构大全

    1 Lenet 7层:卷积+下采样+卷积+下采样+全连接+全连接+全连接 可以很好的进行数字识别 第一次运用卷积神经网络 参考:(39条消息) 详解深度学习之经典网络架构(一):LeNet_cheny ...

  9. 【学员分享】深度学习计算机视觉,两个星期从入门到上线

    Hello,everyone!今天给大家讲述一个深度学习项目. 在讲这个项目之前,很多业外人士可能不明白人工智能(AI),机器学习(ML),深度学习(DL),这三者是什么关系.先科普一下小常识,它们三 ...

  10. 因特理臻深度学习系统培训教程

    因特理臻深度学习系统培训教程 系统一词来源于英文system的音译,即若干部分相互联系.相互作用,形成的具有某些功能的整体.因特理臻深度学习课程构成一个整体. 课程模块设计承前启后,环环相扣,以神经网 ...

最新文章

  1. Android组件化专题 - 路由框架原理
  2. Python3-笔记-E-006-库-路径os.path
  3. 新手指南:我应该学哪种编程语言?
  4. 给程序猿简历的一些建议
  5. linux 添加新的系统调用,如何在Linux中添加新的系统调用
  6. 花瓣网爬虫Python
  7. EN 1650化学消毒剂和防腐剂检测
  8. 玻尔原子模型中各轨道半径、轨道能量公式推导
  9. tolua unity 报错_Unity手游开发札记——ToLua#集成内存泄露检查和性能检测工具
  10. NoteExpress样式制作手册
  11. 14个最常用的app测试工具推荐,拿走不谢!
  12. 回顾马云屌丝岁月的惨状:多次被拒失声痛哭
  13. 网络游戏数据同步的实现 一:状态同步、帧同步的基本原理概述
  14. 2023年电工杯B题详解
  15. 《你拥有的最宝贵的财富是什么》作业
  16. tools、site
  17. 数独(日语:数独/すうどく sūdoku)
  18. QT for symbian 开发环境安装
  19. reStructuredText语法规则(官方的)
  20. html设置ios状态栏颜色,iOS 修改状态栏颜色

热门文章

  1. mssql数据库单表导入、导出
  2. How to disable cursor positioning and text selection in an EditText? (Android)
  3. [2018.07.17 T1] 字符串最大值
  4. bootstrap创建响应式网站
  5. 不同平台安装python的方式一样吗_Python软件的正确安装方式
  6. 高德地图车机版缩放版_高德地图车机版2020
  7. string对象的创建、截取和拼接_java基础面试题-String深入理解
  8. 苹果系统tft选哪个服务器不卡,TFT是什么
  9. 可管理多台远程mysql服务器的phpmyadmin_修改phpMyAdmin使其能够管理多台远程MySQL服务器...
  10. latex数学符号加粗_latex的安装与数学公式的书写