点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

引言:

卷积神经网络(CNN)已经普遍应用在计算机视觉领域,并且已经取得了不错的效果。图1为近几年来CNN在ImageNet竞赛的表现,可以看到为了追求分类准确度,模型深度越来越深,模型复杂度也越来越高,如深度残差网络(ResNet)其层数已经多达152层。

图0 CNN在ImageNet上的表现(来源:CVPR2017)

However,在某些真实的应用场景如移动或者嵌入式设备,如此大而复杂的模型是难以被应用的。

首先是模型过于庞大,面临着内存不足的问题,其次这些场景要求低延迟,或者说响应速度要快,想象一下自动驾驶汽车的行人检测系统如果速度很慢会发生什么可怕的事情。

所以,研究小而高效的CNN模型在这些场景至关重要,至少目前是这样,尽管未来硬件也会越来越快。

目前的研究总结来看分为两个方向:一是对训练好的复杂模型进行压缩得到小模型;二是直接设计小模型并进行训练。不管如何,其目标在保持模型性能(accuracy)的前提下降低模型大小(parameterssize),同时提升模型速度(speed, low latency)。

本文的主角MobileNet属于后者,其是Google最近提出的一种小巧而高效的CNN模型,其在accuracy和latency之间做了折中。

下面对MobileNet做详细的介绍。

Depthwise separable convolution:

MobileNet的基本单元是深度级可分离卷积(depthwise separable convolution---DSC),其实这种结构之前已经被使用在Inception模型中。

深度级可分离卷积其实是一种可分解卷积操作(factorized convolutions),其可以分解为两个更小的操作:

depthwise convolution和pointwise convolution

如图1所示: Depthwise convolution和标准卷积不同,对于标准卷积其卷积核是用在所有的输入通道上(input channels),而depthwise convolution针对每个输入通道采用不同的卷积核,就是说一个卷积核对应一个输入通道,所以说depthwise convolution是depth级别的操作。

而pointwise convolution其实就是普通的卷积,只不过其采用1x1的卷积核。图2中更清晰地展示了两种操作。

对于DSC,其首先是采用depthwise convolution对不同输入通道分别进行卷积,然后采用pointwise convolution将上面的输出再进行结合,这样其实整体效果和一个标准卷积是差不多的,但是会大大减少计算量和模型参数量。

图1 Depthwise separable convolution

图2 Depthwise convolution和pointwiseconvolution

这里简单分析一下depthwise separable convolution在计算量上与标准卷积的差别。

假定输入特征图大小是:D(F)*D(F)*M

而输出特征图大小是:D(F)*D(F)*N

这是假定两者是相同的,M、N 指的是通道数(channels or depth)

这里也假定输入与输出特征图大小(width and height)是一致的

采用的卷积核大小:D(K)*D(K) 尽管是特例,但是不影响下面分析的一般性。

其中D(F)是特征图的width和height,(F下标,微信不能编辑公式,好气哦)

对于标准的卷积,其计算量将是:D(K)、D(K)、M、N、D(F)、D(F)

而对于depthwise convolution其计算量为: D(K)、D(K)、MD(F)、D(F)

对于 pointwise convolution计算量是:M、N、D(F)、D(F)

所以depthwise separable convolution总计算量是:

    D(K)、D(K)、MD(F)、D(F) + M、N、D(F)、D(F)

可以比较depthwise separable convolution和标准卷积如下:

一般情况下比较大,那么如果采用3x3卷积核的话,depthwise separable convolution相较标准卷积可以降低大约9倍的计算量。其实,后面会有对比,参数量也会减少很多。

MobileNet的一般结构:

前面讲述了depthwise separable convolution,这是MobileNet的基本组件,但是在真正应用中会加入batchnorm,并使用ReLU激活函数,所以depthwise separable convolution的基本结构如图3所示。

图3 加入BN和ReLU的depthwiseseparable convolution

表1 MobileNet的网络结构

MobileNet的网络结构如表1所示。

首先是一个3x3的标准卷积,然后后面就是堆积depthwise separable convolution,并且可以看到其中的部分depthwise convolution会通过strides=2进行downsampling。

然后采用average pooling将feature变成1x1,根据预测类别大小加上全连接层,最后是一个softmax层。

如果单独计算depthwise convolution和pointwise convolution,整个网络有28层(这里Avg Pool和Softmax不计算在内)。

我们还可以分析整个网络的参数和计算量分布,如表2所示。可以看到整个计算量基本集中在1x1卷积上。

如果你熟悉卷积底层实现的话,你应该知道卷积一般通过一种im2col方式实现,其需要内存重组,但是当卷积核为1x1时,其实就不需要这种操作了,底层可以有更快的实现。对于参数也主要集中在1x1卷积,除此之外还有就是全连接层占了一部分参数。

表2 MobileNet网络的计算与参数分布

表3 MobileNet与GoogleNet和VGG16性能对比

MobileNet 瘦身:

前面说的MobileNet的基准模型,但是有时候你需要更小的模型,那么就要对MobileNet瘦身了。这里引入了两个超参数:width multiplier和resolution multiplier。第一个参数width multiplier主要是按比例减少通道数,该参数记为,其取值范围为(0,1],那么输入与输出通道数将变成 和,对于depthwiseseparable convolution,其计算量变为:

因为主要计算量在后一项,所以width multiplier可以按照 Alpha^2 比例降低计算量,其是参数量也会下降。

第二个参数resolution multiplier主要是按比例降低特征图的大小,记为 Rho,比如原来输入特征图是224*224,可以减少为192*192,加上resolution multiplier,depthwiseseparable convolution的计算量为:

要说明的是,resolution multiplier仅仅影响计算量,但是不改变参数量。

引入两个参数会给肯定会降低MobileNet的性能,具体实验分析可以见paper,总结来看是在accuracy和computation,以及accuracy和model size之间做折中。

MobileNet 的TensorFlow实现:

TensorFlow的nn库有depthwise convolution算子tf.nn.depthwise_conv2d,所以MobileNet很容易在TensorFlow上实现:

class MobileNet(object):def __init__(self, inputs, num_classes=1000, is_training=True,width_multiplier=1, scope="MobileNet"):"""The implement of MobileNet(ref:https://arxiv.org/abs/1704.04861):param inputs: 4-D Tensor of [batch_size, height, width, channels]:param num_classes: number of classes:param is_training: Boolean, whether or not the model is training:param width_multiplier: float, controls the size of model:param scope: Optional scope for variables"""self.inputs = inputsself.num_classes = num_classesself.is_training = is_trainingself.width_multiplier = width_multiplier# construct modelwith tf.variable_scope(scope):# conv1net = conv2d(inputs, "conv_1", round(32 * width_multiplier), filter_size=3,strides=2)  # ->[N, 112, 112, 32]net = tf.nn.relu(bacthnorm(net, "conv_1/bn", is_training=self.is_training))net = self._depthwise_separable_conv2d(net, 64, self.width_multiplier,"ds_conv_2") # ->[N, 112, 112, 64]net = self._depthwise_separable_conv2d(net, 128, self.width_multiplier,"ds_conv_3", downsample=True) # ->[N, 56, 56, 128]net = self._depthwise_separable_conv2d(net, 128, self.width_multiplier,"ds_conv_4") # ->[N, 56, 56, 128]net = self._depthwise_separable_conv2d(net, 256, self.width_multiplier,"ds_conv_5", downsample=True) # ->[N, 28, 28, 256]net = self._depthwise_separable_conv2d(net, 256, self.width_multiplier,"ds_conv_6") # ->[N, 28, 28, 256]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_7", downsample=True) # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_8") # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_9")  # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_10")  # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_11")  # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 512, self.width_multiplier,"ds_conv_12")  # ->[N, 14, 14, 512]net = self._depthwise_separable_conv2d(net, 1024, self.width_multiplier,"ds_conv_13", downsample=True) # ->[N, 7, 7, 1024]net = self._depthwise_separable_conv2d(net, 1024, self.width_multiplier,"ds_conv_14") # ->[N, 7, 7, 1024]net = avg_pool(net, 7, "avg_pool_15")net = tf.squeeze(net, [1, 2], name="SpatialSqueeze")self.logits = fc(net, self.num_classes, "fc_16")self.predictions = tf.nn.softmax(self.logits)def _depthwise_separable_conv2d(self, inputs, num_filters, width_multiplier,scope, downsample=False):"""depthwise separable convolution 2D function"""num_filters = round(num_filters * width_multiplier)strides = 2 if downsample else 1with tf.variable_scope(scope):# depthwise conv2ddw_conv = depthwise_conv2d(inputs, "depthwise_conv", strides=strides)# batchnormbn = bacthnorm(dw_conv, "dw_bn", is_training=self.is_training)# relurelu = tf.nn.relu(bn)# pointwise conv2d (1x1)pw_conv = conv2d(relu, "pointwise_conv", num_filters)# bnbn = bacthnorm(pw_conv, "pw_bn", is_training=self.is_training)return tf.nn.relu(bn)

完整实现可以参见GitHub(https://github.com/xiaohu2015/DeepLearning_tutorials/)

总结


本文简单介绍了Google提出的移动端模型MobileNet,其核心是采用了可分解的depthwise separable convolution,其不仅可以降低模型计算复杂度,而且可以大大降低模型大小。在真实的移动端应用场景,像MobileNet这样类似的网络将是持续研究的重点。后面我们会介绍其他的移动端CNN模型

参考资料

1. MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications: https://arxiv.org/abs/1704.04861.

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

CNN模型之MobileNet相关推荐

  1. 面向Mobile device的CNN模型手工设计与NAS分析总结,MobileNet V1,V2,V3,Efficient,MNasNet以及Efficient network design

    手工方法和NAS的高效网络模型设计总结与分析 这篇文章主要关注对于移动端,资源受限平台的高效神经网络设计(Manually)和搜索(NAS). ​​​​​​高效的CNN设计不只是用在服务器,云端,资源 ...

  2. 理论与实践中的CNN模型结构,如何引领深度学习热潮

    摘要: 深度学习是指多层神经网络上运用各种机器学习算法解决图像,文本等各种问题的算法集合.卷积神经网络(CNN)是深度学习框架中的一个重要算法,本文介绍了CNN主流模型结构的演进过程,从一切的开始Le ...

  3. 一文总结经典卷积神经网络CNN模型

    一般的DNN直接将全部信息拉成一维进行全连接,会丢失图像的位置等信息. CNN(卷积神经网络)更适合计算机视觉领域.下面总结从1998年至今的优秀CNN模型,包括LeNet.AlexNet.ZFNet ...

  4. 转-CNN模型的压缩与加速算法综述

    本文转自微信公众号:微信AI 原文地址:链接 前言 自从AlexNet一举夺得ILSVRC 2012 ImageNet图像分类竞赛的冠军后,卷积神经网络(CNN)的热潮便席卷了整个计算机视觉领域.CN ...

  5. 一些常见的CNN模型

    最近闲着无聊在家敲了一些基本的CNN模型,这里对网上资料做一个简要的整理总结,供自己学习使用. 一.VGG ​ VGG模型是2014年ILSVRC竞赛的第二名,第一名是GoogLeNet.但是VGG模 ...

  6. 以95%的精度构建CNN模型

    介绍 如果你决心制作一个CNN模型,使其准确性达到95%以上,那么这可能是适合你的博客. 我们将分三部分解决这个问题 迁移学习 数据扩充 处理过拟合和欠拟合问题 迁移学习 迁移学习是通过从已经学习的相 ...

  7. 谷歌大脑用强化学习为移动设备量身定做最好最快的CNN模型

    AI 科技评论按:卷积神经网络(CNN)被广泛用于图像分类.人脸识别.物体检测以及其他许多任务中.然而,为移动设备设计 CNN 模型是一个有挑战性的问题,因为移动模型需要又小又快,同时还要保持足够的准 ...

  8. CNN 模型压缩与加速算法总结

    CNN 模型压缩与加速算法 转载地址:https://blog.csdn.net/QcloudCommunity/article/details/77719498 导语:卷积神经网络日益增长的深度和尺 ...

  9. CNN 模型压缩与加速算法综述

    导语:卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战,CNN模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一.  作者:姜媚 前言 自从AlexNet一举夺得ILS ...

最新文章

  1. Android Studio 中如何引入 layoutlib.jar?
  2. filter过滤后重新添加_每天记一个单词(第3518)filter
  3. 蓝桥杯(java)阶乘计算,输入一个正整数n,输出n!的值。(高精度计算,用到数组)
  4. 官网英文版学习——RabbitMQ学习笔记(二)RabbitMQ安装
  5. Mac OS Virtualbox 倒入 ova 镜像文件
  6. 每日算法(5)——正整数分解质因数
  7. 运算放大器(OPA)超详细参数讲解-运放---以及8个型号的运算放大器分析对比
  8. html5进度条progress使用实例,HTML5中的进度条progress元素详解
  9. My Neighbor Alice新一轮土地销售分析
  10. 右手坐标系下球面参数方程的推导
  11. 电脑计算机打不开显示远程过程,Win10打不开图片提示“远程过程调用失败”的解决方案...
  12. 各大IT公司的起名缘由 [转载]
  13. python开发office插件_看完这篇Python操作PPT总结,从此使用Python玩转Office全家桶就没有压力了!...
  14. django-DIL模板自定义过滤器,自定义标签,自定义包含标签
  15. 计量经济学计算机输出结果,计量经济学作业结果解析A.doc
  16. Vue (一) --- vue.js的快速入门使用
  17. 学html需要有什么软件,网页设计需要学什么 用什么软件
  18. 小学计算机教研组总结,小学信息技术中心教研组工作总结范文
  19. Redisson 使用分布式锁出现 WRONGTYPE Operation against a key holding the wrong kind of value 错误
  20. 从南宋临安城武林夜市到二维码收款,IoT 语音播报音箱的普及

热门文章

  1. 估值被砍700亿美元后,Waymo发重磅公开信:即将推出全自动驾驶打车服务
  2. 360推两款无刘海新机,主打安全和AI,起售价1199
  3. 微信高级研究员解析深度学习在NLP中的发展和应用 | 公开课笔记
  4. 妈呀!GitChat 发布 1.9 版本更新公告,这个红色简直亮瞎了我的眼...
  5. SpringCloud 2020版本教程1:使用nacos作为注册中心和配置中心
  6. 还分不清 Cookie、Session、Token、JWT?
  7. 为什么很多 SpringBoot 开发者放弃了 Tomcat,选择了 Undertow?
  8. 程序员必备网站之一:No Design
  9. 漫话:如何给女朋友解释什么是熔断?
  10. 一个NullPointerException,竟然有这么多花样!