作者 | Google

译者 | 刘畅

编辑 | Jane

出品 | AI科技大本营(ID:rgznai100)

【导语】目前,深度卷积(Depthwise convolution)在追求高性能的卷积网络中的应用变得越来越流行,但很多研究忽略了其内核大小的影响。在本文中,作者系统地研究了不同内核大小的影响,并发现将多种内核大小的优势结合在一起可以带来更高的准确性和性能。基于此观察,作者提出了一种新的混合深度卷积(Mixed Depthwise Convolution, MDConv),它自然地在单个卷积中混合了多个内核大小。作为普通深度卷积的一种简单替代,本文的MDConv提升了现有MobileNet在ImageNet图像分类和COCO目标检测方面的准确性和性能。

通过将 MDConv 集成到AutoML搜索空间中,作者进一步开发了一个名为 MixNets 的系列模型,其性能明显优于以前的模型,包括MobileNetV2(ImageNet top-1精度提升为+4.2%),ShuffleNetV2](+3.5%),MnasNet( +1.3%),ProxylessNAS(+ 2.2%)和FBNet(+ 2.0%)。特别是MixNet-L模型在传统的移动端设备条件(<600M FLOPS)下达到了最新的SOTA结果,ImageNet top-1精度为78.9%。

论文地址:

https://arxiv.org/pdf/1907.09595v3.pdf

代码地址:

https://github.com/tensorflow/tpu/tree/master/models/official/mnasnet/mixnet.

引言

卷积神经网络(ConvNets)已广泛用于图像分类,检测,分割和许多其他应用。在卷积网络ConvNets设计上的最新趋势是提高准确性和性能。遵循这种趋势,深度卷积在目前的卷积网络中变得越来越流行,例如MobileNet,ShuffleNet,NASNet,AmoebaNet,MnasNet和EfficientNet。与常规卷积不同,深度卷积内核分别应用于每个单独的通道,因此将计算成本降低了C倍,其中C是通道数。在使用深度卷积内核设计卷积网络时,一个重要但经常被忽略的因素是卷积核大小。尽管常规做法是简单地使用3x3内核,但是最近的研究结果表明,较大的卷积核尺寸(例如5x5卷积核和7x7卷积核)可以提高模型的准确性和效率。

在本文中,作者重新回顾了一个基本问题:更大的卷积核是否总是可以获得更高的精度?自从在AlexNet中首次观察到提升以来,众所周知,每个卷积核都负责捕获局部图像模式,该模式可能是早期阶段的边缘或者后期阶段的目标。大卷积核倾向于以更多的参数和计算为代价来捕获具有更多细节的高分辨率模式,但它们总是会提高准确性吗?

为了回答这个问题,本文系统地研究了基于MobileNets的卷积核大小的影响。图1显示了结果。如预期的那样,更大的卷积核大小会使用更多参数显著增加模型大小;当卷积核大小从3x3上升到7x7时,模型精度也跟着提升,但是当卷积核尺寸大于9x9时,模型精度会迅速下降,这表明较大的卷积核尺寸可能会损害精度和性能。实际上,这种观察结果与卷积网络的第一种直觉相吻合:在极端情况下,卷积核大小等于输入分辨率,卷积网络变成了完全连接的网络,众所周知这是非常差的设计方式。这项研究提出了单个卷积核大小的局限性:我们既需要大卷积核来捕获高分辨率模式,又需要小卷积核来捕获低分辨率模式,以提高模型的准确性和性能。

基于此观察,本文提出了一种混合深度卷积(MDConv),它在单个卷积运算中混合了不同的卷积核大小,因此它可以轻松捕获具有各种分辨率的不同模式。图2显示了MDConv的结构,该结构将通道划分为多个组,并对每个通道组应用不同的卷积核大小。作者展示了MDConv是普通深度卷积的一种替代,但它可以显著提高MobileNets在ImageNet图像分类和COCO目标检测上的准确性和性能。

为了进一步证明本文MDConv的有效性,我们利用神经架构搜索开发了名为MixNets的新模型系列。实验结果表明,我们的MixNet模型大大优于所有以前的移动端卷积网络,例如ShuffleNets,MnasNet,FBNet和ProxylessNAS。特别是,本文的中型模型MixNet-M在ImageNet数据集上 top-1达到了77.0%精度,同时使用的参数比ResNet-152少12倍,FLOPS数少31倍。

方法

MDConv的主要思想是在一个深度卷积运算中混合多个具有不同大小的卷积核,以便可以轻松地从输入图像中捕获不同类型的模式。在本节中,作者将讨论MDConv的特征图(feature map)和MDConv的设计选择。

  • 3.1 MixConv特征图

其中k是卷积核大小,m是通道数乘子系数,公式2表示的是将卷积分组,公式3是最终的输出向量。

图3显示了实现MixConv的tensorflow代码,在某些平台上面,MixConv可以作为单个操作实现,并使用组卷积进行优化。尽管如此,如图所示,MixConv可以看作是普通深度卷积的简单替代。

  • 3.2MixConv设计选择

MixConv是一种灵活的卷积运算,具有多种设计选择。

组大小g:它确定了单个输入张量使用多少种不同类型的卷积核大小。

每组的卷积核大小:从理论上讲,每个组可以具有任意的卷积核大小。但是,如果两个组具有相同的卷积核大小,则将这两个组合并为一个组是等效的,因此本文限制每个组具有不同的卷积核大小。

每组的通道数大小:在本文中,作者主要考虑两种通道数划分方法:(1)等分划分:每个组将具有相同数量的滤波器(2)指数划分:第i个组将占总通道数的2^-i。

扩张卷积:对于大卷积核需要更多的参数和计算,一种替代方法是使用扩张卷积,它可以在不增加额外参数的情况下,增加感受野。但是扩张卷积的精度通常不如大卷积核。

  • 3.3在移动端网络上评估MixConv性能

ImageNet分类性能对比:

COCO检测性能对比:

实验

为了进一步证明MDConv的有效性,作者利用神经结构搜索开发了基于MDConv的新模型家族,即MixNets。

  • 4.1网络结构搜索

本文的神经架构搜索设置与MnasNet, FBNet和ProxylessNAS相似,后者采用MobileNetV2作为baseline网络结构,去搜索最佳的卷积核大小,扩展比,通道大小和其他选择。本文与其不同的是采用了MDConv作为了搜索选项。更具体点,本文有五个不同组大小(Group size)的MDConv候选.

为了简化搜索过程,作者没有在搜索空间中包含指数通道分区(exponential channel partition)或扩张卷积(dilated convolutions),将它们集成到以后的工作中也属于无关痛痒。

与最近的神经架构搜索方法类似,本文直接在ImageNet训练集上进行搜索,然后从搜索结构中选择了一些在ImageNet验证集和迁移学习数据集上性能最高的模型,。

4.2在ImageNet数据集上MixNet的性能

表2显示了MixNets在ImageNet数据集上的性能。在这里,本文从神经架构搜索中获得MixNet-S和M,并使用深度系数1.3放大MixNet-M获得了MixNet-L。所有模型都使用与MnasNet相同的设置进行训练。

总的来说,本文的MixNets明显优于最新的移动端卷积神经网络:与最新手工设计的模型相比,在相同FLOPS数的约束下,本文的MixNets的top-1准确性比MobileNetV2提高了4.2%,比ShuffleNetV2提高了3.5%。与最新的自动化模型相比,在类似的FLOPS约束下,我们的MixNets的准确度明显高于MnasNet(+1.3%),FBNets(+2.0%),ProxylessNAS(+ 2.2%)。特别是,在经典的移动端FLOPS(<600M)设置下,本文的MixNet-L达到了78.9%的top-1精度。与普遍使用的ResNets相比,本文的MixNet-M达到了相同的77%top-1精度,同时使用的参数比ResNet-152少12倍,FLOPS少31倍。

图7可视化了ImageNet的性能,作者观察到,与以前的手工移动卷积网络相比,神经架构搜索的最新进展显著改善了模型性能。但是,通过引入一种新的高效MDConv,本文可以基于相同的神经架构搜索技术进一步提高模型的准确性和性能。

  • 4.3 网络架构

为了理解为什么本文的MixNet能获得更高的准确性和性能,图8展示了表2中的MixNet-S和MixNet-M网络架构。通常,它们都使用各种MDConv,并且整个网络中的卷积核大小不同:在早期阶段为了节省计算成本,小卷积核更常见,而在后期阶段为了获得更高的精度,大卷积核更为常见。作者还观察到,更大的MixNet-M倾向于使用更大的卷积核和更多的层,以追求更高的精度,但需要更多的参数和FLOPS。与采用大卷积核的普通深度卷积会严重降低精度不同,本文的MixNets可以利用9x9和11x11等超大核从输入图像中获得高分辨率的模式,而不会损害模型的准确性和效率。

 总结

在本文中,作者重新审视了卷积核大小对深度卷积的影响,并确定传统的深度卷积会受到单个卷积核大小的限制。为了解决这个问题,作者提出了MDConv,它在单个操作中混合了多个卷积核以利用不同的卷积核大小。作者展示了MDConv是对普通深度卷积的一种简单替代,还提高了MobileNets在图像分类和目标检测任务上的准确性和性能。基于本文提出的MDConv卷积,作者使用神经结构搜索技术进一步开发了一个新的MixNet模型系列。实验结果表明,在ImageNet分类和四个广泛使用的迁移学习数据集上,本文的MixNet比所有最新的移动端卷积网络都有明显更高的准确性和性能。

(*本文为AI科技大本营编译文章,转载请微信联系 1092722531)

精彩公开课

推荐阅读

  • 讯飞轮值总裁胡郁:大数据是人工智能产业落地的必要保障| BDTC 2019

  • 专访ClickHouse创始人:数据库竞争依旧火热,技术整合势在必行

  • 商汤联手华科:提出文字检测模型GNNets,新颖模块可解决几何分布难题

  • 20行代码发一篇NeurIPS:梯度共享已经不安全了

  • 图灵奖得主Bengio:深度学习不会被取代,我想让AI会推理、计划和想象

  • 4大主流CPU处理器技术架构,不知道就out了!

  • 阿里云上万个 Kubernetes 集群大规模管理实践

  • 公司倒闭,39 岁重新找工作,薪资不到 8000,太残酷!

  • HTML + CSS 为何得不到编程界的认可?

  • 你点的每个“在看”,我都认真当成了AI

Google提出移动端新SOTA模型MixNets:用混合深度卷积核提升精度相关推荐

  1. 【NLP】Sentence-T5|谷歌提出文本表示新SOTA

    卷友们好,我是rumor. 又出新SOTA了. 每个新SOTA,都意味着下一位要卷得更辛苦.调得更猛烈一些. 而这个SOTA还出在我一直关注的文本表示赛道. 这次谷歌用了T5,把STS的平均分从82. ...

  2. ICCV 2019 | 旷视研究院提出文字检测新方法:像素聚合网络PAN

    本文介绍ICCV 2019 旷视研究院提出任意形状文字检测模型:像素聚合网络 PAN,它考虑了任意文字识别过程中速度与精度的权衡,在大幅提升识别性能的同时也显著降低了计算量,成为当前该领域最佳方法. ...

  3. 端到端的语音识别模型

    端到端的语音识别模型CTC(李宏毅深度学习HLP课程笔记) 一.CTC 1.模型介绍 CTC可以用于在线流式语音识别,因此encoder部分需要选择uni-directional RNN,模型结构图如 ...

  4. 重磅发布!Google语义分割新数据集来啦!又一个分割SOTA模型

    [导读]自动驾驶里视觉一直为人所诟病,特斯拉就是经常被拉出来批判的典型.谷歌最近开发了一个新模型,效果拔群,已被CVPR2021接收. 对于人来说,看一张平面照片能够想象到重建后的3D场景布局,能够根 ...

  5. 别说了,有画面了!Google文本生成图像取得新SOTA,CVPR2021已接收

    来源:新智元 [导读]从图像到生成文本.从文本生成图像,多模态模型的探索一直未停止.最近Google又出从文本到图像的新模型,75%的人类都说超过了传统的SOTA模型,直呼脑子里有画面了! 文本到图像 ...

  6. 文本生成图像的新SOTA:Google的XMC-GAN

    点击上方"机器学习与生成对抗网络",关注星标 获取有趣.好玩的前沿干货! 来源:新智元 [导读]从图像到生成文本.从文本生成图像,多模态模型的探索一直未停止.最近Google又出从 ...

  7. ECCV 2022 | 浙大快手提出CoText:基于对比学习和多信息表征的端到端视频OCR模型...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文是对快手和浙大联合研 ...

  8. 不用GAN、VAE,谷歌发明视频生成的扩散模型,实现新SOTA

    关注公众号,发现CV技术之美 本文转自机器之心,编辑:杜伟.陈萍. 扩散模型正在不断的「攻城略地」. 扩散模型并不是一个崭新的概念,早在2015年就已经被提出.其核心应用领域包括音频建模.语音合成.时 ...

  9. MURAL:消除预训练模型的语言限制!Google提出跨语言的多模态、多任务检索模型MURAL...

    关注公众号,发现CV技术之美 今日分享论文『MURAL: Multimodal, Multitask Retrieval Across Languages』,由 Google 提出跨语言的多模态.多任 ...

最新文章

  1. 【机器学习】朴素贝叶斯代码练习
  2. 希沃展台如何使用_【海安幼教微家园】玩转希沃白板 点亮精彩课堂 —长江路幼儿园开展希沃一体机操作技能培训...
  3. python selenium post请求_工作随笔——selenium支持post请求,支持自定义header
  4. IDEA引入外部jar包的方法
  5. 数据库流行度5月排行榜:Oracle企稳PostgreSQL飙升
  6. 蒙太奇经典例子_剧本中如何写好蒙太奇?这15个硬核案例告诉你!
  7. SDUT-2054_数据结构实验之链表九:双向链表
  8. Java 中 final 内存语义
  9. 平稳时间序列模型的统计性质
  10. python处理视频图像_图像/视频处理选项
  11. 程序龙的密码(递归算法)
  12. 使用Universal Image Loader- Image can't be decoded
  13. p,np,npc,np难问题,确定图灵机与非确定图灵机
  14. 解决hbase RegionServer频繁宕机的一些办法
  15. 计算机二级中制作流程图的视频教程,流程图怎么做?1分钟教会你流程图制作方法...
  16. 电压比较器采样电路调试
  17. HLS第十五课(clahe)
  18. 网购消费者心理学研究
  19. APM 学习 13 --- ArduPilot 遥控器 RC 发射器和接收器
  20. 金融学习之七——统计检验方法的使用

热门文章

  1. 云端卫士架构师讲DDoS攻击的智能防御之道
  2. 在CSS中定义a:link、a:visited、a:hover、a:active顺序
  3. linux下的oracle10g rman备份
  4. CCNA 第一章 网际互联
  5. two years in cnblogs.com
  6. github 视觉测量_教你如何提高双目立体视觉系统的精度
  7. 团队博客(第四周)-“名字好难想”
  8. node 常用指令 node 扩展链接
  9. 抽象类和接口的联系与区别
  10. PostgreSQL获取年月日