编者按:轻量级卷积神经网络能够在较低的计算预算下运行,却也牺牲了模型性能和表达能力。对此,微软 AI 认知服务团队提出了动态卷积,与传统的静态卷积(每层单个卷积核)相比,根据注意力动态叠加多个卷积核不仅显著提升了表达能力,额外的计算成本也很小,因而对高效的 CNN 更加友好,同时可以容易地整合入现有 CNN 架构中。

轻量级卷积神经网络(light-weight convolutional neural network)因其较低的计算预算而限制了 CNN 的深度(卷积层数)和宽度(通道数),不仅导致模型性能下降,表示能力也会受到限制。

为了解决这个问题,微软的研究员们提出了动态卷积,这种新的设计能够在不增加网络深度或宽度的情况下增加模型的表达能力(representation capacity)。动态卷积的基本思路就是根据输入图像,自适应地调整卷积参数。如图1所示,静态卷积用同一个卷积核对所有的输入图像做相同的操作,而动态卷积会对不同的图像(如汽车、马、花)做出调整,用更适合的卷积参数进行处理。简单地来说,卷积核是输入的函数。

图1:静态卷积与动态卷积的比较

动态卷积

动态卷积没有在每层上使用单个卷积核,而是根据注意力动态地聚合多个并行卷积核。注意力会根据输入动态地调整每个卷积核的权重,从而生成自适应的动态卷积。由于注意力是输入的函数,动态卷积不再是一个线性函数。通过注意力以非线性方式叠加卷积核具有更强的表示能力。

动态网络引入了两部分的额外计算:注意力模型和卷积核的叠加。注意力模型计算复杂度很低,由 avg pool 和两层全卷积组成。得益于小的内核尺寸,叠加多个卷积核在计算上也非常高效。因此,动态卷积引入的额外计算是非常少的。少量的额外计算与显著的表达能力的提升使得动态卷积非常适合轻量级的神经网络。

图2:动态卷积加入的额外计算很少,适合轻量级神经网络

动态卷积网络的难点在于多个卷积核和注意力模型的共同学习。这个困难会随着网络深度的增加而增加。本文提出,解决这个问题有两个关键点。首先,限制注意力的取值将简化注意力模型的学习。注意力取值的限制将缩小多个卷积的叠加核的取值空间。文中将注意力取值限制在0与1之间,同时所有注意力的和为1。如图3所示,如果使用3个卷积核,注意力在0与1之间把叠加核限制在两个三棱锥中,注意力的和为1把叠加核进一步限制在以这三个卷积核为顶点的三角形中。对于这两个限制,softmax 是一个很自然的选择。

图3:注意力取值限制在0与1之间,同时所有注意力的和为1

其次,限制注意力接近均匀分布有利于多个卷积核在训练初期同时学习。对于这个要求,softmax 就显得不那么合适了,因为 softmax 输出更稀疏的注意力。因此,温度(temperature)被引入到 softmax。接近均匀分布的注意力可以通过使用较大的温度来实现。文章也提到温度淬火(temperature annealing)有助于准确度的进一步提升。

实验结果

实验结果显示,动态卷积在 ImageNet 分类和 COCO 关键点检测两个视觉任务上均具有显著的提升。例如,通过在 SOTA 架构 Mobilenet 上简单地使用动态卷积,ImageNet 分类的 top-1 准确度提高了 2.3%,而 FLOP 仅增加了 4%,在 COCO 关键点检测上实现了 2.9 的 AP 增益。在关键点检测上,动态卷积在 backbone 和 head 上同样有效。

文章还对学习到的动态卷积进行了检测(inspection)来证实学到的卷积是不是真的动态。通过与多种静态叠加以及注意力的洗牌(shuffle)的对比,证实了注意力确实对不同的输入进行了动态调整。文中的对比试验也有一些有趣的发现,比如动态卷积在网络深层带来的提升明显高于浅层。同时,动态卷积在更浅或者更窄网络的提升更明显。

表1:实验结果

论文链接:https://arxiv.org/abs/1912.03458

你也许还想看

  • 【基础积累】1x1卷积到底有哪些用处?

  • 论文大盘点|卷积神经网络必读的100篇经典论文,包含检测/识别/分类/分割多个领域

  • 干货|最全面的卷积神经网络入门教程

  • 【技术干货】卷积神经网络中十大拍案叫绝的操作

  • CNN卷积神经网络可视化:可交互有细节,卷积ReLU池化都一目了然

欢迎添加群助手微信,邀请您进大佬云集-计算机视觉微信交流群!

???? 长按识别添加,邀请您进群!

CVPR 2020丨动态卷积:自适应调整卷积参数,显著提升模型表达能力相关推荐

  1. 动态卷积:自适应调整卷积参数,显著提升模型表达能力 CVPR 2020

    本文转载自微软研究院AI头条. 编者按:轻量级卷积神经网络能够在较低的计算预算下运行,却也牺牲了模型性能和表达能力.对此,微软 AI 认知服务团队提出了动态卷积,与传统的静态卷积(每层单个卷积核)相比 ...

  2. CVPR 2020丨图像超清化+老照片修复技术,拯救你所有的模糊、破损照片

    编者按:也许你曾从橱柜里翻出家人们压箱底的老照片,而它们已经泛黄发脆,甚至有些褪色:也许你在拍照时不慎手抖,只好把糊成一片的照片都丢进"最近删除".而微软亚洲研究院在计算机视觉顶会 ...

  3. CVPR 2020丨8比特数值也能训练模型?商汤提出训练加速新算法

    本文转自AI科技评论. 本文介绍的是CVPR2020入选论文<Towards Unified INT8 Training for Convolutional Neural Network> ...

  4. CVPR 2020丨基于范例的精细可控图像翻译CoCosNet,一键生成你心目中的图像

    编者按:图像翻译是近年来的研究热点,类比于自然语言翻译,它将输入图像的表达转化为另一种表达,在图像创作.图像风格化.图像修复.域自适应学习等领域有着广泛应用.然而现有技术通常仅能产生合理的目标域图像, ...

  5. CVPR 2020丨基于并行点检测和点匹配的单阶段实时HOI Detection方法

    本文转载自知乎,为商汤科技CVPR 2020最新论文解读. https://zhuanlan.zhihu.com/p/144238209 在CVPR2020上,商汤团队联合北京航空航天大学Colab( ...

  6. 【CVPR 2020】给Deepfake 假脸做 X-Ray,新模型把换脸图打回原形

    本文转载自机器之心(公众号ID:almosthuman2014),未经许可请勿二次转载. 计算机视觉顶会 CVPR 2020 接收结果已公布,6656 篇有效投稿中录取了 1470 篇论文,录取率约为 ...

  7. CVPR 2020丨UDVD:用于可变退化的统一动态卷积超分辨率网络

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文作者:Alan https://zhuanlan.zhihu.c ...

  8. CVPR 2020丨基于点云的3D物体检测新框架

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本文介绍的是CVPR2020入选论文<HVNet: Hybrid Voxel ...

  9. CVPR 2020丨微软亚洲研究院精选论文一览

    编者按:本文汇总了部分微软亚洲研究院CVPR2020精选论文,涵盖姿态估计.动作检测与识别.分割与检测.底层视觉等领域. 01 HigherHRNet: 自下而上姿态估计中的多尺度表征学习 Highe ...

最新文章

  1. springmvc二十三:日期格式化
  2. 我发现了pandas的黄金搭档!
  3. BeetleX进程服务管理组件应用
  4. 间接寻址级别不同_单片机指令系统与寻址方式
  5. Eclipse 常用技巧及常见问题解决
  6. Java面向对象:对象的概念及面向对象的三个基本特征
  7. 商业智能bi能带来什么价值
  8. Cookie 版购物车
  9. 使用PS将图片自然从清晰到模糊过渡
  10. IDEA 不检查语法错误问题
  11. js 中按下键盘事件
  12. facenet无法检测到的三张人脸照片
  13. 微信入口绑定,微信事件处理,微信API全部操作
  14. web浏览器中的javascript
  15. bootstrap之入门教程
  16. 需求管理之需求分析的20条法则
  17. 怎样把软件从计算机移到桌面上,怎么把电脑软件移动到D盘
  18. ps入门第16天_ps液化变形_ps瘦身 案例:魔鬼瘦身大法
  19. XE3随笔18:实例 - 解析 Google 关键字搜索排名
  20. 浅谈PPT配色方案的认识与使用

热门文章

  1. Asp.net Web API 返回Json对象的两种方式
  2. Java Swing控件样式设置
  3. 2.软件项目管理软件
  4. Informix执行onmonitor出错的解决办法
  5. [轉]fckeditor添加自定义按钮
  6. 远程开启目标计算机的远程桌面
  7. android 开发框架 怎么使用,Android快速开发框架dyh详解(二)---控件层的使用
  8. 卡尔曼滤波的优点总结
  9. 什么是Bi-GRU语义解析
  10. ValueError: output array is read-only