Dynamic Convolution: Attention over Convolution Kernels
摘要
文章提出的动态卷积能够根据输入,动态地集成多个并行的卷积核为一个动态核,可以提升模型表达能力而无需提升网络深度与宽度。通过简单替换成动态卷积,MobileNetV3-small取得了2.3%的性能提升且仅增加了4%的FLOPS,在COCO关键点检测任务中取得了2.9MAP性能提升。
文章地址:Dynamic Convolution: Attention over Convolution Kernels
方法
动态卷积的目标是在在网络性能与计算负载中寻求均衡,主要是通过多卷积核融合提升模型表达能力。所得卷积核与输入相关,即不同数据具有不同的卷积。
对于传统感知器:
y=g(WTx+b)y=g(W^Tx+b)y=g(WTx+b),其中W,b,gW,b,gW,b,g分别表示权值、偏置以及激活函数。
对于文章提出的动态感知器:
其中πk\pi_kπk表示注意力权值。注意力权值并非固定的,而是随输入变化而变化。因而,相比静态卷积,动态卷积具有更强的特征表达能力。
动态感知的结构如图1。
图1
类似于动态感知器,动态卷积同样具有K个核。按照CNN中的经典设计,作者在动态卷积后接BatchNorm与ReLU。动态卷积层结构如图2。
图2
为了解决注意力的稀疏使得仅有部分核得到训练,使训练变得低效的问题,作者提出采用平滑注意力方式促使更多卷积核同时优化:
实验
作者在ImageNet数据集上对所提方法进行了验证。模型包含MobileNetV2/V3,ResNet等。动态卷积中的核数目K设置为4,注意力权值归一化因子为30。可以看到:动态卷积可以使模型得到性能提升,而计算量增加仅为4%。DY-ResNet可以得到2.3%的性能提升,DY-MobileNetV2可以得到2.4%的性能提升,DY-MobileNetV3-small可以得到2.3%的性能提升。
总结
作者提出的动态卷积可以根据输入自适应融合多个卷积核。且比起静态卷积,可以明显的提升模型表达能力与性能,这有助于高效CNN架构设计。该动态卷积具有“即插即用”特性,可以轻易嵌入到现有网络架构中。
Dynamic Convolution: Attention over Convolution Kernels相关推荐
- 【论文笔记】Dynamic Convolution: Attention over Convolution Kernels
Dynamic Convolution: Attention over Convolution Kernels,CVPR2020 论文地址:https://openaccess.thecvf.com/ ...
- 【论文阅读】Dynamic Convolution: Attention over Convolution Kernels(CVPR2020)
论文题目:Dynamic Convolution: Attention over Convolution Kernels(CVPR2020) 论文地址:https://arxiv.org/abs/19 ...
- 代码实现-CVPR2020-Dynamic Convolution: Attention over Convolution Kernels
代码参考链接 链接1 链接2 强调注意看issue部分,动态卷积的参数初始化很重要,Bias初始化的部分有错误.需要根据issue进行修改.self.bias = nn.Parameter(torch ...
- 行人轨迹论文阅读SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Prediction
SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Prediction SSAGCN: ...
- Complex Spectral Mapping With Attention Based Convolution Recurrent Neural Network(省略)---论文翻译
基于注意力的卷积递归神经网络的复杂频谱映射,用于语音增强 Liming Zhou1, Yongyu Gao1,Ziluo Wang1,Jiwei Li1,Wenbin Zhang11CloudWalk ...
- 反卷积(Transposed Convolution, Fractionally Strided Convolution or Deconvolution)
反卷积(Deconvolution)的概念第一次出现是Zeiler在2010年发表的论文Deconvolutional networks中,但是并没有指定反卷积这个名字,反卷积这个术语正式的使用是在其 ...
- casual Convolution 和 dilated Convolution
参考链接:https://www.cnblogs.com/fantastic123/p/9389128.html author:gswycf "An Empirical Evaluation ...
- 输出分组_通过分组卷积的思想,巧妙的代码实现动态卷积(Dynamic Convolution)
论文的题目为<Dynamic Convolution: Attention over Convolution Kernels> paper的地址https://arxiv.org/pdf/ ...
- (二)动态卷积之Dynamic Convolution
代码地址:code 论文题目:Dynamic Convolution: Attention over Convolution Kernels 论文地址:paper 目录 前言 Dynamic Conv ...
最新文章
- 量子计算机物理学,百年的超越:量子物理学与量子计算机
- WINCE6.0+S3C2443的启动过程---eboot3
- C++ Primer 5th笔记(chap 16 模板和泛型编程)转发
- Eclipse.自动提示--编写HTML/CSS/JS/JSP代码时自动提示的解决办法
- vista下安装vs2005
- GDCM:gdcm::Global的测试程序
- Apple watch 开发指南(1) 预览
- 当ABAP遇见普罗米修斯
- 浅谈推荐系统中的图神经网络
- C++中重载、重写(覆盖)和隐藏的区别实例分析
- python-主成分分析-降维-PCA
- linux查看xml文件的配置,Hibernate配置文件hibernate.cfg.xml的详细解释
- 基于mybatis-generator代码生成工具改(链式方法实体版)
- GitH2月份开源项目
- 抽象背景素材|纯粹为了视觉兴趣而存在
- 页面间参数传递---基于Vue的uniapp手机端_前端UI_uview工作笔记005
- Vue2.0史上最全入坑教程(中)—— 脚手架代码详解
- WSL使用史上最详细教程
- 文书录入登记软件的其它模块源码
- 善战者 说——孙子兵法