Dynamic Slimmable Network
本文的核心思想就是使用宽度动态可变网络(Dynamic Slimmable Supernet),来实现剪枝,同时解决了传统剪枝方法硬件实际加速效果很低的问题。
这里的宽度选择与传统不同,提出了使用动态宽度门控(Dynamic Slimming Gate)对网络进行瘦身。
核心思想如图,首先训练supernet网络,再训练Gate门控,通过输入来选择不同的宽度,将困难图片送入复杂的网络,将简单的图片送入简单网络进行前向推理。
采用了两阶段的训练策略:
第一阶段,禁用gate,训练超网络。
第二阶段,固定超级网的权重并用SGS技术训练动态门控。
第一阶段:
作者首先分析了以往的slimmable network中的in-place distillation方法。最宽的子网络学习真实标签同时生成软标签,并将生成的软标签作用到其他子网络。但in-place distillation中最宽子网络的权值出现剧烈波动会造成收敛困难,特别是在训练早期。因此作者提出了新的训练方式 In-place Ensemble Bootstrapping (IEB)。
首先,使用超网络的滑动平均(EMA)网络来生成训练子网络的软标签,因为EMA网络提供的目标更加稳定和精准。
IBE将网络分为两种在线网络(online network)和目标网络(target network)。作者使用 exponential moving average (EMA)模型作为目标网络。让 θ和θ‘ 分别代表在线网络和目标网络的参数。则目标网络更新方式如下
在论文中,网络主要有三种网络,最宽网络,最窄网络,和中间随机网络。使用了知识蒸馏的思想,对于最宽的网络,直接去学习标签y,并提供软标签,而对于中间的随机网络,去学习最宽的目标网络,让最窄的在线网络预测目标网络中所有子网的概率。即
损失函数为:
第二阶段:
Dynamic Slimming Gate
作者设计了双头(double headed)动态宽度门控的结构,并提出gate的训练策略sandwich gate sparsification(SGS)。
对于Slimming Head来说,首先通过池化将每张特征图映射为点向量,再通过FC,relu,FC,最后求argmax,得到one-hot向量。
同时,我们可以看到,这实际上就是一个求解通道注意力的过程,所以我们可以以非常低的成本将通道注意力加上。
这时,我们可以注意到,argmax函数其实是不可导的,之前使用argmax作为网络中间层的工作一般使用gumbel-softmax作为替代,来近似求导,以便梯度回传。但是,本文作者发现采用这个方法进行gate训练时,很容易使其gate坍塌成静态。
在这里,作者提出了一个叫Sandwich Gate Sparsification训练策略。首先,每个输入样本都按"是否能被最窄网络正确预测"分为容易和困难两类。然后,将两类难易样本打上one-hot标签,使用交叉熵直接优化gate。这种训练方式避免了间接和近似的梯度回传,克服了gate收敛困难的问题,并提高了gate的动态多样性。
如有错误,欢迎各位批评指正!
Dynamic Slimmable Network相关推荐
- ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做DSiam.作者提出一个Dynamic Siamese Network,可以使用一个transformation learning model来在线学习目标的外观 ...
- 多大分辨率图像做分类更适合?浙大华为国科大等提出Dynamic Resolution Network,降低计算量还提性能!...
关注公众号,发现CV技术之美 ▊ 写在前面 为了获得更高的精度,深卷积神经网络(CNN)通常具有复杂的设计,具有许多卷积层和可学习的参数.为了减轻在移动设备上部署网络的成本,最近的工作开始研究在预定义 ...
- LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记)
LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记) 环形扫描骨干网络.动态漂移.一致性驱动的融合 一.重点内容 ...
- 论文阅读--Adapted Dynamic Memory Network for Emotion Recognition in Conversation
Adapted Dynamic Memory Network for Emotion Recognition in Conversation Xing S , Mai S , Hu H . Adapt ...
- Dynamic Selective Network for RGB-D Salient Object Detection
Dynamic Selective Network for RGB-D Salient Object Detection 用于 RGB-D 显着目标检测的动态选择网络 IEEE TRANSACTION ...
- Dynamic Resolution Network
Abstract 由于准确性的原因,深度卷积神经网络(CNN)通常具有复杂的设计,有许多可学习的参数.为了减轻在移动设备上部署它们的昂贵成本,最近的工作为挖掘预先定义的架构中的冗余做了巨大的努力.然而 ...
- Dynamic Refinement Network for Oriented and Densely Packed Object Detection
摘要 在过去的十年中,目标检测取得了显著的进展.然而,由于以下内在原因,定向和高密度物体的检测仍然具有挑战性: (1)神经元的感受都是轴向对齐的,形状相同,而物体通常是不同的形状,沿着不同的方向排列 ...
- Learning Dynamic Siamese Network for Visual Object Tracking全文翻译
摘要 如何有效地学习目标外观的时间变化,排除杂乱背景的干扰,同时保持实时响应,是视觉目标跟踪的一个重要问题.最近,Siamese 网络显示出基于匹配的跟踪器在实现平衡精度和超越实时速度方面的巨大潜 ...
- 【基础论文笔记二】Transfer Learning with Dynamic AdversarialAdaptation Network(2019 ICDM)动态对抗适应网络的迁移学习论文笔记
背景 现有的对抗性领域自适应方法要么学习单个领域鉴别器来对齐全局源和目标分布,要么关注基于多个鉴别器的子域对齐.然而,在实际应用中,域之间的边际(全局)分布和条件(局部)分布对适应的贡献往往不同.在本 ...
最新文章
- HashSet 详解
- 智慧树python答案内蒙古科技大学_2020年_知到_打开企业形象设计之门(内蒙古科技大学)_答案护理人文修养_智慧树_期末答案...
- Apache Camel 2.21发布–新增功能
- VS2015+cmake3.8+opencv3.2+opencv-contrib3.2编译及配置步骤
- 深掘工业互联网大数据五大维度
- 安装CentOS时提示an error has occurred - no valid devices were fo
- javascript 函数的变量与作用域
- 论网络工程中,系统开发设计可行性研究及市面产品对比!
- 最棒的java代码生成器
- IP地址转换与域名解析
- java 错误声音播放器_JavaME 声音播放器的使用
- 抑郁症,莫要讳疾忌医。
- 基于STM32的有限词条语音识别与对话模块
- kafka:工具:kafkaTool 使用方法
- 09-slash_backslash
- Python调用电脑麦克风录音
- 一个程序员wower的青春记录
- teradata 查看 表定义_Teradata表类型
- 优思学院:质量管理七大手法,就是六西格玛的起点
- JavaScript:实现计算两个日期之间的天数算法(附完整源码)