论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning
目录
- 总结
- 要解决的问题&解决的情况
- 问题
- 方法的优缺点
- 优点
- 缺点
- 实验结果如何
- 有哪些可以提升
- 正文
- 概要
- 先验知识
- 流型动态剪枝-Maniprune
- 复杂性
- 相似性
总结
关于本篇文所解决问题的总结写在前面,方便一些朋友阅读,也方便自己从具体的方法中跳脱出来,高屋建瓴、理清思路。
要解决的问题&解决的情况
问题
主要是:
- static prune达不到高的剪枝率,文章这是因为他们没有充分发掘输入中的信息;
方法的优缺点
直觉上,这个基于交叉熵的复杂度评估必须要等到接近收敛才能有比较好的近似,否则一开始,所有实例都拟合得不好,得到的复杂度信息肯定是没有实用价值的。
优点
- 开始我认为方法上存疑的一点是:有没有考虑过同一个mini-batch的不同实例对子网络的影响会相互抵消。思考后顿悟,哦,这是动态剪枝,所有的参数都会保留,对每一个实例保留显著性向量也就是相当于对每一个实例都生成了一个子网络,这是很高明的集成学习啊,与Dropout有异曲同工之妙,然而又更有输入针对性;
缺点
- 引入 λ ′ \lambda^{'} λ′和 C C C两个超参数;
实验结果如何
有哪些可以提升
正文
概要
本文从复杂性和相似性发掘了样本空间的流型信息,并使用了一个自适应的惩罚来使得的样本复杂度和网络复杂度相匹配。
本文首先引入了一种判断输入图像复杂度并且适宜地调整filters稀疏的惩罚程度的机制,其次,在剪枝结果中保存了样本间的相似性。
本文实现的结果是:ResNet-34在ImageNet上实现了55.3%的FLOPs减少,代价是0.57%的top-1 accu损失。
本文所谓的为不同的输入实例生成不同的子网络,具体是指什么?难道对1000个类,能够自动生成1000种网络结构?
不同实例对子网络自动调节的图示如上。
先验知识
filter稀疏的优化形式:
其中,
常用挤压激活模块作为 G l \mathcal{G}^{l} Gl来根据上一层的输出 F l − 1 ( x i ) F^{l-1}(x_{i}) Fl−1(xi)判断channels显著性,通式即:
π l ( x i , W ) = G l ( F l − 1 ( x i ) ) ∈ R c l \pi^{l}(x_{i}, \mathcal{W})=\mathcal{G^{l}}(F^{l-1}(x_{i})) \in \mathbb{R}^{c^{l}} πl(xi,W)=Gl(Fl−1(xi))∈Rcl
采用显著性度量 π l \pi^{l} πl后的优化目标如下:
流型动态剪枝-Maniprune
复杂性
对于输入图像,高的交叉熵损失暗示着当前实例拟合的不好,因此说明其complexity更高,需要一个特征表示能力更加强大的网络来提取其特征。
感觉这段稍有一点扯淡,loss高只代表目前权重所处的位置不好,不能完全归咎于任务本身的复杂程度吧
对于网络, π l ( x i ) \pi^{l}(x_{i}) πl(xi)的稀疏性即可代表网络的复杂程度,越稀疏则网络越简单。
结合以上两者,本文的思想是,对于well fitted的实例,应当基于很大压力使网络稀疏;反之极端情况,对于那些非常unfitted的实例,就不要给稀疏惩罚。
这由一个可学习的二进制变量来表示:
那么这个复杂度匹配的优化问题可以表述如下:
这是一个min-max问题,其中C是交叉熵损失的一个阈值,对大于这个阈值的所有实例不需要施加稀疏约束。
分析易得 β \beta β(受约束于01二值)有闭式解:
此处的思想值得借鉴:拟合的不好的实例,就是因为当前拟合得不好,所以本例就不该给参数施加惩罚,否则将更难拟合此类实例。这构成一种天然的负反馈机制,如下:
相似性
一个重要的假设是:
假设采用经典的余弦相似性(其实就是两向量夹角的推广),两实例的对不同channels的显著向量 π l \pi^{l} πl相似程度可以表述如下:
(第l层)输入特征本身的相似度可以表述如下:
而相似性学习的目标即减小两者的差异,即:特征上越相似的实例,我们使之的显著性向量也趋于相似。下式dis的一个典型取值是 ∣ ∣ T l − R l ∣ ∣ F ||T^{l}-R^{l}||^{F} ∣∣Tl−Rl∣∣F,F是Frobenius范数。
综合以上两个指标,优化目标如下:
论文笔记-精读-8.22-Manifold Regularized Dynamic Network Pruning相关推荐
- 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting
0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...
- 论文笔记-精读-8.24-Pruning neural networks without any data by iteratively conserving synaptic flow
原文:https://arxiv.org/pdf/2006.05467v1.pdf 代码:https://github.com/ganguli-lab/Synaptic-Flow 文章目录 总结 解决 ...
- 【论文笔记_知识蒸馏_2022】Dynamic Rectification Knowledge Distillation
摘要 知识蒸馏是一种技术,其目的是利用dark知识压缩信息,并将信息从一个庞大.训练有素的神经网络(教师模型)传输到一个较小.能力较差的神经网络(学生模型),从而提高推理效率.由于在边缘计算设备上部署 ...
- 【基础论文笔记二】Transfer Learning with Dynamic AdversarialAdaptation Network(2019 ICDM)动态对抗适应网络的迁移学习论文笔记
背景 现有的对抗性领域自适应方法要么学习单个领域鉴别器来对齐全局源和目标分布,要么关注基于多个鉴别器的子域对齐.然而,在实际应用中,域之间的边际(全局)分布和条件(局部)分布对适应的贡献往往不同.在本 ...
- 论文笔记(SocialGCN: An Efficient Graph Convolutional Network based Model for Social Recommendation)
一个有效的基于图卷积神经网络的社交推荐模型 原文链接:SocialGCN: An Efficient Graph Convolutional Network based Model for Socia ...
- 论文笔记-Suppress and Balance: A Simple Gated Network for Salient Object Detection
Hello, 今天是论文阅读计划的第19天啦- 也是我在这30天中要介绍的最后一篇目标检测的论文啦 一.背景 最显著的目标检测方法使用的基本结构是三角网或特征金字塔网络(FPN).这些方法忽略了编码器 ...
- 论文笔记 NLPCC 2016|A Convolution BiLSTM Neural Network Model for Chinese Event Extraction
文章目录 1 简介 1.1 动机 1.2 创新 2 背景知识 3 方法 3.1 触发词标记 3.1.1 单词级别模型 3.1.2 字符级别模型 3.2 论元标记 4 实验 4.1 触发词标记 4.2 ...
- 论文笔记01——PoseCNN:A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes
参考链接: https://blog.csdn.net/nwu_NBL/article/details/83176353 论文标题:<PoseCNN:杂乱场景中物体6D姿态估计的卷积神经网络&g ...
- 论文笔记:WWW 2019 Heterogeneous Graph Attention Network
1.前言 论文链接:https://arxiv.org/pdf/1903.07293v1.pdf github:https://github.com/Jhy1993/HAN 图神经网络作为一种基于深度 ...
最新文章
- VC++6 开发MFC扩展DLL以及MFC DLL可以包含界面
- C++/CLI中的资源清理(Destructor,Finalizer)
- ubuntu 设置清华源、阿里云源
- Build String(CF-237E)
- 应用计算机测线性电阻伏安特性曲线,伏安特性曲线
- opencv实战从0到N (14)- 凸包算法 convexity defects
- teleop app android,使用yocs_cmd_vel_mux进行机器人速度控制切换
- 【转载】自然语言处理(NLP)的历史、发展、成果和难题,以及在教育领域的应用情况
- win10同步服务器文件夹在哪,win10系统一键同步win 10文件夹视图的操作方法
- 中国最牛逼的四大软件
- TensorRT加速
- 下班后我都学了什么 | Python 如何高效的遍历DataFrame?
- Ubuntu22.04 中Drag and drop is not supported问题
- 使用必应查询接口开发搜索工具:反查一个IP上的旁站
- 布林通道参数用20还是26_布林通道最佳参数
- H3C WX2510h无线控制器如何网关式部署无线网络
- 为Canon PIXMA iP1000喷墨打印机安装驱动程序
- 电子组装流水线MES系统实行条码质量追溯
- 钛白粉上市公司有哪些?钛白粉十大品牌排行榜
- SpringCloud链路追踪SkyWalking-第一章-介绍
热门文章
- Ngrok的注册使用
- JetBrains的注册
- easyui datagrid-detailview 嵌套高度自适应
- android远程控制win10,微软推出适用于Win10专业版的Android远程控制
- 嵌入式开发练习(十五)PWM、DAC的使用
- NORDIC蓝牙芯片NRF51系列蓝牙4.0NRF51822/51802/51422/51824
- 《王阳明心学营销》营销落地-知行合一
- MySQL中三种表关系的建立
- Bert使用之一_基本使用
- c语言编程gps卫星坐标计算公式,C语言计算GPS卫星位置演示教学.doc