The generalization-stability tradeoff in neural network pruning
摘要
- 开始时,剪枝作为一种模型压缩的方法被开发出来,后来发现有防止过拟合的作用。
- 定义剪枝不稳定(pruning instability):即剪枝后测试精度的下降。
本文探究剪枝对于模型泛化能力的影响,发现结论1:随着剪枝不稳定(pruning instability)的增加,泛化能力有所提高。 PS:或者说泛化能力与剪枝稳定性呈反比。
对结论1做出了解释:剪枝相当于向模型注入噪声 。
其实剪枝也是模型训练的一种后处理方式,而改善模型训练的方法之一就是增加噪声,只不过以前我们增加噪声是随机增加(其实剪枝算法也有随机的),但如果将剪枝也看做是注入噪声的方式,那么剪枝就是一种准则添加噪声的方法
更少的剪枝稳定性获得了更为平坦的模型(less pruning stability leads to more model flatness)。(我也许翻译的不对)
Introduction
模型泛化界:增加参数不会导致模型的过拟合
其实我感觉如果你用一个resnet110 去训练 cifar10 那么必然过拟合,也不知道他们是什么意思。
剪枝界: 减少参数可以减少过拟合。那么到底谁说的对?
这个倒是没有什么根据,完全是人们观察到的现象
我们提供了这个问题的答案,阐明了一个正则化机制的剪枝分离了其对参数计数的影响。(We provide an answer to this question by illuminating a regularization mechanism in pruning separate from its effect on parameter counts.)
这句话倒是没有理解,各位大佬帮帮忙
instability 的定义:即剪枝后测试精度的下降。而 stability 则是剪枝界的首要目标,然而我们发现:剪枝的 stability 和模型的泛化性能呈现出负相关。(we find that pruning stability is negatively correlated with the final level of generalization attained by the pruned model.)
就是说如果我们剪枝的后的高精度和模型的泛化性能无法兼得
此外,我们发现就算减去最大的权重,导致了测试的精度下降(stability 下降),但模型的泛化性能却没有改变。
这倒是一个比较好的点,因为一般的剪枝论文都关注精度下降,而没有关注模型的泛化性能。不过他这个泛化性能 是指什么呢?
得出结论:影响模型泛化性能的不是参数量的减少,而是 stability.
实验:让被剪的参数,在 finetune 之后回到网络中,泛化性能仍旧存在。所以 结论2 :剪枝提升泛化能力的关键是在于参数的永久性移除
这个实验令人震惊,但是有点匪夷所思。
Adam 算法比 SGD 算要好一些
The generalization-stability tradeoff in neural network pruning相关推荐
- Convolutional Neural Network Pruning with Structural Redundancy Reduction 公式解读
Convolutional Neural Network Pruning with Structural Redundancy Reduction 公式解读 3, Claim 3.1 引入网络的五种剪 ...
- 【CVPR 2021】剪枝篇(二):Convolutional Neural Network Pruning with Structural Redundancy Reduction
[CVPR 2021]剪枝篇(二):Convolutional Neural Network Pruning with Structural Redundancy Reduction 论文地址: 主要 ...
- 深度学习笔记(九):神经网络剪枝(Neural Network Pruning)详细介绍
文章目录 1:What is pruning 2:Pruning in MLP(多层感知机) 2.2 How to make mask 3.Pruning in CNN(卷积神经网络) 1:What ...
- GDP: Network Pruning
GDP: Stabilized Neural Network Pruning via Gates with Differentiable Polarization https://arxiv.org/ ...
- 【综述】闲话模型压缩之网络剪枝(Network Pruning)
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来自 | CSDN 地址 | https://blog.csdn.net/jinz ...
- 【论文】模型剪枝(Network Pruning)论文详细翻译
前言: 这是关于模型剪枝(Network Pruning)的一篇论文,论文题目是:Learning both weights and connections for efficient neural ...
- 闲话模型压缩之网络剪枝(Network Pruning)篇
1. 背景 今天,深度学习已成为机器学习中最主流的分支之一.它的广泛应用不计其数,无需多言.但众所周知深度神经网络(DNN)有个很大的缺点就是计算量太大.这很大程度上阻碍了基于深度学习方法的产品化,尤 ...
- keras构建前馈神经网络(feedforward neural network)进行分类模型构建基于早停法(Early stopping)
keras构建前馈神经网络(feedforward neural network)进行分类模型构建基于早停法(Early stopping) 当我们训练深度学习神经网络的时候通常希望能获得最好的泛化性 ...
- 模型量化--TBN:Convolutional Neural Network with Ternary Inputs and Binary Weights
TBN:Convolutional Neural Network with Ternary Inputs and Binary Weights ECCV_2018 paper TBN 用 高效的 XO ...
最新文章
- 【Linux 内核】编译 Linux 内核 ① ( 下载指定版本的 Linux 内核源码 | Linux 内核版本号含义 | 主版本号 | 次版本号 | 小版本号 | 稳定版本 )
- jeecms添加站点
- OpenStack Trove2
- viewgroup的使用方法
- 最简单的基于FFmpeg的移动端例子:Android HelloWorld
- HDU 1754 I Hate It(线段树版)
- DIV+CSS命名规范
- Echarts数据可视化
- 工作缺点和不足及措施_工作总结中的不足与改进该怎么写?
- 央企整体上市进程加快 掘金央企重组股
- 关于傅立叶变换的频率分辨率,采样时间,采样率关系
- 计算机word基础操作知识
- 中医知识分享之《养生十八伤》
- 计算机专业英语论文题目,英语毕业论文题目_英语论文题目参考(中英文对照)...
- R语言patchwork包将多个可视化结果组合起来、使用plot_annotation函数以及tag_level参数将组合图用大写字母进行顺序编码、为组合图的标签添加自定义前缀信息
- 强制用户在下次登录Linux时更改密码
- spring cloud eureka无法加载样式wro.css和脚本wro.js
- 【ps-course 网页设计】抠图
- “有电才‘型’2013主流智能手机耐力挑战赛” 挑战者七:联想P780
- 可调电阻的检测方法总结