摘要

  1. 开始时,剪枝作为一种模型压缩的方法被开发出来,后来发现有防止过拟合的作用。
  2. 定义剪枝不稳定(pruning instability):即剪枝后测试精度的下降。

  1. 本文探究剪枝对于模型泛化能力的影响,发现结论1:随着剪枝不稳定(pruning instability)的增加,泛化能力有所提高。 PS:或者说泛化能力与剪枝稳定性呈反比。

  2. 对结论1做出了解释:剪枝相当于向模型注入噪声

    其实剪枝也是模型训练的一种后处理方式,而改善模型训练的方法之一就是增加噪声,只不过以前我们增加噪声是随机增加(其实剪枝算法也有随机的),但如果将剪枝也看做是注入噪声的方式,那么剪枝就是一种准则添加噪声的方法

  3. 更少的剪枝稳定性获得了更为平坦的模型(less pruning stability leads to more model flatness)。(我也许翻译的不对)

Introduction

  1. 模型泛化界:增加参数不会导致模型的过拟合

    其实我感觉如果你用一个resnet110 去训练 cifar10 那么必然过拟合,也不知道他们是什么意思。

  2. 剪枝界: 减少参数可以减少过拟合。那么到底谁说的对?

    这个倒是没有什么根据,完全是人们观察到的现象

  3. 我们提供了这个问题的答案,阐明了一个正则化机制的剪枝分离了其对参数计数的影响。(We provide an answer to this question by illuminating a regularization mechanism in pruning separate from its effect on parameter counts.)

    这句话倒是没有理解,各位大佬帮帮忙

  4. instability 的定义:即剪枝后测试精度的下降。而 stability 则是剪枝界的首要目标,然而我们发现:剪枝的 stability 和模型的泛化性能呈现出负相关。(we find that pruning stability is negatively correlated with the final level of generalization attained by the pruned model.)

    就是说如果我们剪枝的后的高精度和模型的泛化性能无法兼得

  1. 此外,我们发现就算减去最大的权重,导致了测试的精度下降(stability 下降),但模型的泛化性能却没有改变。

    这倒是一个比较好的点,因为一般的剪枝论文都关注精度下降,而没有关注模型的泛化性能。不过他这个泛化性能 是指什么呢?

  2. 得出结论:影响模型泛化性能的不是参数量的减少,而是 stability.

  3. 实验:让被剪的参数,在 finetune 之后回到网络中,泛化性能仍旧存在。所以 结论2 :剪枝提升泛化能力的关键是在于参数的永久性移除

    这个实验令人震惊,但是有点匪夷所思。

  4. Adam 算法比 SGD 算要好一些

The generalization-stability tradeoff in neural network pruning相关推荐

  1. Convolutional Neural Network Pruning with Structural Redundancy Reduction 公式解读

    Convolutional Neural Network Pruning with Structural Redundancy Reduction 公式解读 3, Claim 3.1 引入网络的五种剪 ...

  2. 【CVPR 2021】剪枝篇(二):Convolutional Neural Network Pruning with Structural Redundancy Reduction

    [CVPR 2021]剪枝篇(二):Convolutional Neural Network Pruning with Structural Redundancy Reduction 论文地址: 主要 ...

  3. 深度学习笔记(九):神经网络剪枝(Neural Network Pruning)详细介绍

    文章目录 1:What is pruning 2:Pruning in MLP(多层感知机) 2.2 How to make mask 3.Pruning in CNN(卷积神经网络) 1:What ...

  4. GDP: Network Pruning

    GDP: Stabilized Neural Network Pruning via Gates with Differentiable Polarization https://arxiv.org/ ...

  5. 【综述】闲话模型压缩之网络剪枝(Network Pruning)

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来自 | CSDN 地址 | https://blog.csdn.net/jinz ...

  6. 【论文】模型剪枝(Network Pruning)论文详细翻译

    前言: 这是关于模型剪枝(Network Pruning)的一篇论文,论文题目是:Learning both weights and connections for efficient neural ...

  7. 闲话模型压缩之网络剪枝(Network Pruning)篇

    1. 背景 今天,深度学习已成为机器学习中最主流的分支之一.它的广泛应用不计其数,无需多言.但众所周知深度神经网络(DNN)有个很大的缺点就是计算量太大.这很大程度上阻碍了基于深度学习方法的产品化,尤 ...

  8. keras构建前馈神经网络(feedforward neural network)进行分类模型构建基于早停法(Early stopping)

    keras构建前馈神经网络(feedforward neural network)进行分类模型构建基于早停法(Early stopping) 当我们训练深度学习神经网络的时候通常希望能获得最好的泛化性 ...

  9. 模型量化--TBN:Convolutional Neural Network with Ternary Inputs and Binary Weights

    TBN:Convolutional Neural Network with Ternary Inputs and Binary Weights ECCV_2018 paper TBN 用 高效的 XO ...

最新文章

  1. 【Linux 内核】编译 Linux 内核 ① ( 下载指定版本的 Linux 内核源码 | Linux 内核版本号含义 | 主版本号 | 次版本号 | 小版本号 | 稳定版本 )
  2. jeecms添加站点
  3. OpenStack Trove2
  4. viewgroup的使用方法
  5. 最简单的基于FFmpeg的移动端例子:Android HelloWorld
  6. HDU 1754 I Hate It(线段树版)
  7. DIV+CSS命名规范
  8. Echarts数据可视化
  9. 工作缺点和不足及措施_工作总结中的不足与改进该怎么写?
  10. 央企整体上市进程加快 掘金央企重组股
  11. 关于傅立叶变换的频率分辨率,采样时间,采样率关系
  12. 计算机word基础操作知识
  13. 中医知识分享之《养生十八伤》
  14. 计算机专业英语论文题目,英语毕业论文题目_英语论文题目参考(中英文对照)...
  15. R语言patchwork包将多个可视化结果组合起来、使用plot_annotation函数以及tag_level参数将组合图用大写字母进行顺序编码、为组合图的标签添加自定义前缀信息
  16. 强制用户在下次登录Linux时更改密码
  17. spring cloud eureka无法加载样式wro.css和脚本wro.js
  18. 【ps-course 网页设计】抠图
  19. “有电才‘型’2013主流智能手机耐力挑战赛” 挑战者七:联想P780
  20. 可调电阻的检测方法总结

热门文章

  1. layui下拉多选框xm-select
  2. 安全合规--39--基于欧美法律法规的企业隐私合规体系建设经验总结(三)
  3. iphone 如何运行android,如何在iPhone上运行Android双系统?
  4. FileReader FileInputStream InputStreamReader BufferedReader 作用与区别
  5. 2018中国地理信息产业百强企业公示名单
  6. 认证、授权、鉴权和权限控制
  7. 百度地图多个marker标点+点聚合
  8. 使用新浪微博API的OAuth认证发布微博
  9. 结构 Structure
  10. XV6 Lab7:Locks