论文笔记-精读-8.24-Pruning neural networks without any data by iteratively conserving synaptic flow
原文:https://arxiv.org/pdf/2006.05467v1.pdf
代码:https://github.com/ganguli-lab/Synaptic-Flow
文章目录
- 总结
- 解决的问题
- 方法的新颖之处
- 研究范围
- 效果
- 缺点
- 贡献
- 有意思的引文
- 正文
- Layer-collapse: 阻止初始化时就剪枝的关键障碍
- 突触显著性守恒定理
- 基于梯度的得分的一般表达式
- 未完待续
总结
解决的问题
- 现有的gradient-based的剪枝方法在初始化时会遭遇layer-collapse的问题——即导致过早的剪去一整个layer使得网络模型无法训练的现象;
- 彩票假设提出后,对模型到底是否需要pre-trained提出了质疑,很自然有这样一个问题:能不能不训练,甚至不借助于任何数据输入,而直接地detect the wining lottery ticket? 对此目前没有有效的算法;
方法的新颖之处
- 不依赖于训练数据(所以不需要loss,也不需要反向传播)就能够识别wining ticket,效率高。对于别的算法,随着数据集的复杂化,需要1000、2000甚至10000次前馈,而SynFlow只需要100次,与数据集无关;
- 对于确定的网络f(x;θ0)f(x;\theta_{0})f(x;θ0)和给定压缩率 ρ\rhoρ,只需一个额外超参数,即迭代次数n。
研究范围
在VGG, ResNet等模型,对于CIFAR-10/100和Tiny ImageNet等数据集。
效果
99.9%的最大稀疏率 (which means the accuracy drops exactly to zero).
缺点
只提升了剪枝曲线后半段的能力 (大约在压缩率大于10310^{3}103时) ,在前半段精度损失还是比较明显。故此算法之在极限情形下有优秀表现,但实际上,像精度损失超过20%的情形,或许不能够得到很好的实际应用。
贡献
- Maximal Critical Compression的提出,分析了以往工作为什么不能够达到极限剪枝率;
- synaptic saliency概念的归纳;
- SynFlow算法的提出。
有意思的引文
本篇的related works部分比较全面,概括得很有条理,建议研究一下。
引文15, 16, 17-新颖的微架构设计
引文25-https://arxiv.org/pdf/2002.04809v1.pdf
引文29, 30, 31-基于更多复杂变量
正文
Layer-collapse: 阻止初始化时就剪枝的关键障碍
几个定义:
- compression ratio ρ=NoriginalNremainafterpruning\rho=\frac{N_{original}}{N_{remain\text{ }after\text{ }pruning}}ρ=Nremain after pruningNoriginal;
- Max compression ρmax\rho_{max}ρmax: 刚好不引发layer-collapse的最大压缩率,即每层留一个参数(?一个参数怎么前后连接)
- Critical compression ρcr\rho_{cr}ρcr: 对于不同算法的压缩率上界,对任意ρcr\rho_{cr}ρcr都有ρcr≤ρmax\rho_{cr}\le \rho_{max}ρcr≤ρmax。
文章认为有如下公理成立:
文章比较的对象有random scoring, soring based on weight magnitudes, 以及另外两个state-of-the-art的single-shot剪枝方法——SNIP(连接敏感度)和GraSP(梯度信号保留)。这两者都是基于梯度的、at initialization的剪枝方法。
突触显著性守恒定理
随机剪枝以相同的数额修剪每一层,因此小的层先被剪完。所以此算法偏好最小层。
magnitude-based的方法则相反,以不同的比率修剪每一层。当使用某些初始化方法时,此方法偏好最宽层,权值的大小与层宽度W成反比,因此越大的网络越早被全部剪完。
基于梯度的SNIP和GraSP方法同样是变剪枝比,其这种偏好的根源不太清晰。但是事实上,这两种方法都相当偏好修剪最大层,即带有最多的可训练参数的层。
基于此守恒,我们假设一层之内基于梯度的平均评分与layer size成反比关系。
基于梯度的得分的一般表达式
突触依赖性就是一类能用下式概括的度量值:
S(θ)=∂R∂θ⊙θS(\theta)=\frac{\partial R}{\partial \theta} \odot \thetaS(θ)=∂θ∂R⊙θ
当RRR取训练损失LLL的时候,就退化为−∂L∂θ⊙θ-\frac{\partial L}{\partial \theta} \odot \theta−∂θ∂L⊙θ,这在Skeletonization中经常被用到;
这个度量同时与SNIP使用的∣∂L∂θ⊙θ∣|\frac{\partial L}{\partial \theta} \odot \theta|∣∂θ∂L⊙θ∣,GraSP使用的−(H∂L∂θ)⊙θ-(H\frac{\partial L}{\partial \theta}) \odot \theta−(H∂θ∂L)⊙θ,Taylor-FO(需预训练)中使用的(∂L∂θ⊙θ)2(\frac{\partial L}{\partial \theta} \odot \theta)^2(∂θ∂L⊙θ)2都密切相关。而当R=<∂L∂y,y>R=<\frac{\partial L}{\partial y}, y>R=<∂y∂L,y>,度量值就与OBD中使用的diag(H)θ⊙θdiag(H)\theta \odot \thetadiag(H)θ⊙θ高度相关。
未完待续
论文笔记-精读-8.24-Pruning neural networks without any data by iteratively conserving synaptic flow相关推荐
- 论文笔记:GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition
GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition 1.四个问题 要解决什么问题? 3D shape re ...
- 【论文笔记】CIKM2020 Star Graph Neural Networks for Session-based Recommendation
目录 PROBLEM SOLUTION APPROACH Framework Session star graph construction Satellite connections Star co ...
- 论文笔记:Intriguing properties of neural networks
- 论文阅读笔记:Intriguing properties of neural networks
论文阅读笔记:Intriguing properties of neural networks 深度学习对抗样本的开山之作 要点 以往的观点认为深度神经网络的高层特征中每一个分量描述了一种特质,但是这 ...
- 每天一篇论文 323/365 Designing Energy-Efficient Convolutional Neural Networks using Energy-Aware Pruning
每天一篇论文汇总list Designing Energy-Efficient Convolutional Neural Networks using Energy-Aware Pruning 摘要 ...
- cs224w(图机器学习)2021冬季课程学习笔记11 Theory of Graph Neural Networks
诸神缄默不语-个人CSDN博文目录 cs224w(图机器学习)2021冬季课程学习笔记集合 文章目录 1. How Expressive are Graph Neural Networks? 2. D ...
- #论文阅读CTG The Use of Convolutional Neural Networks in Biomedical Data Processing
DOI 10.1007/978-3-319-64265-9_9 所属期刊 ITBAM 2017 论文发表时间 2017年07月26日 记录时间 2023年01月03日 记录人 Troye Jcan T ...
- KDD2018《Adversarial Attacks on Neural Networks for Graph Data》 论文详解
Adversarial Attacks on Neural Networks for Graph Data 论文链接:https://arxiv.org/pdf/1805.07984.pdf evas ...
- [论]【DSTGCN】Dynamic SpatiotemporalGraph Convolutional Neural Networks for Traffic Data Imputation
Dynamic Spatiotemporal Graph Convolutional Neural Networks for Traffic Data Imputation with Complex ...
最新文章
- 资源 | 我们从8800个机器学习开源项目中精选出Top30,推荐给你
- libtorch 权重封装
- JavaScript 读取CSV文件并转为js对象
- 04-正则解析+bs4基础爬虫
- 一篇能加深理解linux 虚拟文件系统的博文
- 程序员的10个快乐瞬间!
- lua loadstring传递参数_lua学习之函数篇
- php times33,PHP Hash算法:Times33算法代码实例
- 网络工程师考试2005年上半年下午试题解析(二)
- 程序包清单签名验证失败_数字世界的手写签名
- 375. 猜数字大小 II leetcode java
- 百度文库的内容怎么复制粘贴下来呢,look
- 强网杯2019线上赛-misc
- 2021届秋招提前批——携程数据分析笔试
- Win10 2004 64位版本 无线网卡AX200刷成Killer AX1650x
- html改变按钮形状6,6个HTML5/CSS3按钮悬停边界旋绕动画
- 台式计算机鼠标,台式电脑鼠标怎么选?
- 03基础自绘-14滑动日期-tumblerdatetime
- My97 DatePicker切换日期类型
- visionpro学习再研究,camera实时观察和调用(四,追着自己跑,megauging继续推进)
热门文章
- 物联网卡空中开卡技术为物联网发展添砖加瓦
- 腾讯企业邮箱登录、网易企业邮箱、TOM企业邮箱,各大企业邮箱如何申请登录?
- 微信聊天消息,好友转账消息的xml数据样本(分3种情况),以及各个字段含义
- 大理石在哪【搜索排序】
- 妙用“Check out”与“Check In”
- 计算机班内排名公式,巧用Excel数组公式统计各班优秀人数EXCEL基本教程 -电脑资料...
- 交叉编译器arm-linux-gcc,aarch64-himix200-linux-gcc命令找不到 not found ,所有原因全方位解析
- 家畜育种学(题库及答案)
- 曲率滤波的理论基础和应用
- LRS+XAPI教育学习记录(安装lrs,以及用xapi传输数据到lrs)