batch norm的作用
论文中将Batch Normalization的作用说得突破天际,好似一下解决了所有问题,下面就来一一列举一下:
(1) 可以使用更高的学习率。如果每层的scale不一致,实际上每层需要的学习率是不一样的,同一层不同维度的scale往往也需要不同大小的学习率,通常需要使用最小的那个学习率才能保证损失函数有效下降,Batch Normalization将每层、每维的scale保持一致,那么我们就可以直接使用较高的学习率进行优化。
(2) 移除或使用较低的dropout。 dropout是常用的防止overfitting的方法,而导致overfit的位置往往在数据边界处,如果初始化权重就已经落在数据内部,overfit现象就可以得到一定的缓解。论文中最后的模型分别使用10%、5%和0%的dropout训练模型,与之前的40%-50%相比,可以大大提高训练速度。
(3) 降低L2权重衰减系数。 还是一样的问题,边界处的局部最优往往有几维的权重(斜率)较大,使用L2衰减可以缓解这一问题,现在用了Batch Normalization,就可以把这个值降低了,论文中降低为原来的5倍。
(4) 取消Local Response Normalization层。 由于使用了一种Normalization,再使用LRN就显得没那么必要了。而且LRN实际上也没那么work。
(5) 减少图像扭曲的使用。 由于现在训练epoch数降低,所以要对输入数据少做一些扭曲,让神经网络多看看真实的数据。
转载自:https://blog.csdn.net/happynear/article/details/44238541
batch norm的作用相关推荐
- 如何快速高效的训练ResNet,各种奇技淫巧(七):batch norm
点击上方"AI公园",关注公众号,选择加"星标"或"置顶" 作者:David Page 编译:ronghuaiyang 导读 这个系列介绍了 ...
- dropout,batch norm 区别 顺序
20210614 https://www.cnblogs.com/hutao722/p/9946047.html 深度学习基础系列(九)| Dropout VS Batch Normalization ...
- 吴恩达深度学习(53)-Batch Norm 为什么奏效?
https://www.toutiao.com/a6640433472697532942/ 2019-01-04 07:35:33 Batch Norm 为什么奏效?(Why does Batch N ...
- 2.3.2 Batch Norm介绍
正则化网络的激活函数 Batch归一化会使你的参数搜索变得很容易,使神经网络对超参数选择变得更加稳定.超参数范围会更庞大,工作效率也会更好.也会让你训练出更为深层次的神经网络.下面我们具体介绍一下Ba ...
- 02.改善深层神经网络:超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架
文章目录 1. 调试处理 2. 为超参数选择合适的范围 3. 超参数调试的实践 4. 归一化网络的激活函数 5. 将 Batch Norm 拟合进神经网络 6. Batch Norm 为什么奏效 7. ...
- Batch Norm
Batch Norm source from: Deep Learning Specialization 效果 normalize inputs to speed up learning mean/v ...
- 一文弄懂Batch Norm / Layer Norm / Instance Norm / Group Norm 归一化方法
文章目录 前因 总览 Batch Normalization Layer Normalization Instance Normalization Group Normalization 总结 参考 ...
- Batch Norm、Layer Norm、Instance Norm、Group Norm、Switchable Norm总结
转自https://blog.csdn.net/qq_41997920/article/details/89945972 目录 1.综述 1. BN 2. LN 3. IN 4. GN 5. SN 2 ...
- 40_pytorch Batch Norm
1.37.Batch Normalization,批规范化 1.37.1.Batch Norm介绍 1.37.2.Intuitive explanation 1.37.3.Intuitive expl ...
最新文章
- Win95架构师发布移动设备富媒体文档创建平台
- Power BI for Office 365(七) Power BI站点
- 【Ovirt 笔记】JBoss modules 配置分析与整理
- CodeForces - 1494E A-Z Graph(构造+思维)
- Java学习之连接数据库
- String实例化两种方式的区别
- 安防监控必备的基础知识
- python实现购物车总结_python3简单购物车实现
- 手机访问www如何自动跳转到m js代码实现
- mysql8.0数据回滚_大企业数据库服务首选!AliSQL这几大企业级功能你不可不知
- 有哨兵的双向循环链表、单向循环链表
- 7-24 求集合数据的均方差 (15 分)
- Bootstrap视频教程百度云盘免费下载地址-CSDN免费下载
- 中文核心期刊是什么?
- 分治法--线性时间选择
- 单循环链表和双向循环链表
- access中本年度的四月一日_Access数据库程序设计上机操作练习试题2.doc
- 手机图形计算器matlab,Mathlab图形计算器
- 莫比乌斯反演入门题目(详细)
- 工业机器人介绍及机器人学概述