Batch Normalization 的意义

这是一个非常好的问题,因为它涵盖了候选人在使用神经网络模型时需要知道的大部分知识。你可以用不同的方式回答,但需要阐明以下主要观点:

  • Batch Normalization 是训练神经网络模型的一种有效方法。该方法的目标是将特征(每层激活后的输出)归一化为均值为 0,标准差为 1。所以问题在于非零的均值是如何影响模型训练的:

  • 首先,可以理解为非零均值是指数据不围绕 0 值分布,但数据中大多数值大于零或小于零。结合高方差问题,数据变得非常大或非常小。这个问题在训练层数很多的神经网络时很常见。特征没有在稳定区间内分布(由小到大),这将影响网络的优化过程。众所周知,优化神经网络需要使用导数计算。假设一个简单的层计算公式是 y = (Wx + b), y 对 w 的导数是:dy = dWx。因此,x 的取值直接影响导数的取值(当然,神经网络模型中梯度的概念并不是那么简单,但从理论上讲,x 会影响导数)。因此,如果 x 带来不稳定的变化,其导数可能太大,也可能太小,导致学习模型不稳定。这也意味着当使用 Batch Normalization 时我们可以在训练中使用更高的学习率。

  • Batch Normalization 可以避免 x 值经过非线性激活函数后趋于饱和的现象。因此,它确保激活值不会过高或过低。这有助于权重的学习,当不使用时有些权重可能永远无法进行学习,而用了之后,基本上都可以学习到。这有助于我们减少对参数初始值的依赖。

  • Batch Normalization 也是一种正则化形式,有助于最小化过拟合。使用 Batch Normalization,我们不需要使用太多的 dropput,这是有意义的,因为我们不需要担心丢失太多的信息,当我们实际使用的时候,仍然建议结合使用这两种技术。

Batch Normalization的意义相关推荐

  1. batch normalization

    20210702 深度学习中的五种归一化(BN.LN.IN.GN和SN)方法简介 https://blog.csdn.net/u013289254/article/details/99690730 h ...

  2. Batch Normalization的诅咒

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:Sahil Uppal 编译:ronghuaiyang 导读 ...

  3. Batch Normalization——加速深度神经网络收敛利器

    https://www.toutiao.com/a6703399604613808648/ Batch Normalization Batch Normalization 提出自<Batch N ...

  4. 【深度学习】深入理解Batch Normalization批标准化

    这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出. Batch Normaliz ...

  5. 论文阅读|How Does Batch Normalization Help Optimization

    欢迎直接到我的博客查看最近文章:www.pkudodo.com.更新会比较快,评论回复我也能比较快看见,排版也会更好一点. 原始blog链接:  http://www.pkudodo.com/2019 ...

  6. Batch Normalization导读

    转载自: http://blog.csdn.net/malefactor/article/details/51476961#0-tsina-1-62851-397232819ff9a47a7b7e80 ...

  7. Batch Normalization 学习笔记

    转载自:http://blog.csdn.net/hjimce/article/details/50866313 可参阅:知乎http://www.zhihu.com/question/3810276 ...

  8. 白话详细解读(七)----- Batch Normalization

    转载:https://www.cnblogs.com/guoyaohua/p/8724433.html Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要 ...

  9. 【深度学习笔记】Batch Normalization 以及其如何解决梯度消失问题

    前言 Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性.目前几乎已经成为DL的标配了,任何有志于学习DL的同学们朋友们雷迪斯俺的詹特曼们都应该好好学一 ...

最新文章

  1. 数据分析工具Pandas(7):数据清洗、合并、转化和重构
  2. java专业编码_java编码中的坑(记一次解决编码BUG的经历) - 贪吃蛇学院-专业IT技术平台...
  3. 编程语言python特点-Python程序特点
  4. Silverlight和WCF交互式的实战项目(更新完毕)
  5. Kafka笔记:kafka原理简介以及架构
  6. CSS3 选择器——属性选择器
  7. 职场上个人的核心技术_职场上的情绪管理
  8. Qt工作笔记-QDialog模式对话框传递数据给主窗口
  9. C++/OpenGL:图像指针操作
  10. prthon序列、映射
  11. 3 条掏心掏肺的建议,新手学习编程必备,快上车!
  12. mysql 判断邮箱_Java 判断电话号码邮箱代码示例讲解
  13. JS 缓存: Service Worker 实现离线应用
  14. Axure设计原型如何如何插入视频
  15. linux dns一键,利用wdDNSV3自建免费在线DNS系统并配置使用
  16. 四川E900s-Hi3798MV100-黑盒8G版-黄标签高安版-5800-2AHPM6B-当贝桌面强刷卡刷包
  17. 贪心算法实现最大收益
  18. centos服务器部署
  19. TS流解析 ffmpeg
  20. 11,基于JESD204 IP核的设计实现方法

热门文章

  1. avg最多用多少列 mysql_40斤一桶水,最多用多少克磷酸二氢钾?打几次增产效果最好...
  2. 打包外星人_《疯狂外星人》中外星人带上金箍就是大圣,放下金箍就是至尊宝!...
  3. android 声音突然变小,手机明明没坏,为什么声音开到最大依然很小?这个方法你知道吗...
  4. html5支付认证,html5实现微信支付宝接口
  5. 磁盘不足 导致内存 linux,为什么 Linux 需要 Swapping,仅仅是内存不够用?
  6. c语言字符输出128,如何将128位整数转换为C中的十进制ASCII字符串?
  7. eclipse快捷键_Eclipse快捷键
  8. jooq生成records_Java 14 Records类
  9. easymock接口模拟_EasyMock部分模拟
  10. testng教程_TestNG教程