Batch Normalization

 BN的基本思想其实相当直观:因为深层神经网络在做非线性变换前的激活输入值(就是那个x=WU+B,U是输入)随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近(对于Sigmoid函数来说,意味着激活输入值WU+B是大的负值或正值),所以这导致反向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因,而BN就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,其实就是把越来越偏的分布强制拉回比较标准的分布,这样使得激活输入值落在非线性函数对输入比较敏感的区域,这样输入的小变化就会导致损失函数较大的变化,意思是这样让梯度变大,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度。
  THAT’S IT。其实一句话就是:对于每个隐层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题。因为梯度一直都能保持比较大的状态,所以很明显对神经网络的参数调整效率比较高,就是变动大,就是说向损失函数最优值迈动的步子大,也就是说收敛地快。BN说到底就是这么个机制,方法很简单,道理很深刻。
  —可以看看CS231n的讲解~

是一种正则化手段(防止过拟合)
引用
  BN相当于在每层对输入做归一化,但是问题来了,归一化后有什么好

Batch Normalization学习笔记相关推荐

  1. 深度学习(二十九)Batch Normalization 学习笔记

    Batch Normalization 学习笔记 原文地址:http://blog.csdn.net/hjimce/article/details/50866313 作者:hjimce 一.背景意义 ...

  2. Batch Normalization 学习笔记

    转载自:http://blog.csdn.net/hjimce/article/details/50866313 可参阅:知乎http://www.zhihu.com/question/3810276 ...

  3. Batch Normalization论文笔记

    个人博客:http://www.chenjianqu.com/ 原文链接:http://www.chenjianqu.com/show-70.html 论文:Batch Normalization: ...

  4. Rethinking the Distribution Gap of Person Re-identi cation with Camera-based Batch Normalization论文笔记

    文章目录 1. 摘要 2. 基础知识 BN层(Batch Normalization) 3. 方法 3.1 CBN 3.2 CBN在ReID的应用 4. 效果 5. 实现细节 1. 摘要 所解决的问题 ...

  5. 深度学习之Batch Normalization

    1.Batch Normalization的引入 在机器学习领域有个很重要的假设:IID独立同分布假设,也就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集上获得好的效 ...

  6. 【深度学习】Batch Normalization详解

    Batch Normalization 学习笔记 原文地址:http://blog.csdn.net/hjimce/article/details/50866313 作者:hjimce 一.背景意义 ...

  7. Batch Normalization——加速深度神经网络收敛利器

    https://www.toutiao.com/a6703399604613808648/ Batch Normalization Batch Normalization 提出自<Batch N ...

  8. Batch Normalization在CNN中的原理,nb与lrb的区别

    参靠<Batch Normalization 学习笔记> 通过上面的学习,我们知道BN层是对于每个神经元做归一化处理,甚至只需要对某一个神经元进行归一化,而不是对一整层网络的神经元进行归一 ...

  9. 解读Batch Normalization

    [活动]Python创意编程活动开始啦!!!     CSDN日报20170424 --<技术方向的选择>    程序员4月书讯:Angular来了! 解读Batch Normalizat ...

最新文章

  1. tRNAscan-SE 预测tRNA基因
  2. GlobalAlloca GlobalLock GlobalUnlock函数的作用
  3. 【JSP EL表达式】动态表达式/表达式拼接
  4. 轮播图高度自适应_干货!弘成教你写轮播图全自动适应封装代码
  5. 直接拿来用!超实用的Java数组技巧攻略
  6. 浅谈(Java)AIO-异步IO
  7. Qt信号和槽机制详解
  8. hadoop3.3.0集群搭建(详细教程)
  9. 小米盒子显示未连接电脑连接服务器,小米盒子不能连接电脑的原因与解决办法...
  10. 百度翻译使用经验(Python版)
  11. 政府行业微信公众号有哪些吸引粉丝的技巧
  12. 几个网络捕获工具的评价
  13. Android技术分享| 实现视频连麦直播
  14. MipMap(纹理过滤)
  15. 案例:三个和尚(升级版)
  16. 吃掉IT大象:从绿海开发到棕海开发
  17. 如何用c语言编写语音识别程序,使用C语言对文本进行语音识别
  18. 【Typora图床设置】Typora图片上传和阿里云OSS对象存储
  19. Spring - 如何实现IOC
  20. 评职称自费出书需要多长时间

热门文章

  1. 内核调试相关变量说明
  2. COOKIE格式与读写相关
  3. IRP和IO_STACK_LOCATION结构
  4. STL内存分配器:allocator
  5. Android开发--RadioButton和CheckBox控件的使用
  6. Openstack-M版(双节点)热迁移记录
  7. mysql 设置 row格式binlog_MySql:Row 格式的 Binlog 解析
  8. mysql-5.2 lib_Centos 5.2下安装多个mysql数据库配置详解
  9. mysql insert concat_MySQL常用内置函数说明+concat+insert(str,m,n,inser_str)+week(now())+ | 学步园...
  10. ilm 和dlm差异_电力通信系统--加密芯片.pdf