Batch normalization

统计学上有一个问题叫Internal Covariate Shift,我也不知道该怎么翻译,暂且叫它ICS吧。说的是这样一个事情,即在偏统计的机器学习中,有这样一个假设,要求最初的数据的分布和最终分类结果的数据分布应该一致,一般来讲它们的条件分布应该是相同的,但是它们的边缘密度就不一定了,,在我们的神经网络中,相当于每一层都是对原数据的一个抽象映射和特征提取,但是对于每一层来说,我们的target是一致的,可我们每一层都是一个映射啊,数据的边缘分布肯定是不一样的,这时候就尴尬了。

可我们的BN做的是这样一个事情,把它变成一个0均值1方差的分布上(不包括后面修正),这样在一定程度上,可以减小ICS带来的影响,可是也不是完全解决,毕竟你只保证了均值和方差相同,分布却不一定相同。

BatchRenormalization

本文系batch norm原作者对其的优化,该方法保证了train和inference阶段的等效性,解决了非独立同分布和小minibatch的问题。其实现如下:

其中r和d首先通过minibatch计算出,但stop_gradient使得反传中r和d不被更新,因此r和d不被当做训练参数对待。试想如果r和d作为参数来更新,如下式所示:

这样一来,就相当于在训练阶段也使用moving averages  μ和σ,这会引起梯度优化和normalization之间的冲突,优化的目的是通过对权重的scale和shift去适应一个minibatch,normalization则会抵消这种影响,而moving averages则消除了归一化后的激活对当前minibatch的依赖性,使得minibatch丧失了对每次权重更新方向的调整,从而使得权重尺度因normalization的抵消而无边界的增加却不会降低loss。而在前传中r和d的仿射变换修正了minibatch和普适样本的差异,使得该层的激活在inference阶段能得到更有泛化性的修正。
这样的修正使得minibatch很小甚至为1时的仍能发挥其作用,且即使在minibatch中的数据是非独立同分布的,也会因为这个修正而消除对训练集合的过拟合。
从Bayesian的角度看,这种修正比需要自己学习的scale和shift能更好地逆转对表征的破坏,且这种逆转的程度是由minibatch数据驱动的,在inference时也能因地制宜,而scale和shift对不同数据在inference时会施加相同的影响,因此这样的修正进一步降低了不同训练样本对训练过程的影响,也使得train和inference更为一致。

Batch Renormalization相关推荐

  1. 谷歌力作:神经网络训练中的Batch依赖性很烦?那就消了它!

    点击上方↑↑↑"视学算法"关注我 来源:公众号 量子位 授权转 再见了,批量依赖性(Batch Dependence). 优化神经网络方法千千万,批量归一化(Batch Norma ...

  2. Batchsize不够大,如何发挥BN性能?探讨神经网络在小Batch下的训练方法

    由于算力的限制,有时我们无法使用足够大的batchsize,此时该如何使用BN呢?本文将介绍两种在小batchsize也可以发挥BN性能的方法. 本文首发自极市平台,作者 @皮特潘,转载需获授权. 前 ...

  3. FRN+TLU,小batch size训练的福音

    论文地址:https://arxiv.org/pdf/1911.09737.pdf 笔记内容: 论文总览 论文图表与内容 Normalization各种方法回顾(BN,GN,LN,IN) 论文总览: ...

  4. Batch Nomalization,Group Normalization,Cross-Iteration Batch Normalization分析

    BatchNomalization 发表于第32届机器学习国际会议 PMLR,2015年 前言 由于深度神经网络每层输入的分布在训练过程中随着前一层的参数变化而变化,因此训练深度神经网络很复杂.由于需 ...

  5. NIPS | 谷歌AI大军来袭,看450多名员工如何横扫今年大会

    一年一度的AI盛会NIPS又开始了. 会前数周,就有大神预计,驱车参会的谷歌员工会挤满加州从山景城到长滩的道路,就像这样: 图片来源:杜克大学陈怡然教授微博 但是,NIPS 2017的火爆程度,明显超 ...

  6. 论文速递 | 一份超全易懂的深度学习在图像去噪的综述

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:AI算法与图像处理 近日哈尔滨工业大学.广东工业大学.清 ...

  7. 「AI初识境」深度学习模型中的Normalization,你懂了多少?

    https://www.toutiao.com/a6694436118189834765/ 这是<AI初识境>第6篇,这次我们说说Normalization.所谓初识,就是对相关技术有基本 ...

  8. NIPS 2017上演:Google大神们将带来哪些「精彩」?

    来源:雷克世界 作者:Christian Howard编译:嗯~阿童木呀.我是卡布达 概要:Google在2017年NIPS大会将展现出色的影响力,约有450多名Google员工将会通过技术讲座.海报 ...

  9. 【AI初识境】深度学习模型中的Normalization,你懂了多少?

    文章首发于微信公众号<有三AI> [AI初识境]深度学习模型中的Normalization,你懂了多少? 这是<AI初识境>第6篇,这次我们说说Normalization.所谓 ...

最新文章

  1. 七基于Fourinone实现MQ demo
  2. mysql 分库分表,真的能支持服务无限扩容么?
  3. artTemplate使用
  4. java 获取活动窗口_用Java获取活动窗口信息
  5. word文档插入行号
  6. 树莓派gparted启动失败解决方法
  7. java八进制转十六进制_java-十进制、八进制、十六进制数互相转换
  8. 简易中控紫猫插件版(3)压缩包使用说明
  9. 《Nmap渗透测试指南》—第7章7.8节后台打印机服务漏洞
  10. 分布式配置中心阿波罗的搭建与客户端的应用
  11. linux oracle 11g ora-00845,Linux下安装Oracle11g , MEMORY_TARGET(AMM)小于/dev/shm处理(ORA-00845)...
  12. Android——列表选择框(Spinner)
  13. Daily Scrum 12.13
  14. oracle jde优势介绍,Oracle_JDE_EnterpriseOne模块的详细功能介绍
  15. 多测师杭州拱墅校区__肖sir__软件测试生命周期(4)
  16. VirtualBox的vmdk文件压缩
  17. 优衣库推全新门店概念,背后意义何在?
  18. 大数据技术在商业银行中的应用:场景、优势与对策
  19. Android使用DX工具
  20. IT新技术发展与企业信息化创新特征分析

热门文章

  1. python中,Microsoft Visual C++ 14.0 or greater is required问题解决方案
  2. StringWriter介绍
  3. 语音计算机打字教程,win7电脑打字使用语音输入法打字的超详细教程
  4. 知识图谱辅助的个性化推荐系统
  5. 面经 | 腾讯/阿里/京东/头条/旷视等20+企业计算机视觉算法岗面经吐血整理
  6. photoshop颈纹去除
  7. 山西大学计算机学院的导师,王文剑(计算机与信息技术学院)老师 - 山西大学 - 院校大全...
  8. html做坦克大战的效果,HTML5实现坦克大战(一)
  9. 程序员常用英语词汇(018)
  10. 减少银行和金融机构的客户流失