Batch normalization

统计学上有一个问题叫Internal Covariate Shift，我也不知道该怎么翻译，暂且叫它ICS吧。说的是这样一个事情，即在偏统计的机器学习中，有这样一个假设，要求最初的数据的分布和最终分类结果的数据分布应该一致，一般来讲它们的条件分布应该是相同的 $P_{data}(Y|X=x)=P_{target}(Y|X=x)$ ，但是它们的边缘密度就不一定了， $P_{data}(X)\ne P_{target}(X)$ ，在我们的神经网络中，相当于每一层都是对原数据的一个抽象映射和特征提取，但是对于每一层来说，我们的target是一致的，可我们每一层都是一个映射啊，数据的边缘分布肯定是不一样的，这时候就尴尬了。

可我们的BN做的是这样一个事情，把它变成一个0均值1方差的分布上（不包括后面修正），这样在一定程度上，可以减小ICS带来的影响，可是也不是完全解决，毕竟你只保证了均值和方差相同，分布却不一定相同。

BatchRenormalization

本文系batch norm原作者对其的优化，该方法保证了train和inference阶段的等效性，解决了非独立同分布和小minibatch的问题。其实现如下：

其中r和d首先通过minibatch计算出，但stop_gradient使得反传中r和d不被更新，因此r和d不被当做训练参数对待。试想如果r和d作为参数来更新，如下式所示：

这样一来，就相当于在训练阶段也使用moving averages  μ和σ，这会引起梯度优化和normalization之间的冲突，优化的目的是通过对权重的scale和shift去适应一个minibatch，normalization则会抵消这种影响，而moving averages则消除了归一化后的激活对当前minibatch的依赖性，使得minibatch丧失了对每次权重更新方向的调整，从而使得权重尺度因normalization的抵消而无边界的增加却不会降低loss。而在前传中r和d的仿射变换修正了minibatch和普适样本的差异，使得该层的激活在inference阶段能得到更有泛化性的修正。

这样的修正使得minibatch很小甚至为1时的仍能发挥其作用，且即使在minibatch中的数据是非独立同分布的，也会因为这个修正而消除对训练集合的过拟合。

从Bayesian的角度看，这种修正比需要自己学习的scale和shift能更好地逆转对表征的破坏，且这种逆转的程度是由minibatch数据驱动的，在inference时也能因地制宜，而scale和shift对不同数据在inference时会施加相同的影响，因此这样的修正进一步降低了不同训练样本对训练过程的影响，也使得train和inference更为一致。

Batch Renormalization相关推荐

谷歌力作：神经网络训练中的Batch依赖性很烦？那就消了它！
点击上方↑↑↑"视学算法"关注我来源:公众号量子位授权转再见了,批量依赖性(Batch Dependence). 优化神经网络方法千千万,批量归一化(Batch Norma ...
Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法
由于算力的限制,有时我们无法使用足够大的batchsize,此时该如何使用BN呢?本文将介绍两种在小batchsize也可以发挥BN性能的方法. 本文首发自极市平台,作者 @皮特潘,转载需获授权. 前 ...
FRN+TLU，小batch size训练的福音
论文地址:https://arxiv.org/pdf/1911.09737.pdf 笔记内容: 论文总览论文图表与内容 Normalization各种方法回顾(BN,GN,LN,IN) 论文总览: ...
Batch Nomalization,Group Normalization,Cross-Iteration Batch Normalization分析
BatchNomalization 发表于第32届机器学习国际会议 PMLR,2015年前言由于深度神经网络每层输入的分布在训练过程中随着前一层的参数变化而变化,因此训练深度神经网络很复杂.由于需 ...
NIPS | 谷歌AI大军来袭，看450多名员工如何横扫今年大会
一年一度的AI盛会NIPS又开始了. 会前数周,就有大神预计,驱车参会的谷歌员工会挤满加州从山景城到长滩的道路,就像这样: 图片来源:杜克大学陈怡然教授微博但是,NIPS 2017的火爆程度,明显超 ...
论文速递 | 一份超全易懂的深度学习在图像去噪的综述
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自:AI算法与图像处理近日哈尔滨工业大学.广东工业大学.清 ...
「AI初识境」深度学习模型中的Normalization，你懂了多少？
https://www.toutiao.com/a6694436118189834765/ 这是<AI初识境>第6篇,这次我们说说Normalization.所谓初识,就是对相关技术有基本 ...
NIPS 2017上演：Google大神们将带来哪些「精彩」？
来源:雷克世界作者:Christian Howard编译:嗯~阿童木呀.我是卡布达概要:Google在2017年NIPS大会将展现出色的影响力,约有450多名Google员工将会通过技术讲座.海报 ...
【AI初识境】深度学习模型中的Normalization，你懂了多少？
文章首发于微信公众号<有三AI> [AI初识境]深度学习模型中的Normalization,你懂了多少? 这是<AI初识境>第6篇,这次我们说说Normalization.所谓 ...

Batch Renormalization

Batch normalization

BatchRenormalization

Batch Renormalization相关推荐

最新文章

热门文章