批量正则化Batch Normalization

1、为什么随着网络深度增加，神经网络训练越来越慢呢？

因为深层神经网络在做非线性变换前的激活输入值，随着网络深度加深或者在训练过程中，其分布逐渐发生偏移或者变动。训练收敛慢，一般是因为整体分布逐渐往非线性函数的取值区间的上下限两端靠近，这导致反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因。

2、BN（Batch Normalization）的基本思想

BN不仅仅对输入层做标准化处理，还对网络的每一中间层的输入(激活函数前)做标准化处理，使得输出服从均值为0，方差为1的正态分布，从而避免变量分布偏移的问题。之所以称之为批标准化，是因为在训练期间，我们仅通过计算当前层一小批数据的均值和方差来标准化每一层的输入。相当于把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0，方差为1的标准正态分布。

3、Batch Normalization的优点

（1）避免梯度消失和梯度爆炸。把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，这样可以让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。

（2）加快训练速度。

（3）提高模型泛化能力。因为批量标准化不是应用在整个数据集，而是mini-batch上，会产生一些噪声，可以提高模型泛化能力。

4、参考文章：

https://blog.csdn.net/mzpmzk/article/details/80043076

https://www.cnblogs.com/carlber/p/10752240.html

批量正则化Batch Normalization相关推荐

神经网络中的批量归一化Batch Normalization(BN)原理总结
0.概述深层神经网络存在的问题(从当前层的输入的分布来分析):在深层神经网络中,中间层的输入是上一层神经网络的输出.因此,之前的层的神经网络参数的变化会导致当前层输入的分布发生较大的差异.在使用随机 ...
BN（Batch Normalization）：批量归一化
现在的神经网络通常都特别深,在输出层像输入层传播导数的过程中,梯度很容易被激活函数或是权重以指数级的规模缩小或放大,从而产生"梯度消失"或"梯度爆炸"的现象,造 ...
【文章阅读】BN(2015)理解Batch Normalization批标准化
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift Brief 该 ...
『Batch Normalization』Batch Normalization一文吃透
Batch Normalization 协变量偏移神经网络前向传播引起的问题 Batch Normalization的登场为什么存在 β \beta β和 γ \gamma γ? 预测时如何使用 ...
偏差与方差、L1正则化、L2正则化、dropout正则化、神经网络调优、批标准化Batch Normalization(BN层)、Early Stopping、数据增强
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 3.2 深度学习正则化 3.2.1 偏差与方差 3.2.1.1 ...
Batch Normalization批量归一化
深度学习捷报连连.声名鹊起,随机梯度下降成了训练深度网络的主流方法.尽管随机梯度下降法对于训练深度网络简单高效,但是它有个毛病,就是需要我们人为的去选择参数,比如学习率.参数初始化.权重衰减系数.Dr ...
深度学习 --- 优化入门四（Batch Normalization（批量归一化）一）
前几节我们详细的探讨了,梯度下降存在的问题和优化方法,本节将介绍在数据处理方面很重要的优化手段即批量归一化(批量归一化). 批量归一化(Batch Normalization)并不能算作是一种最优化算 ...
局部响应归一化（Local Response Normalization，LRN）和批量归一化（Batch Normalization，BN）的区别
为什么要归一化? 归一化已成为深度神经网络中的一个重要步骤,它可以弥补ReLU.ELU等激活函数无界性的问题.有了这些激活函数,输出层就不会被限制在一个有限的范围内(比如tanh的[−1,1][-1, ...
批标准归一化（Batch Normalization）解析
1,背景网络一旦train起来,那么参数就要发生更新,除了输入层的数据外(因为输入层数据,我们已经人为的为每个样本归一化),后面网络每一层的输入数据分布是一直在发生变化的,因为在训练的时候,前面层训 ...

批量正则化Batch Normalization

批量正则化Batch Normalization相关推荐

最新文章

热门文章