如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔~我会非常开心的~

花书+吴恩达深度学习（五）正则化方法（防止过拟合）

花书+吴恩达深度学习（六）优化方法之 Mini-batch（SGD, MBGD, BGD）

花书+吴恩达深度学习（七）优化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）

花书+吴恩达深度学习（八）优化方法之 Batch normalization

花书+吴恩达深度学习（九）优化方法之二阶近似方法（牛顿法, CG, BFGS, L-BFGS）

0. 前言

在使用 Mini-batch 的时候，通常梯度估计的方向不直接指向最小值点，容易造成曲折波动的路线。

为了防止这种路线，改善梯度估计的方向，可对反向传播作修改。

如下图所示（图源：深度学习），黑色路线是未修改的梯度估计方向，红色路线是修改后的梯度估计方向：

1. 指数加权平均（exponentially weighted averages）

假设，表示前个值的和，表示第个值，则指数加权平均表示为：

根据的不同，表示大约前个数的平均。

被称为指数的原因是，表达式递归展开，从 0 到 t 的权重表现为指数的形式：

因初始化，所以造成等几个初始点会较小，可进行偏差修正：

但是这种方法不常用，通常可以接受在开始阶段的误差，随着迭代更新，误差会逐渐消失。

2. Momentum 动量

动量的方法旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。

动量算法通过指数加权平均，累计了之前的梯度，调整了梯度估计的方向。

注：的取值一般为 0.5，0.9，0.99 。

3. Nesterov 动量

Nesterov 和 Momentum 的区别在于，先施加当前的累计速度，然后再计算梯度。

但是，在 Mini-batch 的情况下，这并没有改进收敛率。

4. AdaGrad

具有损失最大偏导的参数相应地有一个快速下降的学习率，而具有小偏导的参数在学习率上有相对较小的下降。

这可防止下降过快，或者在平坦区域下降过慢。

但是从训练开始时累计梯度平方会导致有效学习率过早和过量的减小。

5. RMSProp

RMSProp 修改 AdaGrad 以在非凸设定下效果更好，改变梯度累计为指数加权平均。

RMSProp 已被证明是一种有效且实用的深度神经网络优化算法。

注：的取值一般推荐为 0.999，的取值一般推荐为。

6. Adam

Adam 全称是 Adaptive Moments Estimation 。

Adam 是结合了 Momentum 和 RMSProp 的算法。

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔~我会非常开心的~

花书+吴恩达深度学习（七）优化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）相关推荐

花书+吴恩达深度学习（三）反向传播算法 Back Propagation
目录 0. 前言 1. 从 Logistic Regression 中理解反向传播 2. 两层神经网络中单个样本的反向传播 3. 两层神经网络中多个样本的反向传播如果这篇文章对你有一点小小的帮助,请 ...
花书+吴恩达深度学习（四）多分类 softmax
目录 0. 前言 1. 二分类 sigmoid 2. 多分类 softmax 3. 多分类 softmax 梯度下降推导如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书 ...
花书+吴恩达深度学习（二）非线性激活函数（ReLU, maxout, sigmoid, tanh）
目录 0. 前言 1. ReLU 整流线性单元 2. 绝对值整流线性单元 3. 渗漏整流线性单元 4. 参数化整流线性单元 5. maxout 单元 6. logistic sigmoid 单元 7. ...
花书+吴恩达深度学习（一）前馈神经网络（多层感知机 MLP）
目录 0. 前言 1. 每一个神经元的组成 2. 梯度下降改善线性参数 3. 非线性激活函数 4. 输出单元 4.1. 线性单元 4.2. sigmoid 单元 4.3. softmax 单元 5. ...
花书+吴恩达深度学习（十四）卷积神经网络 CNN 之经典案例（LetNet-5, AlexNet, VGG-16, ResNet, Inception Network）
目录 0. 前言 1. LeNet-5 2. AlexNet 3. VGG-16 4. ResNet 残差网络 5. Inception Network 如果这篇文章对你有一点小小的帮助,请给个关注, ...
花书+吴恩达深度学习（九）优化方法之二阶近似方法（牛顿法, CG, BFGS, L-BFGS）
目录 0. 前言 1. 牛顿法 2. 共轭梯度法(CG) 3. BFGS 4. L-BFGS 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(五)正则化 ...
花书+吴恩达深度学习（八）优化方法之 Batch normalization
目录 0. 前言 1. Batch normalization 训练 2. Batch normalization 测试如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书 ...
花书+吴恩达深度学习（六）优化方法之 Mini-batch（SGD, MBGD, BGD）
目录 0. 前言 1. Batch gradient descent(BGD) 2. Stochastic gradient descent(SGD) 3. Mini-batch gradient d ...
花书+吴恩达深度学习（五）正则化方法（防止过拟合）
目录 0. 前言 1. 参数范数惩罚 2. Dropout 随机失活 3. 提前终止 4. 数据集增强 5. 参数共享如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+ ...

花书+吴恩达深度学习（七）优化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）

目录