1.指数加权平均(exponentially weighted averages)

这里有一年的温度数据。

如果想计算温度的趋势，也就是局部平均值(local average)，或者说移动平均值(moving average)，怎么做？

：当天的温度，：从当天开始计算前天的平均温度，：从昨天开始计算前天的平均温度。

比如，β=0.9，计算的就是前10天的平均温度，如下图红线所示。β=0.98，计算的就是前50天的平均温度，如下图绿线所示。

为什么是天？

，，...

...

这些项的系数呈指数级减少

0.37，

当β->1，选定为分界线，从开始，以后的项都可忽略不计，(1-β)=。

例：β=0.9，10为分界线，(1-0.9)0.90....+0....。

β=0.98，50为分界线，(1-0.98)0.0....+0....。

偏差修正(Bias correction)

β=0.98，如果没有进行偏差修正，得到的其实是下图的紫线。

，0.02，=0.98x0.02+0.02

=5，，算局部平均值的时候，不太合理，偏小。

所以，在估测初期要进行一个修正，公式：

例：t=2，要修正为，β=0.98

当t越来越大的时候，就近似等于，上图的紫线就和绿线重合了，修正偏差的作用也就不大了。

所以，如果你关心初始时期的偏差，偏差修正能让你在早期获得更好的估测。不在乎早期的偏差，不做修正也问题不大。

指数加权平均优点是只会占很少的内存，计算的时候只需要一行代码，需要知道的信息很少。计算精度肯定不如直接计算前n天的均值，但是后者要保存前n天的数据，更占内存。

2.动量梯度下降法(Gradient descent with momentum)

动量梯度下降法(红线)要快于标准的梯度下降法(蓝线)。

每次迭代，在现有的mini-batch上计算dW，db，更新参数。等式右边的其实是上一状态的值。

两个超参数(hyperparameter)：α(学习率)、β(控制着指数加权平均)，β常见值等于0.9

3.RMSprop

RMSprop算法同样能加速梯度下降。

每次迭代，在现有的mini-batch上计算dW，db，更新参数。

，

w:=，b:=

RMS：Root Mean Square，均方根

4.Adam优化算法(optimization algorithm)

该算法实际上是将momentum和RMSprop这两种算法结合起来，也是为了加速梯度下降，应用广泛。

每次迭代，在现有的mini-batch上计算dW，db，更新参数。

，

偏差修正：，，，

w:=，b:=

超参数：学习率α：需要调整、常用值为0.9、常用值为0.999、ε常用值为

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法相关推荐

2.6 动量梯度下降法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 2.5 指数加权平均的偏差修正回到目录 2.7 RMSprop 动量梯度下降法 (Gradient Descent with Momentum) 还有一种算法叫做Momen ...
Adam优化算法中的指数移动平均
机器学习经典算法(三)--指数加权平均机器学习经典算法(三)–指数加权平均指数加权平均(Exponentially Weighted Averages)是一些改进梯度下降法重要理论,如上篇博文梯度 ...
随机梯度下降法_动量梯度下降法(gradient descent with momentum)
简介动量梯度下降法是对梯度下降法的改良版本,通常来说优化效果好于梯度下降法.对梯度下降法不熟悉的可以参考梯度下降法,理解梯度下降法是理解动量梯度下降法的前提,除此之外要搞懂动量梯度下降法需要知道原始 ...
2.2.3 动量梯度下降法
动量梯度下降法我们现在介绍一下Momentum梯度下降法,运行速度快于标准的梯度下降法.其基本思想就是计算梯度的指数加权平均数,并利用该梯度来更新权重. 如图所示,图中蓝色的代表batch或者min ...
动量梯度下降法 Momentum
动量梯度下降法是对梯度下降法的一种优化算法,该方法学习率可以选择更大的值,函数的收敛速度也更快. 梯度下降法就像下面这张图,通过不断的更新 w与b,从而让函数移动到红点,但是要到达最优解,需要我们不断 ...
动量梯度下降法Momentum
转载请注明出处,原文地址前言动量梯度下降法是对梯度下降法的一种优化算法,该方法学习率可以选择更大的值,函数的收敛速度也更快.梯度下降法就像下面这张图,通过不断的跟新w与b,从而让函数移动到红点,但 ...
梯度下降法 —— 经典的优化方法
梯度下降法 -- 经典的优化方法机器学习基础算法python代码实现可参考:zlxy9892/ml_code 1 原理在机器学习的核心内容就是把数据喂给一个人工设计的模型,然后让模型自动的&quo ...
Adam优化算法(Adam optimization algorithm)
Adam优化算法(Adam optimization algorithm) Adam优化算法基本上就是将Momentum和RMSprop结合在一起. 初始化 2.在第t次迭代中,用mini-batch ...
2.8 Adam 优化算法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 2.7 RMSprop 回到目录 2.9 学习率衰减 Adam优化算法 (Adam Optimization Algorithm) 在深度学习的历史上,包括许多知名研究者在内 ...

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法

1.指数加权平均(exponentially weighted averages)

2.动量梯度下降法(Gradient descent with momentum)

3.RMSprop

4.Adam优化算法(optimization algorithm)

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法相关推荐

最新文章

热门文章