DL3 - optimization algorithms

title: DL3 - 加快神经网络训练速度的优化算法
date: 2019-08-17 02:40:57
tags: deeplearning
categories: deeplearning

Welcome to MyBlog!

本文所以截图以及文字均来自于：Coursera

1 小批量梯度下降算法（mini-batch gradient descent)

首先将你的训练集拆分成更小的微小的训练集即小批量训练集(mini-batch) 比如说每一个微型训练集只有1000个训练样例也就是说取x1至x1000作为第一个微训练集也叫做小批量训练集然后取接下来的1000个样例 x1001至x2000这1000个样例依次继续

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6i3VgsjS-1610775595598)(https://i.loli.net/2019/08/28/57gxIMFENLkJWv9.png)]

将mini-batch极端的设置为m，就得到了批量梯度下降

极端地设置为1，就得到了随机梯度下降

两种方法的区别：批量梯度下降算法可能从这里开始它的噪声相对小些每一步相对大些并且最终可以达到最小值而相对的随机梯度下降算法让我们选一个不同的点假使从这里开始这时对于每一次迭代你就在一个样本上做梯度下降大多数时候你可以达到全局最小值但是有时候也可能因为某组数据不太好把你指向一个错误的方向因此随机梯度算法的噪声会非常大一般来说它会沿着正确的方向但是有事也会指向错误的方向而且随机梯度下降算法最后也不会收敛到一个点它一般会在最低点附近摆动但是不会达到并且停在那里实际上 mini-batch的大小一般会在这2个极端之间

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6m4QwgoX-1610775595599)(https://i.loli.net/2019/08/28/YQXVuR8HgA4lrd3.png)]

2 指数加权（滑动）平均

beta*V_(t-1)加上之前使用的是0.1 现在把它换成(1-beta)*theta_t 之前beta=0.9 出于我们之后会讲的某些原因当你计算这个公式的时候你可以认为V_t近似于 1/(1-beta)天温度的平均举例来说当beta=0.9的时候你可以认为它是前10天的气温平均值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PWzzACD4-1610775595600)(https://i.loli.net/2019/08/28/Y1HuTEiq6vUFjPl.png)]

3 偏差修正

它能够帮助你更好地计算平均值

工作原理：用vt/1-βt代替vt（t是下标）

在机器学习中多数的指数加权平均运算并不会使用偏差修正因为大多数人更愿意在初始阶段用一个稍带偏差的值进行运算不过如果在初始阶段就开始考虑偏差指数加权移动均指仍处于预热阶段偏差修正可以帮你尽早做出更好的估计

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SuX0Q2Ng-1610775595601)(https://i.loli.net/2019/08/28/9IXPFviqufD4YoS.png)]

4 动量梯度下降算法

它几乎总会比标准的梯度下降算法更快一言以蔽之算法的主要思想是计算梯度的指数加权平均然后使用这个梯度来更新权重

可以减少震荡，原因：如果把这些梯度平均一下你会发现这些震荡在纵轴上的平均值趋近于0 所以在垂直方向上你会希望减慢速度正数和负数在计算平均时相互抵消了平均值接近于0 然而在水平方向上所有导数都指向水平方向的右边所以水平方向的平均值仍然较大因此在数次迭代之后你会发现动量梯度下降算法的每一步在垂直方向上的振荡非常小且在水平方向上运动得更快这会让你的算法选择更加直接的路径或者说减弱了前往最小值的路径上的振荡

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gNCN0hA1-1610775595603)(https://i.loli.net/2019/08/28/akwGWuSgt32xMIj.png)]

5 RMSprop 均方根传递（root mean square prop）

你希望减慢b方向的学习也就是垂直方向同时加速或至少不减慢水平方向的学习这就是RMSprop算法要做的

现在我们来理解一下它的工作原理记得在水平方向上即例子中W的方向上我们希望学习速率较快而在垂直方向上即例子中b的方向上我们希望降低垂直方向上的振荡对于S_dW和S_db这两项我们希望S_dW相对较小因此这里除以的是一个较小的数而S_db相对较大因此这里除以的是一个较大的数这样就可以减缓垂直方向上的更新

另一个收效是你可以使用更大的学习率alpha 学习得更快而不用担心在垂直方向上发散

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iRweA9WM-1610775595605)(https://i.loli.net/2019/08/28/azu2tUcdsJ9qBn7.png)]

6 Adam优化算法（自适应矩估计Adaptive Moment Estimation）

Adam优化算法本质上是将动量算法和RMSprop结合起来:在动量梯度下降算法抵消部分震荡的前提下，利用了rms梯度下降算法降低震荡

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iVZCCQ6T-1610775595606)(https://i.loli.net/2019/08/28/3LOcsl7n4fFihtW.png)]
t表示迭代次数

超参数的选择

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6ervWB1u-1610775595607)(https://i.loli.net/2019/08/28/cqlDBOVoQ5GRgWa.png)]

7 学习率衰减 learning rate decay

如果你想使用学习率衰减你可以尝试不同的超参数组合包括α0 以及这个衰减率的超参数然后去尝试寻找一个效果好的数值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TuFiT57x-1610775595608)(https://i.loli.net/2019/08/28/18qR9I4vEFDBTMr.png)]

7.1 其他学习率衰减的方法

k表示常数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JLTHlD0d-1610775595609)(https://i.loli.net/2019/08/28/tCSQj5FnGyJoNTO.png)]

8 局部最优点，鞍点

对于一个高维空间的函数如果梯度为零则在每个方向上它可能是凸函数或者是凹函数假设在一个 2万维的空间中如果一个点要成为局部最优则需要在所有的2万个方向上都像这样因此这件事发生的概率非常低大概2的负2万次方你更有可能遇到的情况是
某些方向的曲线像这样向上弯曲同时另一些方向的曲线则向下弯曲并非所有曲线都向上弯曲 这就是为什么在高维空间中你更有可能碰到一个像右图这样的鞍点而不是局部最优

8.1 停滞区

实际上是停滞区(Plateaus) 停滞区指的是导数长时间接近于零的一段区域如果你在这里那么梯度下降会沿着这个曲面向下移动然而因为梯度为零或接近于零曲面很平你会花费很长的时间缓慢地在停滞区里找到这个点然后因为左侧或右侧的随机扰动,你的算法终于能够离开这个停滞区它一直沿着这个很长的坡往下走, 直到抵达此处, 离开这个停滞区

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L6sPtDKC-1610775595610)(https://i.loli.net/2019/08/28/R3zsKiFMrCyvdu2.png)]

首先实际上你不太可能陷入糟糕的局部最优点只要你训练的是一个较大的神经网络有很多参数代价函数J定义在一个相对高维的空间上

其次停滞区是个问题, 它会让学习过程变得相当慢这也是像动量(Momentum)算法
或RmsProp算法或Adam算法能改善你的学习算法的地方

DL3 - optimization algorithms相关推荐

An overview of gradient descent optimization algorithms
转载自:http://sebastianruder.com/optimizing-gradient-descent/ 梯度下降优化及其各种变体.1.随机梯度下降(SGD) 2.小批量梯度下降(mini ...
Optimization Algorithms
Optimization Algorithms http://www.cas.mcmaster.ca/~cs4te3/
强化学习——Proximal Policy Optimization Algorithms
文章目录前言为什么需要PPO TRPO PPO 前言本文对论文<Proximal Policy Optimization Algorithms>进行总结,如有错误,欢迎指出. 为什么 ...
第二周：优化算法 (Optimization algorithms)
第二周:优化算法 (Optimization algorithms) 文章目录第二周:优化算法 (Optimization algorithms) 2.1 Mini-batch 梯度下降(Mini- ...
吴恩达deeplearning.ai系列课程笔记+编程作业(6)第二课改善深层神经网络-第二周：优化算法 (Optimization algorithms)
第二门课改善深层神经网络:超参数调试.正则化以及优化(Improving Deep Neural Networks:Hyperparameter tuning, Regularization and ...
Learning Combinatorial Optimization Algorithms over Graphs 2020-05-06
Learning Combinatorial Optimization Algorithms over Graphs Abstract 解决NP-hard问题通常需要大量的专业知识和反复试验, lea ...
《DeepLearning.ai》第六课：优化算法(Optimization algorithms)
第六课:优化算法(Optimization algorithms) 6.1 Mini-batch梯度下降上图表示了整个Mini-batcha梯度下降的过程. 首先对 X { t } X^{\{t\} ...
群体智能动态优化算法及其应用综述（A survey of swarm intelligence for dynamic optimization: Algorithms and applicatio）
群体智能动态优化算法及其应用综述[A survey of swarm intelligence for dynamic optimization: Algorithms and application ...
【文献阅读】Proximal Policy Optimization Algorithms
Author: John Schulman 原文摘要我们提出了一种新的强化学习的策略梯度方法,该方法在与环境互动中进行采样和使用随机梯度提升算法优化"surrogate" ...

DL3 - optimization algorithms

title: DL3 - 加快神经网络训练速度的优化算法
date: 2019-08-17 02:40:57
tags: deeplearning
categories: deeplearning

本文所以截图以及文字均来自于：Coursera

1 小批量梯度下降算法（mini-batch gradient descent)

2 指数加权（滑动）平均

3 偏差修正

4 动量梯度下降算法

5 RMSprop 均方根传递（root mean square prop）

6 Adam优化算法（自适应矩估计Adaptive Moment Estimation）

7 学习率衰减 learning rate decay

7.1 其他学习率衰减的方法

8 局部最优点，鞍点

8.1 停滞区

DL3 - optimization algorithms相关推荐

最新文章

热门文章

DL3 - optimization algorithms

title: DL3 - 加快神经网络训练速度的优化算法 date: 2019-08-17 02:40:57 tags: deeplearning categories: deeplearning

本文所以截图以及文字均来自于：Coursera

1 小批量梯度下降算法（mini-batch gradient descent)

2 指数加权（滑动）平均

3 偏差修正

4 动量梯度下降算法

5 RMSprop 均方根传递（root mean square prop）

6 Adam优化算法（自适应矩估计Adaptive Moment Estimation）

7 学习率衰减 learning rate decay

7.1 其他学习率衰减的方法

8 局部最优点，鞍点

8.1 停滞区

DL3 - optimization algorithms相关推荐

最新文章

热门文章

title: DL3 - 加快神经网络训练速度的优化算法
date: 2019-08-17 02:40:57
tags: deeplearning
categories: deeplearning