改善深层神经网络：超参数调整、正则化以及优化—

如果要优化成本函数，函数如下图所示，红点代表最小值的位置。假设从边缘开始梯度下降，如果进行梯度下降法的一次迭代，无论是batch还是mini-batch下降法，都会产生较大的迭代波动，这会导致花费更多的时间。同时为了避免摆动过大，需要用一个较小的学习率。

另一个看待问题的角度是，如果，在竖轴上我们希望摆动小一点，同时，在横轴上希望摆动能大一点，所以我们使用Momentum梯度下降法。我们需要做的是，在每次迭代中，确切来说在第t次迭代的过程中，需要计算微分dwdwdw，dbdbdb，用现有的mini-batch计算dwdwdw和dbdbdb。如果用batch梯度下降法，现在的mini-batch就是全部的batch，对于batch梯度下降法的效果是一样的。如果现有的mini-batch就是整个训练集，效果也不错。

我们要做的是Vdw=β∗Vdw+(1−β)∗dWV_{dw}=\beta*V_{dw}+(1-\beta)*dWVdw=β∗Vdw+(1−β)∗dW同样的计算Vdb=β∗Vdb+(1−β)∗dbV_{db}=\beta*V_{db}+(1-\beta)*dbVdb=β∗Vdb+(1−β)∗db然后更新权重w=w−α∗Vdww=w-\alpha*V_{dw}w=w−α∗Vdwb=b−α∗Vdbb=b-\alpha*V_{db}b=b−α∗Vdb这样就可以减缓梯度下降的幅度。

Momentum的一个本质，如果想要最小化碗状函数，Momentum能够最小化碗状函数，dWdWdW和dbdbdb可以想象它们为从山上往下滚的一个球，提供了加速度，Momentum项就相当于速度。想象有一个碗，拿一个球，微分给了这个球一个加速度，此时球正向山下滚，球因为加速度越滚越快，而因为β\betaβ稍小于1，表现出一些摩擦力，所以球不会无限加速下去。所以不像梯度下降法每一步都独立于之前的步骤，球可以向下滚，获得动量。

看一下具体如何计算，算法有两个超参数，学习率α\alphaα和参数β\betaβ，β\betaβ控制着指数加权平均数，β\betaβ最常用的值是0.9，平均了前十次迭代的梯度。实际上β\betaβ为0.9时效果不错。
Vdw=β∗Vdw+1−β∗dWV_{dw}=\beta*V_{dw}+{1-\beta}*dWVdw=β∗Vdw+1−β∗dWVdb=β∗Vdb+(1−β)∗dbV_{db}=\beta*V_{db}+(1-\beta)*dbVdb=β∗Vdb+(1−β)∗dbW=W−α∗VdwW=W-\alpha*V_{dw}W=W−α∗Vdwb=b−α∗Vdbb=b-\alpha*V_{db}b=b−α∗Vdb关于偏差修正，需要计算Vdw1−βt\frac{V_{dw}}{1-\beta^t}1−βtVdw，实际上我们并不使用偏差修正。因为10次迭代之后，移动平均已经过了初始阶段，不再是一个具有偏差的预测。实际上，在使用梯度下降法或者Momentum时，不会受到偏差修正的困扰。当然VdwV_{dw}Vdw的初始值为0。

改善深层神经网络：超参数调整、正则化以及优化——2.6 动量梯度下降法相关推荐

交叉验证和超参数调整：如何优化您的机器学习模型
In the first two parts of this article I obtained and preprocessed Fitbit sleep data, split the data ...
2020-6-9 吴恩达-改善深层NN-w3 超参数调试(3.3 超参数训练的实践：Pandas(资源少，一次一个模型) VS Caviar(资源多，一次多个模型))
1.视频网站:mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c 2.详细笔记网站(中文):http://www.ai-sta ...
[DeeplearningAI笔记]改善深层神经网络_深度学习的实用层面1.10_1.12/梯度消失/梯度爆炸/权重初始化...
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.10 梯度消失和梯度爆炸当训练神经网络,尤其是深度神经网络时,经常会出现的问题是梯度消失或者梯度爆炸,也就是说当你训练深度网络时,导数或坡 ...
02.改善深层神经网络：超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架
文章目录 1. 调试处理 2. 为超参数选择合适的范围 3. 超参数调试的实践 4. 归一化网络的激活函数 5. 将 Batch Norm 拟合进神经网络 6. Batch Norm 为什么奏效 7. ...
深度学习笔记第二门课改善深层神经网络第二周：优化算法
本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...
python/keras中用Grid Search对神经网络超参数进行调参
原文:How to Grid Search Hyperparameters for Deep Learning Models in Python With Keras 作者:Jason Brownle ...
2.6 动量梯度下降法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 2.5 指数加权平均的偏差修正回到目录 2.7 RMSprop 动量梯度下降法 (Gradient Descent with Momentum) 还有一种算法叫做Momen ...
02.改善深层神经网络：超参数调试、正则化以及优化 W2.优化算法（作业：优化方法）
文章目录 1. 梯度下降 2. mini-Batch 梯度下降 3. 动量 4. Adam 5. 不同优化算法下的模型 5.1 Mini-batch梯度下降 5.2 带动量的Mini-batch梯度下 ...
02.改善深层神经网络：超参数调试、正则化以及优化 W1.深度学习的实践层面（作业：初始化+正则化+梯度检验）
文章目录作业1:初始化 1. 神经网络模型 2. 使用 0 初始化 3. 随机初始化 4. He 初始化作业2:正则化 1. 无正则化模型 2. L2 正则化 3. DropOut 正则化 3.1 ...

改善深层神经网络：超参数调整、正则化以及优化——2.6 动量梯度下降法

改善深层神经网络：超参数调整、正则化以及优化——2.6 动量梯度下降法相关推荐

最新文章

热门文章