深度学习优化算法：RMSProp算法

原文链接：动手学深度学习pytorch版：7.6 RMSProp算法
github：https://github.com/ShusenTang/Dive-into-DL-PyTorch

原论文：
[1] Tieleman, T., & Hinton, G. (2012). Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural networks for machine learning, 4(2), 26-31.

RMSProp算法

针对 AdaGrad 算法每个元素的学习率在迭代过程中一直在降低(或不变)，在迭代后期由于学习率过小，可能较难找到一个有用的解。为解决这一问题，RMSProp 算法对 AdaGrad 算法做了一点小小的修改。

算法

不同于AdaGrad算法里状态变量 sts_tst 是截至时间步tt所有小批量随机梯度 gtg_tgt 按元素平方和，RMSProp算法将这些梯度按元素平方做指数加权移动平均。具体来说，给定超参数 0≤γ<10≤γ<10≤γ<1，RMSProp 算法在时间步 t>0t>0t>0 计算

st←γst−1+(1−γ)gt⊙gt{{\text{s}}_{t}}\leftarrow \gamma {{s}_{t-1}}+(1-\gamma ){{g}_{t}}\odot {{g}_{t}} st←γst−1+(1−γ)gt⊙gt

和AdaGrad算法一样，RMSProp算法将目标函数自变量中每个元素的学习率通过按元素运算重新调整，然后更新自变量

xt←xt−1−ηst+ε⊙gt{{x}_{t}}\leftarrow {{x}_{t-1}}-\frac{\eta }{\sqrt{{{s}_{t}}+\varepsilon }}\odot {{g}_{t}} xt←xt−1−st+εη⊙gt

其中 ηηη 是学习率，ε\varepsilonε 是为了维持数值稳定性而添加的常数，如 10−610^{-6}10−6。因为 RMSProp 算法的状态变量 sts_tst 是对平方项 gt⊙gt{{g}_{t}}\odot {{g}_{t}}gt⊙gt 的质数加权移动平均，所以可以看作是最近 1/(1−γ)1/(1-\gamma)1/(1−γ) 个时间步的小批量随机梯度平方项的加权平均。如此一来，自变量每个元素的学习率在迭代过程中就不再一直降低（或不变）。

例子

让我们先观察RMSProp算法对目标函数 f(x)=0.1x12+2x22f(x)=0.1x^2_1+2x^2_2f(x)=0.1x12+2x22 中自变量的迭代轨迹。回忆在7.5节（AdaGrad算法）使用的学习率为0.4的AdaGrad算法，自变量在迭代后期的移动幅度较小。但在同样的学习率下，RMSProp算法可以更快逼近最优解。

%matplotlib inline
import math
import torch
import sys
sys.path.append("..")
import d2lzh_pytorch as d2l
import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"def rmsprop_2d(x1, x2, s1, s2):g1, g2, eps = 0.2 * x1, 4 * x2, 1e-6s1 = gamma * s1 + (1 - gamma) * g1 ** 2s2 = gamma * s2 + (1 - gamma) * g2 ** 2x1 -= eta / math.sqrt(s1 + eps) * g1x2 -= eta / math.sqrt(s2 + eps) * g2return x1, x2, s1, s2def f_2d(x1, x2):return 0.1 * x1 ** 2 + 2 * x2 ** 2eta, gamma = 0.4, 0.9
d2l.show_trace_2d(f_2d, d2l.train_2d(rmsprop_2d))

输出：

epoch 20, x1 -0.010599, x2 0.000000

深度学习优化算法：RMSProp算法相关推荐

重磅 | 2017年深度学习优化算法研究亮点最新综述火热出炉
翻译 | AI科技大本营(微信ID:rgznai100) 梯度下降算法是机器学习中使用非常广泛的优化算法,也是众多机器学习算法中最常用的优化方法.几乎当前每一个先进的(state-of-the-art ...
Adam 那么棒，为什么还对 SGD 念念不忘？一个框架看懂深度学习优化算法
作者|Juliuszh 链接 | https://zhuanlan.zhihu.com/juliuszh 本文仅作学术分享,若侵权,请联系后台删文处理机器学习界有一群炼丹师,他们每天的日常是: 拿来 ...
2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？
2017年深度学习优化算法最新进展:如何改进SGD和Adam方法? 深度学习的基本目标,就是寻找一个泛化能力强的最小值,模型的快速性和可靠性也是一个加分点. 随机梯度下降(SGD)方法是1951年由R ...
深度学习优化算法实现(Momentum, Adam)
目录 Momentum 初始化更新参数 Adam 初始化更新参数除了常见的梯度下降法外,还有几种比较通用的优化算法:表现都优于梯度下降法.本文只记录完成吴恩达深度学习作业时遇到的Momentum ...
深度学习优化算法的总结与梳理（从 SGD 到 AdamW 原理和代码解读）
作者丨科技猛兽转自丨极市平台本文思想来自下面这篇大佬的文章: Juliuszh:一个框架看懂优化算法之异同 SGD/AdaGrad/Adam https://zhuanlan.zhihu.com/ ...
大梳理！深度学习优化算法：从 SGD 到 AdamW 原理和代码解读
‍ 作者丨知乎科技猛兽极市平台编辑 https://zhuanlan.zhihu.com/p/391947979 本文思想来自下面这篇大佬的文章: Juliuszh:一个框架看懂优化算法之异同 ...
深度学习优化算法，Adam优缺点分析
优化算法首先我们来回顾一下各类优化算法. 深度学习优化算法经历了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -& ...
Adam那么棒，为什么还对SGD念念不忘？一个框架看懂深度学习优化算法
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达作者|Juliuszh,https://zhuanlan.zhih ...
2017年深度学习优化算法最新进展：改进SGD和Adam方法
2017年深度学习优化算法最新进展:如何改进SGD和Adam方法转载的文章,把个人觉得比较好的摘录了一下 AMSGrad 这个前期比sgd快,不能收敛到最优. sgdr 余弦退火的方案比较好最近的 ...
Pytorch框架的深度学习优化算法集(优化中的挑战)
个人简介:CSDN百万访问量博主,普普通通男大学生,深度学习算法.医学图像处理专攻,偶尔也搞全栈开发,没事就写文章,you feel me? 博客地址:lixiang.blog.csdn.net Py ...

深度学习优化算法：RMSProp算法

RMSProp算法

算法

例子

深度学习优化算法：RMSProp算法相关推荐

最新文章

热门文章