分类目录:《机器学习中的数学》总目录
相关文章:
· 梯度下降法(Gradient Descent)
· 随机梯度下降(Stochastic Gradient Descent, SGD)
· 牛顿迭代法(Newton‘s Method)
· 拟牛顿法(Quasi-Newton Methods)
· Momentum(Gradient Descent with Momentum, GDM)
· Nesterov Momentum
· AdaGrad
· RMSProp
· Adam(Adaptive Moments)
· 共轭梯度法(Conjugate Gradient)
· 遗传算法(Genetic Algorithm)
· 粒子群算法
\qquad· 基础知识
\qquad· 带惯性权重的粒子群算法
\qquad· 改进的粒子群算法
· 模拟退火算法(Simulated Annealing,SA)


RMSProp算法修改AdaGrad以在非凸设定下效果更好,改变梯度积累为指数加权的移动平均。AdaGrad旨在应用于凸问题时快速收敛。当应用于非凸函数训练神经网络时,学习轨迹可能穿过了很多不同的结构,最终到达一个局部凸的区域。AdaGrad根据平方梯度的整个历史收缩学习率,可能使得学习率在达到这样的凸结构前就变得太小了。RMSProp使用指数衰减平均以丢弃遥远过去的历史,使其能够在找到凸碗状结构后快速收敛,它就像一个初始化于该碗状结构的AdaGrad算法实例。相比于AdaGrad,使用移动平均引入了一个新的超参数ρ\rhoρ,用来控制移动平均的长度范围。

RMSProp算法
输入:全局学习率ϵ\epsilonϵ;衰减速率ρ\rhoρ;初始参数θ\thetaθ;小常数δ\deltaδ(为了数值稳定大约设为10−610^{-6}10−6;
输出:神经网络参数θ\thetaθ
(1) 初始化梯度累积变量r=0r=0r=0
(2) while停止准则未满足\quad\text{停止准则未满足}停止准则未满足
(1) \quad从训练集中采包含mmm个样本{x(1),x(2),⋯,x(m)}\{x^{(1)}, x^{(2)}, \cdots, x^{(m)}\}{x(1),x(2),⋯,x(m)}的小批量,其中x(i)x^{(i)}x(i)对应目标为y(i)y^{(i)}y(i)
(2) \quad计算梯度估计:g=1m∇θ∑iL(f(x(i);θ),y(i))g = \frac{1}{m}\nabla_\theta\sum_iL(f(x^{(i)}; \theta), y^{(i)})g=m1​∇θ​∑i​L(f(x(i);θ),y(i))
(3) \quad累积平方梯度:r=ρr+(1−ρ)g⊙gr=\rho r+(1-\rho)g\odot gr=ρr+(1−ρ)g⊙g
(4) \quad更新参数:θ=θ−ϵδ+t⊙g\theta=\theta-\frac{\epsilon}{\delta+t}\odot gθ=θ−δ+tϵ​⊙g
(5) return θ\thetaθ

以及使用Nesterov Momentum的RMSProp算法:

使用Nesterov Momentum的RMSProp算法
输入:全局学习率ϵ\epsilonϵ;衰减速率ρ\rhoρ;初始参数θ\thetaθ;小常数δ\deltaδ(为了数值稳定大约设为10−610^{-6}10−6;动量系数α\alphaα;vvv
输出:神经网络参数θ\thetaθ
(1) 初始化梯度累积变量r=0r=0r=0
(2) while停止准则未满足\quad\text{停止准则未满足}停止准则未满足
(1) \quad从训练集中采包含mmm个样本{x(1),x(2),⋯,x(m)}\{x^{(1)}, x^{(2)}, \cdots, x^{(m)}\}{x(1),x(2),⋯,x(m)}的小批量,其中x(i)x^{(i)}x(i)对应目标为y(i)y^{(i)}y(i)
(2) \quad计算梯度估计:gk=1m∇θ+αv∑iL(f(x(i);θ+αv),y(i))g_k = \frac{1}{m}\nabla_{\theta+\alpha v}\sum_iL(f(x^{(i)}; \theta+\alpha v), y^{(i)})gk​=m1​∇θ+αv​∑i​L(f(x(i);θ+αv),y(i))
(3) \quad累积平方梯度:r=ρr+(1−ρ)g⊙gr=\rho r+(1-\rho)g\odot gr=ρr+(1−ρ)g⊙g
(4) \quad计算速度更新:v=αv−ϵr⊙gv=\alpha v-\frac{\epsilon}{\sqrt{r}}\odot gv=αv−r​ϵ​⊙g
(4) \quad更新参数:θ=θ−ϵδ+t⊙g\theta=\theta-\frac{\epsilon}{\delta+t}\odot gθ=θ−δ+tϵ​⊙g
(5) return θ\thetaθ

经验上,RMSProp已被证明是一种有效且实用的深度神经网络优化算法。目前它是深度学习从业者经常采用的优化方法之一。

机器学习中的数学——RMSProp相关推荐

  1. 机器学习中的数学——拟牛顿法(Quasi-Newton Methods)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  2. 机器学习中的数学——Adam(Adaptive Moments)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  3. 机器学习中的数学——粒子群算法(Particle Swarm Optimization, PSO)(三):改进的粒子群算法

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  4. 机器学习中的数学——牛顿迭代法(Newton‘s Method)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  5. 机器学习中的数学——模拟退火算法(Simulated Annealing,SA)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  6. 机器学习中的数学——遗传算法(Genetic Algorithm)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  7. 机器学习中的数学——共轭梯度法(Conjugate Gradient)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  8. 机器学习中的数学 人工智能深度学习技术丛书

    作者:孙博 著 出版社:中国水利水电出版社 品牌:智博尚书 出版时间:2019-11-01 机器学习中的数学 人工智能深度学习技术丛书 ISBN:9787517077190

  9. 机器学习中的数学:一份新鲜出炉的热门草稿

    来源:机器之心 本文约1500字,建议阅读5分钟. 本文为你分享近日<Mathematics for Machine Learning>的全部草稿已放出,我们整理了这本书的简要概述. 近日 ...

最新文章

  1. 使用终端建立自己需要工程
  2. 车模厂商能否用点心?
  3. 单一窗口关区备案_【干货】上海国际贸易单一窗口货物申报对接版(信天翁)“两段准入” 操作手册...
  4. [摘自MSDN] ASP.Net2.0学习 [1] 母版页 2 : 创建和使用 ASP.NET 母版页
  5. w3c+html+格式转换,HTML 转义字符
  6. 送30块树莓派PICO 开发板!
  7. linux generic什么意思_Linux下ps aux中进程状态为Ss,S+, Rs,Ds是什么意思?
  8. 理解 static 关键字
  9. 安装dubbo管理控制台
  10. 基于C/S模式的客户端软件系统
  11. 常用的URL Scheme [不断更新种]
  12. JQuery属性选择器
  13. 苹果发布iOS10.2.1 ,别升级!别问为什么
  14. 温度传感器采集温度数据通过网关上传至ThingsBoard平台
  15. c语言程序课程设计题目
  16. linux电脑开机蓝屏,Windows 7电脑开机蓝屏怎么办 电脑开机蓝屏解决方法linux操作系统 -电脑资料...
  17. base64转图片+图片转base64
  18. SQLServer bigint 转 int带符号转换函数(原创)
  19. 再快一点?动态内容如何加速
  20. 1.1光线、人类视觉和色彩空间

热门文章

  1. 大数据应用于市场与用户研究
  2. hadoop3.x——上传命令(Shell)
  3. SQLite3数据库的快速入门菜鸟教程
  4. 形参和实参,传值和传址
  5. 神经网络实现Mnist数据集简单分类
  6. 三毛最伤心的一百句话
  7. MySQL慢查询语句
  8. linux开启关闭Redis
  9. CentOS 7下安装TeamViewer
  10. 代码放进word_在Word中插入代码并高亮显示(针对会编程的小伙伴)