分类目录:《机器学习中的数学》总目录
相关文章:
· 梯度下降法(Gradient Descent)
· 随机梯度下降(Stochastic Gradient Descent, SGD)
· 牛顿迭代法(Newton‘s Method)
· 拟牛顿法(Quasi-Newton Methods)
· Momentum(Gradient Descent with Momentum, GDM)
· Nesterov Momentum
· AdaGrad
· RMSProp
· Adam(Adaptive Moments)
· 共轭梯度法(Conjugate Gradient)
· 遗传算法(Genetic Algorithm)
· 粒子群算法
\qquad· 基础知识
\qquad· 带惯性权重的粒子群算法
\qquad· 改进的粒子群算法
· 模拟退火算法(Simulated Annealing,SA)


受Nesterov Accelerated Gradient算法的启发,Sutskever提出了动量算法的一个变种。这种情况的更新规则如下:
v=αv−ϵ∇θ[1m∑i=1mL(f(x(i));θ+αv),y(i)]θ=θ+vv=\alpha v-\epsilon\nabla_\theta[\frac{1}{m}\sum_{i=1}^mL(f(x^{(i)});\theta+\alpha v), y^{(i)}]\\ \quad\\ \theta=\theta+vv=αv−ϵ∇θ​[m1​i=1∑m​L(f(x(i));θ+αv),y(i)]θ=θ+v

其中参数α\alphaα和ϵ\epsilonϵ发挥了和标准动量方法中类似的作用。Nesterov动量和标准动量之间的区别体现在梯度计算上。Nesterov动量中,梯度计算在施加当前速度之后。因此,Nesterov动量可以解释为往标准动量方法中添加了一个校正因子。

Nesterov Momentum第kkk次迭代
输入:学习率ϵ\epsilonϵ;初始化参数θ0\theta_0θ0​或第k−1k-1k−1次输出参数θk−1\theta_{k-1}θk−1​;动量参数α\alphaα;第k−1k-1k−1次输出速度vk−1v_{k-1}vk−1​
输出:第kkk次迭代后的参数θk\theta_kθk​
(1) while停止准则为满足\quad\text{停止准则为满足}停止准则为满足
(2) \quad从训练集中采包含mmm个样本{x(1),x(2),⋯,x(m)}\{x^{(1)}, x^{(2)}, \cdots, x^{(m)}\}{x(1),x(2),⋯,x(m)}的小批量,其中x(i)x^{(i)}x(i)对应目标为y(i)y^{(i)}y(i)
(3) \quad计算梯度估计:gk=1m∇θ+αv∑iL(f(x(i);θ+αv),y(i))g_k = \frac{1}{m}\nabla_{\theta+\alpha v}\sum_iL(f(x^{(i)}; \theta+\alpha v), y^{(i)})gk​=m1​∇θ+αv​∑i​L(f(x(i);θ+αv),y(i))
(4) vk=αvk−1−ϵgk\quad v_k = \alpha v_{k-1} - \epsilon g_kvk​=αvk−1​−ϵgk​
(5) θk=θk−1+v\quad\theta_k = \theta_{k-1}+ vθk​=θk−1​+v
(6) k=k+1\quad k = k + 1k=k+1
(7) return θk\theta_kθk​

在凸批量梯度的情况下,Nesterov Momentum将额外误差收敛率从O(1k)O(\frac{1}{k})O(k1​)(k步后)改进到O(1k2)O(\frac{1}{k^2})O(k21​)。可惜,在随机梯度的情况下,Nesterov Momentum没有改进收敛率。

机器学习中的数学——Nesterov Momentum相关推荐

  1. 机器学习中的数学——拟牛顿法(Quasi-Newton Methods)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  2. 机器学习中的数学——Adam(Adaptive Moments)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  3. 机器学习中的数学——粒子群算法(Particle Swarm Optimization, PSO)(三):改进的粒子群算法

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  4. 机器学习中的数学——牛顿迭代法(Newton‘s Method)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  5. 机器学习中的数学——模拟退火算法(Simulated Annealing,SA)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  6. 机器学习中的数学——遗传算法(Genetic Algorithm)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  7. 机器学习中的数学——RMSProp

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  8. 机器学习中的数学——共轭梯度法(Conjugate Gradient)

    分类目录:<机器学习中的数学>总目录 相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...

  9. 机器学习中的数学 人工智能深度学习技术丛书

    作者:孙博 著 出版社:中国水利水电出版社 品牌:智博尚书 出版时间:2019-11-01 机器学习中的数学 人工智能深度学习技术丛书 ISBN:9787517077190

  10. 机器学习中的数学:一份新鲜出炉的热门草稿

    来源:机器之心 本文约1500字,建议阅读5分钟. 本文为你分享近日<Mathematics for Machine Learning>的全部草稿已放出,我们整理了这本书的简要概述. 近日 ...

最新文章

  1. 如何使用Python的进度条?
  2. 学术 | 据说以后在探头下面用帽子挡脸没用了:用于遮挡物检测的对称卷积神经网络——SymmNet...
  3. 2020春季学期作业提交统计处理
  4. C++知识点56——类模板(1、模板类的介绍)
  5. Python跨文件全局变量的方法
  6. 图像去模糊之初探--Single Image Motion Deblurring
  7. 论文浅尝 | AMUSE: 基于 RDF 数据的多语言问答语义解析方法
  8. 创办私营企业必做的16件事
  9. Python 之父重回决策层,未来如何发展?
  10. 执行DBMS_METADATA.get_ddl报ORA-39212的解决方法
  11. git本地项目怎么上传到仓库
  12. 人工智能中常用的词汇
  13. 自适应PC端网页制作使用rem
  14. VMvare虚拟机删除快照时卡住的解决办法
  15. 如何做一份详细的百度推广投放方案
  16. Web2.0的系统架构与六大关键问题
  17. 旷厂练习生Vol.10 | 一名“旷视大学3年级研究生”的观察报告
  18. 2 Java并发原理精讲课程学习笔记
  19. javascript取本周星期一到星期天对应日期的通用方法
  20. 【BZOJ1003】【ZJOI2006】物流运输trans 最短路预处理+动态规划

热门文章

  1. 新入职公司离职率高怎么办
  2. 序列化和反序列化 加上json数据流转换
  3. IDC机房的网络防火墙设备
  4. 唤醒手腕Python全栈工程师学习笔记(人工智能篇)
  5. Jquery获取input file的base64码
  6. win10计算机系统优化设置,这些简单优化能让你的Win10流畅很多
  7. cocos2dx[2.x](9)--编辑框之一CCTextFieldTTF
  8. WeaveSocket框架-Unity太空大战游戏-客户端-3
  9. chorme唤起Java开发的本地程序全采坑记
  10. display属性详解