机器学习中的数学——Nesterov Momentum

分类目录：《机器学习中的数学》总目录
相关文章：
· 梯度下降法（Gradient Descent）
· 随机梯度下降（Stochastic Gradient Descent, SGD）
· 牛顿迭代法（Newton‘s Method）
· 拟牛顿法（Quasi-Newton Methods）
· Momentum（Gradient Descent with Momentum, GDM）
· Nesterov Momentum
· AdaGrad
· RMSProp
· Adam（Adaptive Moments）
· 共轭梯度法（Conjugate Gradient）
· 遗传算法（Genetic Algorithm）
· 粒子群算法
\qquad· 基础知识
\qquad· 带惯性权重的粒子群算法
\qquad· 改进的粒子群算法
· 模拟退火算法（Simulated Annealing，SA）

受Nesterov Accelerated Gradient算法的启发，Sutskever提出了动量算法的一个变种。这种情况的更新规则如下：
v=αv−ϵ∇θ[1m∑i=1mL(f(x(i));θ+αv),y(i)]θ=θ+vv=\alpha v-\epsilon\nabla_\theta[\frac{1}{m}\sum_{i=1}^mL(f(x^{(i)});\theta+\alpha v), y^{(i)}]\\ \quad\\ \theta=\theta+vv=αv−ϵ∇θ[m1i=1∑mL(f(x(i));θ+αv),y(i)]θ=θ+v

其中参数α\alphaα和ϵ\epsilonϵ发挥了和标准动量方法中类似的作用。Nesterov动量和标准动量之间的区别体现在梯度计算上。Nesterov动量中，梯度计算在施加当前速度之后。因此，Nesterov动量可以解释为往标准动量方法中添加了一个校正因子。

Nesterov Momentum第kkk次迭代
输入：学习率ϵ\epsilonϵ；初始化参数θ0\theta_0θ0或第k−1k-1k−1次输出参数θk−1\theta_{k-1}θk−1；动量参数α\alphaα；第k−1k-1k−1次输出速度vk−1v_{k-1}vk−1
输出：第kkk次迭代后的参数θk\theta_kθk
(1) while停止准则为满足\quad\text{停止准则为满足}停止准则为满足
(2) \quad从训练集中采包含mmm个样本{x(1),x(2),⋯,x(m)}\{x^{(1)}, x^{(2)}, \cdots, x^{(m)}\}{x(1),x(2),⋯,x(m)}的小批量，其中x(i)x^{(i)}x(i)对应目标为y(i)y^{(i)}y(i)
(3) \quad计算梯度估计：gk=1m∇θ+αv∑iL(f(x(i);θ+αv),y(i))g_k = \frac{1}{m}\nabla_{\theta+\alpha v}\sum_iL(f(x^{(i)}; \theta+\alpha v), y^{(i)})gk=m1∇θ+αv∑iL(f(x(i);θ+αv),y(i))
(4) vk=αvk−1−ϵgk\quad v_k = \alpha v_{k-1} - \epsilon g_kvk=αvk−1−ϵgk
(5) θk=θk−1+v\quad\theta_k = \theta_{k-1}+ vθk=θk−1+v
(6) k=k+1\quad k = k + 1k=k+1
(7) return θk\theta_kθk

在凸批量梯度的情况下，Nesterov Momentum将额外误差收敛率从O(1k)O(\frac{1}{k})O(k1)（k步后）改进到O(1k2)O(\frac{1}{k^2})O(k21)。可惜，在随机梯度的情况下，Nesterov Momentum没有改进收敛率。

机器学习中的数学——Nesterov Momentum相关推荐

机器学习中的数学——拟牛顿法（Quasi-Newton Methods）
分类目录:<机器学习中的数学>总目录相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...
机器学习中的数学——Adam（Adaptive Moments）
分类目录:<机器学习中的数学>总目录相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...
机器学习中的数学——粒子群算法（Particle Swarm Optimization, PSO）（三）：改进的粒子群算法
分类目录:<机器学习中的数学>总目录相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...
机器学习中的数学——牛顿迭代法（Newton‘s Method）
分类目录:<机器学习中的数学>总目录相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...
机器学习中的数学——模拟退火算法（Simulated Annealing，SA）
分类目录:<机器学习中的数学>总目录相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...
机器学习中的数学——遗传算法（Genetic Algorithm）
分类目录:<机器学习中的数学>总目录相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...
机器学习中的数学——RMSProp
分类目录:<机器学习中的数学>总目录相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...
机器学习中的数学——共轭梯度法（Conjugate Gradient）
分类目录:<机器学习中的数学>总目录相关文章: · 梯度下降法(Gradient Descent) · 随机梯度下降(Stochastic Gradient Descent, SGD) ...
机器学习中的数学人工智能深度学习技术丛书
作者:孙博著出版社:中国水利水电出版社品牌:智博尚书出版时间:2019-11-01 机器学习中的数学人工智能深度学习技术丛书 ISBN:9787517077190
机器学习中的数学：一份新鲜出炉的热门草稿
来源:机器之心本文约1500字,建议阅读5分钟. 本文为你分享近日<Mathematics for Machine Learning>的全部草稿已放出,我们整理了这本书的简要概述. 近日 ...

机器学习中的数学——Nesterov Momentum

机器学习中的数学——Nesterov Momentum相关推荐

最新文章

热门文章