QUASI-HYPERBOLIC (拟双曲线) MOMENTUM AND ADAM FOR DEEP LEARNING—

2 PRELIMINARIES

Primitives: L(θ) loss函数； L^(θ)近似器；函数L的梯度；g; a; s; v; w存储缓冲区，都可以用下标t表示；g动量缓冲；

Optimization algorithms：
词：1.perform a sequence of steps 执行一系列步骤 2.rather than as full pseudocode 而不是完整的伪代码
总体更新规则：

SGD:

Momentum：，当时，即为SGD优化算法。控制动量的更新速度；在随机设置中，也控制归一化动量的方差。通常取0.9. 通过归一化或减弱g。这既消除了更新步长对beta的依赖，并且合理解释g是过去梯度的加权平均。

3.ALGORITHM: QUASI-HYPERBOLIC MOMENTUM (QHM)

QHM：，建议v=0.7，beta=0.9999.

Interpretation：短语：1.exponential discount factor 指数加权因子 2.immediate discount factor立即加权因子 3.encapsulating封装4.at first glance 乍一看 5. identical to 等同于
v=0时为SGD,v=1时为SGDM，v是动量更新步长和原始SGD更新步长的加权平均。

QHM vs. momentum：QHM是beta和1-beta的耦合。

Variance reduction：1.speculative推测性的

4 CONNECTIONS TO OTHER ALGORITHMS

4.1 NESTEROV’S ACCELERATED GRADIENT

QHM reconers NAG with v=beta.

QUASI-HYPERBOLIC (拟双曲线) MOMENTUM AND ADAM FOR DEEP LEARNING——精读相关推荐

DL之DNN优化技术：DNN优化器的参数优化—更新参数的四种最优化方法(SGD/Momentum/AdaGrad/Adam)的案例理解、图表可视化比较
DL之DNN优化技术:DNN优化器的参数优化-更新参数的四种最优化方法(SGD/Momentum/AdaGrad/Adam)的案例理解.图表可视化比较目录四种最优化方法简介优化器案例理解输出结 ...
DL之DNN：自定义MultiLayerNet(5*100+ReLU+SGD/Momentum/AdaGrad/Adam四种最优化)对MNIST数据集训练进而比较不同方法的性能
DL之DNN:自定义MultiLayerNet(5*100+ReLU+SGD/Momentum/AdaGrad/Adam四种最优化)对MNIST数据集训练进而比较不同方法的性能目录输出结果设计思 ...
机器学习：优化算法Optimizer比较和总结(SGD/BGD/MBGD/Momentum/Adadelta/Adam/RMSprop）
文章目录梯度下降法(Gradient Descent) 批量梯度下降法BGD 随机梯度下降法SGD 小批量梯度下降法动量优化法 Momentum NAG(Nesterov accelerated ...
《On the Momentum Term in Gradient Descent Learning Algorithm》原文解读
############博主前言####################### 我写这篇文章的目的: 想必很多人听过神经网络中的momentum算法, 但是为啥叫momentum(动量)算法呢? 和物 ...
【深度学习】——梯度下降优化算法（批量梯度下降、随机梯度下降、小批量梯度下降、Momentum、Adam）
目录梯度梯度下降常用的梯度下降算法(BGD,SGD,MBGD) 梯度下降的详细算法算法过程批量梯度下降法(Batch Gradient Descent) 随机梯度下降法(Stochastic ...
NN学习技巧之参数最优化的四种方法对比（SGD, Momentum, AdaGrad, Adam）,基于MNIST数据集
前面几篇博文分析了每一种参数优化方案,现在做一个对比,代码参考斋藤的红鱼书第六章. 实验对mnist数据集的6万张图片训练,使用5层全连接神经网络(4个隐藏层,每个隐藏层有100个神经元),共迭代20 ...
深度学习入门——Mini-batch、Momentum与Adam算法
基于不同优化算法更新神经网络中的参数学习记录自:deeplearning.ai-andrewNG-master 一. 优化算法概述 1.1 常用优化算法在机器学习或深度学习中,一般采取梯度下降对参 ...
【代码】优化算法BGD、SGD、Momentum、Adam算法python实现
目前优化算法主要用的就是梯度下降算法,在原始梯度下降的基础上变化出很多更加优秀的算法.发展历史为:BGD ⇒\Rightarrow⇒ SGD ⇒\Rightarrow⇒ SGDM ⇒\Rightarr ...
python实现mini-batch_Mini-Batch 、Momentum、Adam算法的实现
def random_mini_batches(X,Y,mini_batch_size=64,seed=0):"""从(X,Y)中创建一个随机的mini-batch列表 ...

QUASI-HYPERBOLIC (拟双曲线) MOMENTUM AND ADAM FOR DEEP LEARNING——精读

QUASI-HYPERBOLIC (拟双曲线) MOMENTUM AND ADAM FOR DEEP LEARNING——精读相关推荐

最新文章

热门文章