2 PRELIMINARIES

Primitives: L(θ) loss函数;   L^(θ)近似器;    函数L的梯度;g; a; s; v; w存储缓冲区,都可以用下标t表示;g动量缓冲;

Optimization algorithms:
词:1.perform a sequence of steps  执行一系列步骤 2.rather than as full  pseudocode  而不是完整的伪代码
总体更新规则:

SGD:    

Momentum:,当时,即为SGD优化算法。控制动量的更新速度;在随机设置中,也控制归一化动量的方差。通常取0.9. 通过归一化或减弱g。这既消除了更新步长对beta的依赖,并且合理解释g是过去梯度的加权平均。

3.ALGORITHM: QUASI-HYPERBOLIC MOMENTUM (QHM)

QHM:,建议v=0.7,beta=0.9999.

Interpretation:短语:1.exponential discount factor 指数加权因子  2.immediate discount factor立即加权因子  3.encapsulating封装4.at first glance 乍一看 5. identical to 等同于
v=0时为SGD,v=1时为SGDM,v是动量更新步长和原始SGD更新步长的加权平均。

QHM vs. momentum:QHM是beta和1-beta的耦合。

Variance reduction:1.speculative推测性的

4 CONNECTIONS TO OTHER ALGORITHMS

4.1 NESTEROV’S ACCELERATED GRADIENT

QHM reconers NAG with v=beta.

QUASI-HYPERBOLIC (拟双曲线) MOMENTUM AND ADAM FOR DEEP LEARNING——精读相关推荐

  1. DL之DNN优化技术:DNN优化器的参数优化—更新参数的四种最优化方法(SGD/Momentum/AdaGrad/Adam)的案例理解、图表可视化比较

    DL之DNN优化技术:DNN优化器的参数优化-更新参数的四种最优化方法(SGD/Momentum/AdaGrad/Adam)的案例理解.图表可视化比较 目录 四种最优化方法简介 优化器案例理解 输出结 ...

  2. DL之DNN:自定义MultiLayerNet(5*100+ReLU+SGD/Momentum/AdaGrad/Adam四种最优化)对MNIST数据集训练进而比较不同方法的性能

    DL之DNN:自定义MultiLayerNet(5*100+ReLU+SGD/Momentum/AdaGrad/Adam四种最优化)对MNIST数据集训练进而比较不同方法的性能 目录 输出结果 设计思 ...

  3. 机器学习:优化算法Optimizer比较和总结(SGD/BGD/MBGD/Momentum/Adadelta/Adam/RMSprop)

    文章目录 梯度下降法(Gradient Descent) 批量梯度下降法BGD 随机梯度下降法SGD 小批量梯度下降法 动量优化法 Momentum NAG(Nesterov accelerated ...

  4. 《On the Momentum Term in Gradient Descent Learning Algorithm》原文解读

    ############博主前言####################### 我写这篇文章的目的: 想必很多人听过神经网络中的momentum算法, 但是为啥叫momentum(动量)算法呢? 和物 ...

  5. 【深度学习】——梯度下降优化算法(批量梯度下降、随机梯度下降、小批量梯度下降、Momentum、Adam)

    目录 梯度 梯度下降 常用的梯度下降算法(BGD,SGD,MBGD) 梯度下降的详细算法 算法过程 批量梯度下降法(Batch Gradient Descent) 随机梯度下降法(Stochastic ...

  6. NN学习技巧之参数最优化的四种方法对比(SGD, Momentum, AdaGrad, Adam),基于MNIST数据集

    前面几篇博文分析了每一种参数优化方案,现在做一个对比,代码参考斋藤的红鱼书第六章. 实验对mnist数据集的6万张图片训练,使用5层全连接神经网络(4个隐藏层,每个隐藏层有100个神经元),共迭代20 ...

  7. 深度学习入门——Mini-batch、Momentum与Adam算法

    基于不同优化算法更新神经网络中的参数 学习记录自:deeplearning.ai-andrewNG-master 一. 优化算法概述 1.1 常用优化算法 在机器学习或深度学习中,一般采取梯度下降对参 ...

  8. 【代码】优化算法BGD、SGD、Momentum、Adam算法python实现

    目前优化算法主要用的就是梯度下降算法,在原始梯度下降的基础上变化出很多更加优秀的算法.发展历史为:BGD ⇒\Rightarrow⇒ SGD ⇒\Rightarrow⇒ SGDM ⇒\Rightarr ...

  9. python实现mini-batch_Mini-Batch 、Momentum、Adam算法的实现

    def random_mini_batches(X,Y,mini_batch_size=64,seed=0):"""从(X,Y)中创建一个随机的mini-batch列表 ...

最新文章

  1. usaco ★Longest Prefix 最长前缀
  2. javascript常用排序算法总结
  3. Android --- 刚刚进入 Activity 页面的时候无法打开对话框,报错 Unable to add window -- token null is not valid; is your
  4. 比较简单的在线图像编辑软件:觉得还行
  5. C++ map 中的reverse_iterator
  6. P4051-[JSOI2007]字符加密【SA】
  7. 太省事了!高分SCI全套优质模板下载
  8. 谷歌公布4个0day详情,其中3个被滥用于攻击亚美尼亚
  9. 解决:/system/bin/sh: /system/bin/test-ndk: not executable: magic 7F45报错
  10. 转Openstack Ceilometer监控项扩展
  11. arma找不到合适的模型_愉悦宝贝丨投资水育早教找不到合适品牌?那是因为你没遇到愉悦宝贝!...
  12. LEARNING TO EXPLORE USING ACTIVE NEURAL SLAM
  13. 学渣的c#复习手记 类 一
  14. 信息与通信工程专业知识点预览(复试必看)
  15. 快速创建精彩的Flash游戏之一:Flash游戏引擎及框架介绍
  16. 互联网公司的监控运维
  17. eclipse启动慢?试试如下操作
  18. 计算机科学与计算相关的文献,计算机类专业毕业论文参考文献大全
  19. 一起来围观软件测试工程师月薪20K的简历
  20. 原生js实现的金山打字小游戏

热门文章

  1. MPU9250的详细功能
  2. 替代MP9486A 输入120V降压恒压IC方案 GPS防盗器IC方案
  3. 怎么在第一个 PDF 文件的中间,插入第二个 PDF 文件的内容?
  4. 【附源码】Java计算机毕业设计旅游管理系统(程序+LW+部署)
  5. 【总结】1296- 总结 12 个常见移动端 H5 与 Hybrid 开发问题
  6. 膨胀卷积(空洞卷积)学习篇
  7. 软件质量属性的两个模型(Software Quality Attributes)—中英文对照
  8. 1、字符串与数字相互转换
  9. 超火壁纸!隐藏 Dock 栏+AirTag 渐变
  10. php输出次方,php如何实现数值的整数次方(代码实例)