1.NAdam集大成

前面我们讲Adam的时候,提到Adam是Adaptive+Momentum。更前面的时候,我们还提到Nesterov,如果把Nesterov跟Adam结果,就是我们最后的集大成者NAdam。

class Nadam(Optimizer):"""Nesterov Adam optimizer.Much like Adam is essentially RMSprop with momentum,Nadam is Adam RMSprop with Nesterov momentum.Default parameters follow those provided in the paper.It is recommended to leave the parameters of this optimizerat their default values.Arguments:lr: float >= 0. Learning rate.beta_1/beta_2: floats, 0 < beta < 1. Generally close to 1.epsilon: float >= 0. Fuzz factor. If `None`, defaults to `K.epsilon()`."""def __init__(self,lr=0.002,beta_1=0.9,beta_2=0.999,epsilon=None,schedule_decay=0.004,**kwargs):super(Nadam, self).__init__(**kwargs)with K.name_scope(self.__class__.__name__):self.iterations = K.variable(0, dtype='int64', name='iterations')self.m_schedule = K.variable(1., name='m_schedule')self.lr = K.variable(lr, name='lr')self.beta_1 = K.variable(beta_1, name='beta_1')self.beta_2 = K.variable(beta_2, name='beta_2')if epsilon is None:epsilon = K.epsilon()self.epsilon = epsilonself.schedule_decay = schedule_decay
...

tensorflow中Nadam源码,开篇两句话就揭示了本质:
1.Adam的本质是带动量的RMSprop。
2.Nadam是带Nesterov动量的Adam RMSprop。

其β1,β2\beta_1, \beta_2β1​,β2​等参数与Adam的含义与数值都是一致的。

2.如何选择优化算法

1.如果数据稀疏,一般自适应算法比较好,比如AdaGrad, AdaDelta, RMSProp, Adam等。
2.一般来说,Adam会是一个不错的选择。
3.可以在训练初始阶段,采用Adam提升收敛速度,后期在切换到SGD进行调优。

参考文献

https://zhuanlan.zhihu.com/p/32338983

深度学习优化算法大全系列7:NAdam,算法选择,调参相关推荐

  1. Adam 那么棒,为什么还对 SGD 念念不忘?一个框架看懂深度学习优化算法

    作者|Juliuszh 链接 | https://zhuanlan.zhihu.com/juliuszh 本文仅作学术分享,若侵权,请联系后台删文处理 机器学习界有一群炼丹师,他们每天的日常是: 拿来 ...

  2. 深度学习优化算法的总结与梳理(从 SGD 到 AdamW 原理和代码解读)

    作者丨科技猛兽 转自丨极市平台 本文思想来自下面这篇大佬的文章: Juliuszh:一个框架看懂优化算法之异同 SGD/AdaGrad/Adam https://zhuanlan.zhihu.com/ ...

  3. adam算法效果差原因_深度学习优化器-Adam两宗罪

    在上篇文章中,我们用一个框架来回顾了主流的深度学习优化算法.可以看到,一代又一代的研究者们为了我们能炼(xun)好(hao)金(mo)丹(xing)可谓是煞费苦心.从理论上看,一代更比一代完善,Ada ...

  4. 大梳理!深度学习优化算法:从 SGD 到 AdamW 原理和代码解读

    ‍ 作者丨知乎 科技猛兽  极市平台 编辑 https://zhuanlan.zhihu.com/p/391947979 本文思想来自下面这篇大佬的文章: Juliuszh:一个框架看懂优化算法之异同 ...

  5. 深度学习优化算法,Adam优缺点分析

    优化算法 首先我们来回顾一下各类优化算法. 深度学习优化算法经历了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -& ...

  6. Adam那么棒,为什么还对SGD念念不忘?一个框架看懂深度学习优化算法

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者|Juliuszh,https://zhuanlan.zhih ...

  7. 重磅 | 2017年深度学习优化算法研究亮点最新综述火热出炉

    翻译 | AI科技大本营(微信ID:rgznai100) 梯度下降算法是机器学习中使用非常广泛的优化算法,也是众多机器学习算法中最常用的优化方法.几乎当前每一个先进的(state-of-the-art ...

  8. 2017年深度学习优化算法最新进展:改进SGD和Adam方法

    2017年深度学习优化算法最新进展:如何改进SGD和Adam方法 转载的文章,把个人觉得比较好的摘录了一下 AMSGrad 这个前期比sgd快,不能收敛到最优. sgdr 余弦退火的方案比较好 最近的 ...

  9. 2017年深度学习优化算法最新进展:如何改进SGD和Adam方法?

    2017年深度学习优化算法最新进展:如何改进SGD和Adam方法? 深度学习的基本目标,就是寻找一个泛化能力强的最小值,模型的快速性和可靠性也是一个加分点. 随机梯度下降(SGD)方法是1951年由R ...

  10. Pytorch框架的深度学习优化算法集(优化中的挑战)

    个人简介:CSDN百万访问量博主,普普通通男大学生,深度学习算法.医学图像处理专攻,偶尔也搞全栈开发,没事就写文章,you feel me? 博客地址:lixiang.blog.csdn.net Py ...

最新文章

  1. 【资源】NLP 算法工程师相关的面试题
  2. java string.indexof(string)_Java StringBuffer indexOf()方法
  3. 【读书笔记】C#高级编程 第一章
  4. 微软即将修复Windows 2000漏洞
  5. html相册魔方代码,魔方相册制作方法现成的魔方相册代码:
  6. 怎么选择论文查重软件?
  7. 单片机快速开根号函数
  8. box-sizing属性是什么
  9. 爱的能力(徐博客写的-收藏下)
  10. python分组统计excel数据_在python中对数据进行分组并与excel进行比较
  11. scrapy开始初始下载
  12. Windows常见扩展名介绍
  13. Watering Grass UUV 1038 贪心
  14. 机械革命z3pro笔记本U盘重装win10系统教学
  15. CSAPP实验记录(2)--------- Bomb
  16. 概论_第2章_分布函数、概率密度函数的一些结论
  17. 大数据助公交行业降成本提效率
  18. 机器学习中的数学(1):MIT大牛写的综述
  19. 最强大脑唯爱水哥、ACM敬佩楼教主
  20. 方差、协方差、标准差、均方差、均方根值、均方误差、均方根

热门文章

  1. 基于node.js的微博博客实现
  2. 2017.11.21 MS Power BI training
  3. HDU 2504 又见GCD(最大公约数与最小公倍数变形题)
  4. MySQL之用Mysql-Proxy实现读写分离
  5. HTML5新标签-Video
  6. 【linux】ubuntu更改mysql数据文件路径
  7. 两招轻松恢复误Ghost的硬盘
  8. 软件测试,从零开始:测试新手入门必读
  9. 03 回归算法 - 线性回归求解 θ(最小二乘求解)
  10. SDUT OJ 数据结构实验之串一:KMP简单应用 浅谈对看毛片算法的理解