深度学习优化算法大全系列7:NAdam，算法选择，调参

1.NAdam集大成

前面我们讲Adam的时候，提到Adam是Adaptive+Momentum。更前面的时候，我们还提到Nesterov，如果把Nesterov跟Adam结果，就是我们最后的集大成者NAdam。

class Nadam(Optimizer):"""Nesterov Adam optimizer.Much like Adam is essentially RMSprop with momentum,Nadam is Adam RMSprop with Nesterov momentum.Default parameters follow those provided in the paper.It is recommended to leave the parameters of this optimizerat their default values.Arguments:lr: float >= 0. Learning rate.beta_1/beta_2: floats, 0 < beta < 1. Generally close to 1.epsilon: float >= 0. Fuzz factor. If `None`, defaults to `K.epsilon()`."""def __init__(self,lr=0.002,beta_1=0.9,beta_2=0.999,epsilon=None,schedule_decay=0.004,**kwargs):super(Nadam, self).__init__(**kwargs)with K.name_scope(self.__class__.__name__):self.iterations = K.variable(0, dtype='int64', name='iterations')self.m_schedule = K.variable(1., name='m_schedule')self.lr = K.variable(lr, name='lr')self.beta_1 = K.variable(beta_1, name='beta_1')self.beta_2 = K.variable(beta_2, name='beta_2')if epsilon is None:epsilon = K.epsilon()self.epsilon = epsilonself.schedule_decay = schedule_decay
...

tensorflow中Nadam源码，开篇两句话就揭示了本质：
1.Adam的本质是带动量的RMSprop。
2.Nadam是带Nesterov动量的Adam RMSprop。

其β1,β2\beta_1, \beta_2β1,β2等参数与Adam的含义与数值都是一致的。

2.如何选择优化算法

1.如果数据稀疏，一般自适应算法比较好，比如AdaGrad, AdaDelta, RMSProp, Adam等。
2.一般来说，Adam会是一个不错的选择。
3.可以在训练初始阶段，采用Adam提升收敛速度，后期在切换到SGD进行调优。

参考文献

https://zhuanlan.zhihu.com/p/32338983

深度学习优化算法大全系列7:NAdam，算法选择，调参相关推荐

Adam 那么棒，为什么还对 SGD 念念不忘？一个框架看懂深度学习优化算法
作者|Juliuszh 链接 | https://zhuanlan.zhihu.com/juliuszh 本文仅作学术分享,若侵权,请联系后台删文处理机器学习界有一群炼丹师,他们每天的日常是: 拿来 ...
深度学习优化算法的总结与梳理（从 SGD 到 AdamW 原理和代码解读）
作者丨科技猛兽转自丨极市平台本文思想来自下面这篇大佬的文章: Juliuszh:一个框架看懂优化算法之异同 SGD/AdaGrad/Adam https://zhuanlan.zhihu.com/ ...
adam算法效果差原因_深度学习优化器-Adam两宗罪
在上篇文章中,我们用一个框架来回顾了主流的深度学习优化算法.可以看到,一代又一代的研究者们为了我们能炼(xun)好(hao)金(mo)丹(xing)可谓是煞费苦心.从理论上看,一代更比一代完善,Ada ...
大梳理！深度学习优化算法：从 SGD 到 AdamW 原理和代码解读
‍ 作者丨知乎科技猛兽极市平台编辑 https://zhuanlan.zhihu.com/p/391947979 本文思想来自下面这篇大佬的文章: Juliuszh:一个框架看懂优化算法之异同 ...
深度学习优化算法，Adam优缺点分析
优化算法首先我们来回顾一下各类优化算法. 深度学习优化算法经历了 SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -& ...
Adam那么棒，为什么还对SGD念念不忘？一个框架看懂深度学习优化算法
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达作者|Juliuszh,https://zhuanlan.zhih ...
重磅 | 2017年深度学习优化算法研究亮点最新综述火热出炉
翻译 | AI科技大本营(微信ID:rgznai100) 梯度下降算法是机器学习中使用非常广泛的优化算法,也是众多机器学习算法中最常用的优化方法.几乎当前每一个先进的(state-of-the-art ...
2017年深度学习优化算法最新进展：改进SGD和Adam方法
2017年深度学习优化算法最新进展:如何改进SGD和Adam方法转载的文章,把个人觉得比较好的摘录了一下 AMSGrad 这个前期比sgd快,不能收敛到最优. sgdr 余弦退火的方案比较好最近的 ...
2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？
2017年深度学习优化算法最新进展:如何改进SGD和Adam方法? 深度学习的基本目标,就是寻找一个泛化能力强的最小值,模型的快速性和可靠性也是一个加分点. 随机梯度下降(SGD)方法是1951年由R ...
Pytorch框架的深度学习优化算法集(优化中的挑战)
个人简介:CSDN百万访问量博主,普普通通男大学生,深度学习算法.医学图像处理专攻,偶尔也搞全栈开发,没事就写文章,you feel me? 博客地址:lixiang.blog.csdn.net Py ...

深度学习优化算法大全系列7:NAdam，算法选择，调参

1.NAdam集大成

2.如何选择优化算法

参考文献

深度学习优化算法大全系列7:NAdam，算法选择，调参相关推荐

最新文章

热门文章