引言

Adam作为一个常用的深度学习优化方法,提出来的时候论文里的数据表现都非常好,但实际在使用中发现了不少问题,在许多数据集上表现都不如SGDM这类方法。
后续有许多工作针对Adam做了研究,之前整理过关于优化算法的发展历程:从Stochastic Gradient Descent到Adaptive Moment Estimation,里面也介绍了一些对于Adam效果不好的研究工作。
这篇论文依旧以此作为研究对象,原文参考:DECOUPLED WEIGHT DECAY REGULARIZATION。作者提出了一个简单, 但是很少有人注意的事实, 那就是现行的所有深度学习框架在处理Weight Decay的时候,都采用了L2正则的方法来做,但实际上,L2正则在自适应梯度方法中,如Adam,与Weight Decay并不等价。

算法

Weight Decay在优化算法中的意义,在于限制值比较大的权重,让整体模型的权重更加接近于零,这也是符合奥卡姆剃刀原理的,权重更小的模型被认为是更简单的模型,从而拥有更好的泛化性能。

对于SGD来说,L2正则与Weight Decay都可以用以下形式表达:

区别在于正则化操作在目标函数加上权重的L2范数,而Weight Decay则是在梯度更新位置直接减去部分权重,但是最终的表达形式是一致的,但是在Adam中存在自适应的学习率调整,假如依旧使用L2正则的方式实现Weight Decay,那么两个同样大小的权重,其中梯度较大的权重会下降得比另一个更小:

由上,二阶动量V会随着更新量的增加而自适应调整,导致相应的学习率下降,从而导致权重衰减变小。学习率和权重衰减之间存在很大的相关性,作者针对解耦两者关系提出了解决方法:

方法也很简单,作者按照原始Weight Decay的定义,直接将权重衰减加到优化器之后,将其与学习率解耦,真正发挥了Weight Decay的作用。

结果

作者实验了多种形式的模型,效果均比原始版本要好,具体参考原论文:

上面是对SGD和Adam的比较:

Figure 2 we compare the performance of L2 regularization vs decoupled weight decay in SGD (SGD vs. SGDW, top row) and in Adam(Adam vs. AdamW, bottom row).

左边为原始的实现方法,可以看到,学习率和权重衰减存在极大的相关性,而右边则为论文提出的方法,最优化的区域明显变大了,在这种情况下能够更加简单的进行参数调整从而搜索到最优点。

结论

提出了新的优化算法AdamW,解耦了学习率和Weight Decay实际上对所有自适应的优化算法都适用。

引用

1、DECOUPLED WEIGHT DECAY REGULARIZATION
2、https://blog.csdn.net/sinat_33741547/article/details/87367996

DECOUPLED WEIGHT DECAY REGULARIZATION相关推荐

  1. 深度学习:权重衰减(weight decay)与学习率衰减(learning rate decay)

    正则化方法:防止过拟合,提高泛化能力 避免过拟合的方法有很多:early stopping.数据集扩增(Data augmentation).正则化(Regularization)包括L1.L2(L2 ...

  2. 权值衰减weight decay的理解

    1. 介绍 权值衰减weight decay即L2正则化,目的是通过在Loss函数后加一个正则化项,通过使权重减小的方式,一定减少模型过拟合的问题. L1正则化:即对权重矩阵的每个元素绝对值求和, λ ...

  3. weight decay 的矩阵描述

    weight decay(权重衰减) 又叫regularization(正则化).下面叙述如何用矩阵简明的描述loss表达式,以及矩阵求导问题. loss表达式 L ( w , b ) = η 2 ∣ ...

  4. 权重衰减(weight decay)在贝叶斯推断(Bayesian inference)下的理解

    权重衰减(weight decay)在贝叶斯推断(Bayesian inference)下的理解 摘要 权重衰减 贝叶斯(Bayes inference) 视角下的权重衰减 似然函数(log like ...

  5. weight decay(权值衰减)、momentum(冲量)和normalization

    一.weight decay(权值衰减)的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合.在损失函数中,weight decay是放在正则项(regularizat ...

  6. tf.nn.l2_loss() 与 权重衰减(weight decay)

    权重衰减(weight decay)   L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化.   L2正则化就是在代价函数后面再加上一个正则化 ...

  7. weight decay (权值衰减)

    http://blog.sina.com.cn/s/blog_890c6aa30100z7su.html 在机器学习或者模式识别中,会出现overfitting,而当网络逐渐overfitting时网 ...

  8. Adam和学习率衰减(learning rate decay)

    1.梯度下降法更新参数 梯度下降法参数更新公式: 其中,η 是学习率,θt是第 t 轮的参数,J(θt) 是损失函数,∇J(θt) 是梯度. 在最简单的梯度下降法中,学习率 ηη 是常数,是一个需要实 ...

  9. 告别2019:属于深度学习的十年,那些我们必须知道的经典

    选自leogao.dev 作者:Leo Gao,机器之心 参与:一鸣.泽南.蛋酱 2020 新年快乐! 当今天的太阳升起时,我们正式告别了上一个十年. 在这十年中,伴随着计算能力和大数据方面的发展,深 ...

  10. Adam真的是最好的优化器吗?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 提到优化器,大多数人会想到 Adam.自 2015 年推出以来,A ...

最新文章

  1. HTML5学习笔记(十四):变量作用域
  2. 脑机接口20年论文集汇总
  3. Option Explicit 语句
  4. Python3 中 爬网页 \uxxx 问题
  5. 京东共聚黑山县三方合力-农民丰收节·万祥军:谋定智慧农业
  6. 银河麒麟可执行文件双击,闪退问题
  7. MySQL grant 权限,分别可以作用在多个层次上
  8. UI实用素材模板|app底部导航栏的图标可临摹素材,教你分析!
  9. 导航卫星系统行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  10. css3 下拉缩放显示定位导航
  11. 通过EasyRecovery来恢复U盘文件
  12. 适配器自动分配的169开头的地址_代理ip地址怎么换
  13. wordpress用途_8个热门WordPress多用途主题及其炫酷功能
  14. 两个摄像头合成一路_一个摄像机怎么添加到两台录像机?
  15. 浅谈个人对读书的看法
  16. 矩阵分析一子空间和特征分解
  17. 全球最贵域名Sex.com将再度出售
  18. 【深度学习】(ICCV-2021)PVT-金字塔 Vision Transformer及PVT_V2
  19. 台北淡水渔人码头的风景 1
  20. 施耐德变频器电源驱动板图纸 ATV61 ATV71变频器4千瓦电源驱动板

热门文章

  1. java 卫星轨道6根数实现轨道预测
  2. hulu dpp_如何取消您的Hulu订阅
  3. 抢票助手-for 12306买火车票.订票助手.高铁.动车.春运.车票管家.自动刷票.列车时刻表
  4. 【业务办理】广州市户口市内迁移流程
  5. Dubbo整合Nacos
  6. 软件测试之客户端(Client)测试
  7. DIY回音壁多媒体音箱
  8. TYPE-C接口的定义诠释以及功能参数挖掘
  9. ES:java.nio.file.AccessDeniedException: /opt/shan/es/config/elasticsearch.keystore
  10. InfluxDB中Line Protocol理解