引言

Adam作为一个常用的深度学习优化方法，提出来的时候论文里的数据表现都非常好，但实际在使用中发现了不少问题，在许多数据集上表现都不如SGDM这类方法。
后续有许多工作针对Adam做了研究，之前整理过关于优化算法的发展历程：从Stochastic Gradient Descent到Adaptive Moment Estimation，里面也介绍了一些对于Adam效果不好的研究工作。
这篇论文依旧以此作为研究对象，原文参考：DECOUPLED WEIGHT DECAY REGULARIZATION。作者提出了一个简单, 但是很少有人注意的事实, 那就是现行的所有深度学习框架在处理Weight Decay的时候，都采用了L2正则的方法来做，但实际上，L2正则在自适应梯度方法中，如Adam，与Weight Decay并不等价。

算法

Weight Decay在优化算法中的意义，在于限制值比较大的权重，让整体模型的权重更加接近于零，这也是符合奥卡姆剃刀原理的，权重更小的模型被认为是更简单的模型，从而拥有更好的泛化性能。

对于SGD来说，L2正则与Weight Decay都可以用以下形式表达：

区别在于正则化操作在目标函数加上权重的L2范数，而Weight Decay则是在梯度更新位置直接减去部分权重，但是最终的表达形式是一致的，但是在Adam中存在自适应的学习率调整，假如依旧使用L2正则的方式实现Weight Decay，那么两个同样大小的权重，其中梯度较大的权重会下降得比另一个更小：

由上，二阶动量V会随着更新量的增加而自适应调整，导致相应的学习率下降，从而导致权重衰减变小。学习率和权重衰减之间存在很大的相关性，作者针对解耦两者关系提出了解决方法：

方法也很简单，作者按照原始Weight Decay的定义，直接将权重衰减加到优化器之后，将其与学习率解耦，真正发挥了Weight Decay的作用。

结果

作者实验了多种形式的模型，效果均比原始版本要好，具体参考原论文：

上面是对SGD和Adam的比较：

Figure 2 we compare the performance of L2 regularization vs decoupled weight decay in SGD (SGD vs. SGDW, top row) and in Adam(Adam vs. AdamW, bottom row).

左边为原始的实现方法，可以看到，学习率和权重衰减存在极大的相关性，而右边则为论文提出的方法，最优化的区域明显变大了，在这种情况下能够更加简单的进行参数调整从而搜索到最优点。

结论

提出了新的优化算法AdamW，解耦了学习率和Weight Decay实际上对所有自适应的优化算法都适用。

引用

1、DECOUPLED WEIGHT DECAY REGULARIZATION
2、https://blog.csdn.net/sinat_33741547/article/details/87367996

DECOUPLED WEIGHT DECAY REGULARIZATION相关推荐

深度学习：权重衰减（weight decay）与学习率衰减（learning rate decay）
正则化方法:防止过拟合,提高泛化能力避免过拟合的方法有很多:early stopping.数据集扩增(Data augmentation).正则化(Regularization)包括L1.L2(L2 ...
权值衰减weight decay的理解
1. 介绍权值衰减weight decay即L2正则化,目的是通过在Loss函数后加一个正则化项,通过使权重减小的方式,一定减少模型过拟合的问题. L1正则化:即对权重矩阵的每个元素绝对值求和, λ ...
weight decay 的矩阵描述
weight decay(权重衰减) 又叫regularization(正则化).下面叙述如何用矩阵简明的描述loss表达式,以及矩阵求导问题. loss表达式 L ( w , b ) = η 2 ∣ ...
权重衰减（weight decay）在贝叶斯推断（Bayesian inference）下的理解
权重衰减(weight decay)在贝叶斯推断(Bayesian inference)下的理解摘要权重衰减贝叶斯(Bayes inference) 视角下的权重衰减似然函数(log like ...
weight decay（权值衰减）、momentum（冲量）和normalization
一.weight decay(权值衰减)的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合.在损失函数中,weight decay是放在正则项(regularizat ...
tf.nn.l2_loss() 与权重衰减（weight decay）
权重衰减(weight decay) L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化. L2正则化就是在代价函数后面再加上一个正则化 ...
weight decay (权值衰减）
http://blog.sina.com.cn/s/blog_890c6aa30100z7su.html 在机器学习或者模式识别中,会出现overfitting,而当网络逐渐overfitting时网 ...
Adam和学习率衰减（learning rate decay）
1.梯度下降法更新参数梯度下降法参数更新公式: 其中,η 是学习率,θt是第 t 轮的参数,J(θt) 是损失函数,∇J(θt) 是梯度. 在最简单的梯度下降法中,学习率 ηη 是常数,是一个需要实 ...
告别2019：属于深度学习的十年，那些我们必须知道的经典
选自leogao.dev 作者:Leo Gao,机器之心参与:一鸣.泽南.蛋酱 2020 新年快乐! 当今天的太阳升起时,我们正式告别了上一个十年. 在这十年中,伴随着计算能力和大数据方面的发展,深 ...
Adam真的是最好的优化器吗？
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达提到优化器,大多数人会想到 Adam.自 2015 年推出以来,A ...

DECOUPLED WEIGHT DECAY REGULARIZATION

引言

算法

结果

结论

引用

DECOUPLED WEIGHT DECAY REGULARIZATION相关推荐

最新文章

热门文章