深度学习优化算法：AdaDelta算法

原文链接：动手学深度学习pytorch版：7.7 AdaDelta算法
github：https://github.com/ShusenTang/Dive-into-DL-PyTorch

原论文：
[1] Zeiler, M. D. (2012). ADADELTA: an adaptive learning rate method. arXiv preprint arXiv:1212.5701.

AdaDelta算法

除了 RMSProp 算法以外，另一个常用优化算法 AdaDelta 算法也针对 AdaGrad 算法在迭代后期可能较难找到有用解的问题做了改进 [1]。有意思的是，AdaDelta 算法没有学习率这一超参数。

算法

AdaDelta 算法也像 RMSProp 算法一样，使用了小批量随机梯度 gtg_tgt 按元素平方的指数加权移动平均变量 sts_tst 。在时间步0，它的所有元素被初始化为0。给定超参数 0≤ρ<100≤\rho<100≤ρ<10（对应RMSProp算法中的 γ\gammaγ），在时间步 t>0t>0t>0，同 RMSProp 算法一样计算
st←ρst−1+(1−ρ)gt⊙gt{{\text{s}}_{t}}\leftarrow \rho {{s}_{t-1}}+(1-\rho ){{g}_{t}}\odot {{g}_{t}} st←ρst−1+(1−ρ)gt⊙gt

与RMSProp算法不同的是，AdaDelta算法还维护一个额外的状态变量 Δxt\Delta {{x}_{t}}Δxt，其元素同样在时间步0时被初始化为0。我们使用 Δxt−1\Delta {{x}_{t-1}}Δxt−1 来计算自变量的变化量：
g′t←Δxt−1+εst+ε⊙gtg{{'}_{t}}\leftarrow \sqrt{\frac{\Delta {{x}_{t-1}}+\varepsilon }{{{s}_{t}}+\varepsilon }}\odot {{g}_{t}} g′t←st+εΔxt−1+ε⊙gt

其中 ϵ\epsilonϵ 是为了维持数值稳定性而添加的常数，如 10−510^{-5}10−5。接着更新自变量：
xt←xt−1−g′t{{x}_{t}}\leftarrow {{x}_{t-1}}-g{{'}_{t}} xt←xt−1−g′t

最后，我们使用 Δxt\Delta {{x}_{t}}Δxt 来记录自变量变化量 gt′g'_tgt′ 按元素平方的指数加权移动平均：
Δxt←ρΔxt−1+(1−ρ)g′t⊙g′t\Delta {{x}_{t}}\leftarrow \rho \Delta {{x}_{t-1}}+(1-\rho )g{{'}_{t}}\odot g{{'}_{t}} Δxt←ρΔxt−1+(1−ρ)g′t⊙g′t

可以看到，如不考虑 ϵ\epsilonϵ 影响，AdaDelta 算法跟 RMSProp 算法的不同之处在于使用 Δxt−1\sqrt{Δx_{t-1}}Δxt−1 来代替学习率 ηηη。

从零开始实现

%matplotlib inline
import torch
import sys
sys.path.append("..")
import d2lzh_pytorch as d2l
import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"features, labels = d2l.get_data_ch7()def init_adadelta_states():s_w, s_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)delta_w, delta_b = torch.zeros((features.shape[1], 1), dtype=torch.float32), torch.zeros(1, dtype=torch.float32)return ((s_w, delta_w), (s_b, delta_b))def adadelta(params, states, hyperparams):rho, eps = hyperparams['rho'], 1e-5for p, (s, delta) in zip(params, states):s[:] = rho * s + (1 - rho) * (p.grad.data**2)g =  p.grad.data * torch.sqrt((delta + eps) / (s + eps))p.data -= gdelta[:] = rho * delta + (1 - rho) * g * gd2l.train_ch7(adadelta, init_adadelta_states(), {'rho': 0.9}, features, labels)

输出：

loss: 0.243535, 0.057486 sec per epoch

简洁实现

d2l.train_pytorch_ch7(torch.optim.Adadelta, {'rho': 0.9}, features, labels)

输出：

loss: 0.304975, 0.058008 sec per epoch

小结

AdaDelta算法没有学习率超参数，它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。