1 Introduction

随机梯度下降算法(SGD)的迭代过程为:

其中gt\mathbf{g}_tgt是对于梯度的无偏估计,即E[gt]=∇f(xt)\mathbb{E}[\mathbf{g}_t]=\nabla f(\mathbf{x}_t)E[gt]=∇f(xt).SGD算法可以加快计算的过程,但无法加快通信过程.在分布式机器学习环境中,通信问题是限制其发展的关键因素.
为了解决这个问题,可以对求解出来的梯度进行压缩操作,使用comp(g)comp(\mathbf{g})comp(g)来代替g\mathbf{g}g.然而压缩操作可能会影响训练的模型性能,为了避免这种情况,在本文中,我们将误差累积的机制应用于SGD中.大概来讲,在我们的压缩算法中,我们应用了一个内存向量m\mathbf{m}m来缓存被压缩的数据,即mt+1=mt+gt−comp(gt)\mathbf{m}_{t+1}=\mathbf{m}_{t}+\mathbf{g}_t-comp(\mathbf{g}_t)mt+1=mt+gt−comp(gt),并将这部分数据应用于下一次的迭代中,即下一次压缩数据为comp(gt+1+mt+1)comp(\mathbf{g}_{t+1}+\mathbf{m}_{t+1})comp(gt+1+mt+1).需要注意的是,使用了压缩技术后对于梯度的估计仍然是无偏的.
我们首先考虑需要进行优化的问题为:

其中fif_ifi为L−L-L−平滑,fff为μ−\mu-μ−强凸,我们考虑了一种具有误差累积技术的序列稀疏SGD算法和为k−k-k−压缩操作提供收敛.通过选择合适的学习率后,我们可以得到的收敛率为

其中κ=L/μ,G2≥E∣∣∇fi(xt)∣∣2\kappa=L/\mu,G^2\ge \mathbb{E}||\nabla f_i(\mathbf{x}_t)||^2κ=L/μ,G2≥E∣∣∇fi(xt)∣∣2.

2 SGD with Memory

2.1 压缩和稀疏化操作

我们考虑满足以下压缩性质的压缩算符:

下面两个操作是具有k-稀疏向量附加性质的k-收缩操作的例子:

2.2 无偏更新的方差放大

我们首先考虑如下的SGD算法的变体,其中有(d−kd-kd−k)个随机坐标会被丢弃

上式的中更新是无偏的,即Egt=∇f(x)\mathbb{E}\ \mathbf{g}_t=\nabla f(\mathbf{x})E gt=∇f(x).通过选择合适的学习率,这个算法可以对强凸和平滑的函数fff实现O(σ2/t)O(\sigma^2/t)O(σ2/t)的收敛率,其中σ2\sigma^2σ2为方差的上界,即

其中我们使用了标准假设Ei∣∣∇fi(x)∣∣2≤G2\mathbb{E}_i||\nabla f_i(\mathbf{x})||^2\le G^2Ei∣∣∇fi(x)∣∣2≤G2.
我们知道通过使用小批量梯度下降可以减少方差,因此我们可以假设公式(6)中的梯度计算为

通过这样计算,我们可以得到的方差为

2.3 SGD withMemory:算法及收敛分析

我们定义下述的算法,该算法满足之前的Difinition 2.1,

其伪代码如算法1所示.

关于算法1的收敛性如以下定理所述.

3 相关证明

我们首先构建一个虚拟序列{xt~}t>0\{\tilde{x_t}\}_{t>0}{xt~}t>0,定义如下:

因此我们可以得到:

证明:根据公式(11)的定义可以得到:

对上式进行期望求解可以得到:

为了对上式的第三项进行限定,根据函数的强凸性可以得到:

根据∣∣a+b∣∣2≤2∣∣a∣∣2+2∣∣b∣∣2||\mathbf{a}+\mathbf{b}||^2\le2||\mathbf{a}||^2+2||\mathbf{b}||^2∣∣a+b∣∣2≤2∣∣a∣∣2+2∣∣b∣∣2,可以得到:

上述不等式可以通过∣∣x~t−x∗∣∣2≤2∣∣xt−x~t∣∣2+2∣∣xt−x∗∣∣2||\tilde{x}_t-x^*||^2\le 2||x_t-\tilde{x}_t||^2+2||x_t-x^*||^2∣∣x~t−x∗∣∣2≤2∣∣xt−x~t∣∣2+2∣∣xt−x∗∣∣2得到.
将上述的两个不等式应用于公式(23)中可以得到:

接下来根据平滑性质来估计最后一项,即:

将其于(26)结合可以得到:

故得证.
根据公式(13)我们可以知道,接下来我们需要对E∣∣mt∣∣2\mathbb{E}||\mathbf{m}_t||^2E∣∣mt∣∣2进行限制,结果如下:

证明:根据

可以得到:

根据

我们可以得到