优化算法--SGD，batch SGD

优化算法–SGD，batch SGD

优化算法的目标函数是一个基于训练数据集的损失函数，优化的目标在于降低训练误差。在深度学习中主要面临两个挑战：局部最小值和鞍点。

梯度下降和SGD

多维梯度下降：目标函数的输入为向量，输出为标量。假设目标函数f:Rd→Rf: \mathbb{R}^d \rightarrow \mathbb{R}f:Rd→R的输入是一个ddd维向量x=[x1,x2,…,xd]⊤\boldsymbol{x} = [x_1, x_2, \ldots, x_d]^\topx=[x1,x2,…,xd]⊤。目标函数f(x)f(\boldsymbol{x})f(x)有关x\boldsymbol{x}x的梯度是一个由ddd个偏导数组成的向量：

∇xf(x)=[∂f(x)∂x1,∂f(x)∂x2,…,∂f(x)∂xd]⊤.\nabla_{\boldsymbol{x}} f(\boldsymbol{x}) = \bigg[\frac{\partial f(\boldsymbol{x})}{\partial x_1}, \frac{\partial f(\boldsymbol{x})}{\partial x_2}, \ldots, \frac{\partial f(\boldsymbol{x})}{\partial x_d}\bigg]^\top.∇xf(x)=[∂x1∂f(x),∂x2∂f(x),…,∂xd∂f(x)]⊤.

梯度中每个偏导数元素∂f(x)/∂xi\partial f(\boldsymbol{x})/\partial x_i∂f(x)/∂xi代表着fff在x\boldsymbol{x}x有关输入xix_ixi的变化率。通过梯度下降算法来不断降低目标函数fff的值：

x←x−η∇xf(x).\boldsymbol{x} \leftarrow \boldsymbol{x} - \eta\nabla_{\boldsymbol{x}} f(\boldsymbol{x}) .x←x−η∇xf(x).

随机梯度下降（stochastic gradient descent，SGD）减少了每次迭代的计算开销。在随机梯度下降的每次迭代中，我们随机均匀采样的一个样本索引i∈{1,…,n}i\in\{1,\ldots,n\}i∈{1,…,n}，并计算梯度∇fi(x)\nabla f_i(\boldsymbol{x})∇fi(x)来迭代x\boldsymbol{x}x：

x←x−η∇fi(x).\boldsymbol{x} \leftarrow \boldsymbol{x} - \eta \nabla f_i(\boldsymbol{x}).x←x−η∇fi(x).

可以看到每次迭代的计算开销从梯度下降的O(n)\mathcal{O}(n)O(n)降到了常数O(1)\mathcal{O}(1)O(1)。值得强调的是，随机梯度∇fi(x)\nabla f_i(\boldsymbol{x})∇fi(x)是对梯度∇f(x)\nabla f(\boldsymbol{x})∇f(x)的无偏估计：

Ei∇fi(x)=1n∑i=1n∇fi(x)=∇f(x).E_i \nabla f_i(\boldsymbol{x}) = \frac{1}{n} \sum_{i = 1}^n \nabla f_i(\boldsymbol{x}) = \nabla f(\boldsymbol{x}).Ei∇fi(x)=n1i=1∑n∇fi(x)=∇f(x).

小批量随机梯度下降

在每一次迭代中，梯度下降使用整个训练数据集来计算梯度，因此它有时也被称为批量梯度下降（batch gradient descent）。

小批量随机梯度下降随机均匀采样一个由训练数据样本索引组成的小批量Bt\mathcal{B}_tBt。我们可以通过重复采样（sampling with replacement）或者不重复采样（sampling without replacement）得到一个小批量中的各个样本。前者允许同一个小批量中出现重复的样本，后者则不允许如此，且更常见。对于这两者间的任一种方式，都可以使用
gt←∇fBt(xt−1)=1∣B∣∑i∈Bt∇fi(xt−1)\boldsymbol{g}_t \leftarrow \nabla f_{\mathcal{B}_t}(\boldsymbol{x}_{t-1}) = \frac{1}{|\mathcal{B}|} \sum_{i \in \mathcal{B}_t}\nabla f_i(\boldsymbol{x}_{t-1}) gt←∇fBt(xt−1)=∣B∣1i∈Bt∑∇fi(xt−1)
来计算时间步ttt的小批量Bt\mathcal{B}_tBt上目标函数位于xt−1\boldsymbol{x}_{t-1}xt−1处的梯度gt\boldsymbol{g}_tgt。这里∣B∣|\mathcal{B}|∣B∣代表批量大小，即小批量中样本的个数，是一个超参数。同随机梯度一样，重复采样所得的小批量随机梯度gt\boldsymbol{g}_tgt也是对梯度∇f(xt−1)\nabla f(\boldsymbol{x}_{t-1})∇f(xt−1)的无偏估计。给定学习率ηt\eta_tηt（取正数），小批量随机梯度下降对自变量的迭代如下：

xt←xt−1−ηtgt.\boldsymbol{x}_t \leftarrow \boldsymbol{x}_{t-1} - \eta_t \boldsymbol{g}_t.xt←xt−1−ηtgt.

基于随机采样得到的梯度的方差在迭代过程中无法减小，因此在实际中，（小批量）随机梯度下降的学习率可以在迭代过程中自我衰减或者每迭代若干次后将学习率衰减一次。如此一来，学习率和（小批量）随机梯度乘积的方差会减小。而梯度下降在迭代过程中一直使用目标函数的真实梯度，无须自我衰减学习率。

总结

当批量较小时，每次迭代中使用的样本少，这会导致并行处理和内存使用效率变低。这使得在计算同样数目样本的情况下比使用更大批量时所花时间更多。当批量较大时，每个小批量梯度里可能含有更多的冗余信息。为了得到较好的解，批量较大时比批量较小时需要计算的样本数目可能更多，例如增大迭代周期数。