深度学习---梯度下降算法

1、批量梯度下降算法

批量梯度下降法是最原始的形式，它是指在每一次迭代时使用所有样本来进行梯度的更新。在深度学习里，优化算法的目标函数通常是训练数据集中有关各个样本的损失函数的平均。设 f i ( x ) f_i(x) fi(x)是有关索引为 i i i的训练数据样本的损失函数， n n n是训练数据样本数， x x x是模型的参数向量，那么目标函数定义为： f ( x ) = 1 n ∑ i = 1 n f i ( t ) f(x) = \frac 1n \sum_{i=1}^{n}{f_i(t)} f(x)=n1i=1∑nfi(t)（1）目标函数在 x x x处的梯度计算为： ∇ f ( x ) = 1 n ∑ i = 1 n ∇ f i ( x ) \nabla f(x) = \frac 1n \sum_{i=1}^{n}{\nabla f_i(x)} ∇f(x)=n1i=1∑n∇fi(x)（2）每次迭代对参数进行更新： x ← x − η 1 n ∑ i = 1 n ∇ f i ( x ) x\leftarrow x-\eta \frac 1n \sum_{i=1}^{n}{\nabla f_i(x)} x←x−ηn1i=1∑n∇fi(x)
优点：
由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD一定能够得到全局最优。

缺点：
如果使用批量梯度下降算法，每次自变量迭代的计算开销为 O ( n ) O(n) O(n)，每迭代一步都需要对所有样本计算，训练过程会很慢

2、随机梯度下降

在随机梯度下降的每次迭代中，随机均匀采样一个样本索引 i ∈ { 1 , . . . n } i \in \{1,...n\} i∈{1,...n}，并计算梯度 ∇ f i ( x ) \nabla f_i(x) ∇fi(x)来迭代 x x x: x ← x − η ∇ f i ( x ) x\leftarrow x-\eta \nabla f_i(x) x←x−η∇fi(x)
优点：
（1）由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快。
缺点：
（1）准确度下降。由于即使在目标函数为强凸函数的情况下，SGD仍旧无法做到线性收敛。
（2）可能会收敛到局部最优，由于单个样本并不能代表全体样本的趋势。

3、小批量梯度下降

在每次迭代中随机均匀采样多个样本来组成一个小批量，然后使用这个小批量来计算梯度。设迭代开始前的时间步是0，该时间步的自变量记为 x 0 ∈ R d x_0\in \R^d x0∈Rd，在接下来的每个时间步 t > 0 t>0 t>0中
（1）小批量随机梯度下降随机均匀采样一个由训练数据样本索引组成的小批量 B t B_t Bt，可以通过重复采样或不重复采样得到一个小批量中的各个样本。 g t ← ∇ f B t ( x t − 1 ) = 1 ∣ B ∣ ∑ i ∈ B t ∇ f i ( x t − 1 ) g_t\leftarrow \nabla f_{B_t}(x_{t-1})=\frac 1{\mid B\mid}\sum_{i\in B_t}{\nabla f_i(x_{t-1}}) gt←∇fBt(xt−1)=∣B∣1i∈Bt∑∇fi(xt−1)
∣ B ∣ \mid B\mid ∣B∣为批量大小，即小批量中样本个数，是一个超参数。
（2）对 x x x进行迭代更新
x ← x − η t g t x\leftarrow x-\eta _t g_t x←x−ηtgt
优点：
（1）通过矩阵运算，每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
（2）每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。
缺点：
（1）batch_size的不当选择可能会带来一些问题。