pytorch 梯度累积（gradient accumulation）

梯度累积 - gradient accumulation

在深度学习训练的时候，数据的batch size大小受到GPU内存限制，batch size大小会影响模型最终的准确性和训练过程的性能。在GPU内存不变的情况下，模型越来越大，那么这就意味着数据的batch size只能缩小，这个时候，梯度累积（Gradient Accumulation）可以作为一种简单的解决方案来解决这个问题。

梯度累积（Gradient Accumulation）是一种不需要额外硬件资源就可以增加批量样本数量（Batch Size）的训练技巧。这是一个通过时间换空间的优化措施，它将多个Batch训练数据的梯度进行累积，在达到指定累积次数后，使用累积梯度统一更新一次模型参数，以达到一个较大Batch Size的模型训练效果。累积梯度等于多个Batch训练数据的梯度的平均值。

所谓梯度累积过程，其实很简单，我们梯度下降所用的梯度，实际上是多个样本算出来的梯度的平均值，以batch_size=128为例，你可以一次性算出128个样本的梯度然后平均，我也可以每次算16个样本的平均梯度，然后缓存累加起来，算够了8次之后，然后把总梯度除以8，然后才执行参数更新。当然，必须累积到了8次之后，用8次的平均梯度才去更新参数，不能每算16个就去更新一次，不然就是batch_size=16了。

传统的深度学习

for i, (inputs, labels) in enumerate(trainloader):optimizer.zero_grad()                   # 梯度清零outputs = net(inputs)                   # 正向传播loss = criterion(outputs, labels)       # 计算损失loss.backward()                         # 反向传播，计算梯度optimizer.step()                        # 更新参数if (i+1) % evaluation_steps == 0:evaluate_model()

具体流程：

optimizer.zero_grad()，将前一个batch计算之后的网络梯度清零
正向传播，将数据和标签传入网络，过infer计算得到预测结果
根据预测结果与label，计算损失值
loss.backward() ，利用损失进行反向传播，计算参数梯度
optimizer.step()，利用计算的参数梯度更新网络参数

简单的说就是进来一个batch的数据，计算一次梯度，更新一次网络。

梯度累积方式

for i, (inputs, labels) in enumerate(trainloader):outputs = net(inputs)                   # 正向传播loss = criterion(outputs, labels)       # 计算损失函数loss = loss / accumulation_steps        # 梯度均值，损失标准化loss.backward()                         # 梯度均值累加，反向传播，计算梯度# 累加到指定的 steps 后再更新参数if (i+1) % accumulation_steps == 0:     optimizer.step()                    # 更新参数optimizer.zero_grad()               # 梯度清零if (i+1) % evaluation_steps == 0:evaluate_model()

具体流程：

正向传播，将数据传入网络，得到预测结果
根据预测结果与label，计算损失值
利用损失进行反向传播，计算参数梯度
重复1-3，不清空梯度，而是将梯度累加
梯度累加达到固定次数之后，更新参数，然后将梯度清零

梯度累积时，每个batch 仍然正常前向传播以及反向传播，但是反向传播之后并不进行梯度清零，因为 PyTorch 中的backward() 执行的是梯度累加的操作，所以当我们调用N次 loss.backward() 后，这N个batch 的梯度都会累加起来。但是，我们需要的是一个平均的梯度，或者说平均的损失，所以我们应该将每次计算得到的 loss除以 accum_steps。

总结来讲，梯度累积就是每计算一个batch的梯度，不进行清零，而是做梯度的累加，当累加到一定的次数（accumulation_steps）之后，再更新网络参数，然后将梯度清零。
通过这种参数延迟更新的手段，可以实现与采用大batch size相近的效果。在平时的实验过程中，我一般会采用梯度累加技术，大多数情况下，采用梯度累加训练的模型效果，要比采用小batch size训练的模型效果要好很多。

注意事项：

一定条件下，batchsize越大训练效果越好，梯度累加则实现了batchsize的变相扩大，如果accumulation_steps为8，则batchsize '变相' 扩大了8倍，是实验室解决显存受限的一个不错的trick，使用时需要注意，学习率也要适当放大。