神经网络中的Epoch、Iteration、Batchsize

总结：epoch=iteration∗batch_sizeepoch = iteration * batch\_sizeepoch=iteration∗batch_size

１．batch_size

batch_size：顾名思义就是批次大小，也就是一次训练选取的样本个数．

batch_size的大小对模型的优化和速度都是很有影响的．尤其是你的GPU的个数不多时，最好不要把数值设置的很大。

batch_size的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。

全批次（蓝色）是全批次，也就是当数据集数量少的时候，我们可以采用全数据集．全数据集确定的方向能够更好的代表样本总体，从而更准确的朝向极值所在的方向．就跟神经网络一样，能使用全连接最好，但是对于大的数据集，全连接会出现很多问题，消耗内存大＼速度慢．那么我们只能退而求其次。

迷你批次（绿色）选择一个适中的batch_size值。就是说我们选定一个batch的大小后，将会以batch的大小将数据输入深度学习的网络中，然后计算这个batch的所有样本的平均损失，即代价函数是所有样本的平均。

随机（batch_size等于1的情况）（红色）每次修正方向以各自样本的梯度方向修正，横冲直撞各自为政，难以达到收敛。适当的增加Batch_Size的优点：

适当的增加batch_size的优点：

通过并行化提高内存利用率。
单次epoch的迭代次数减少，提高运行速度。（单次epoch=(全部训练样本/batchsize)/iteration=1）
适当的增加Batch_Size,梯度下降方向准确度增加，训练震动的幅度减小。（看上图便可知晓）

经验总结：

相对于正常数据集，如果batch_size过小，训练数据就会非常难收敛，从而导致underfitting。

增大batch_size,相对处理速度加快。

增大batch_size,所需内存容量增加（epoch的次数需要增加以达到最好的结果）

这里我们发现上面两个矛盾的问题，因为当epoch增加以后同样也会导致耗时增加从而速度下降。因此我们需要寻找最好的batch_size。再次重申：batch_size的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。

２．epoch

1个epoch指用训练集中的全部样本训练一次，此时相当于batch_size等于训练集的样本数。

什么是Epoch？

答：epoch数是一个超参数，它定义了学习算法在整个训练数据集中的工作次数。一个Epoch意味着训练数据集中的每个样本都有机会更新内部模型参数。Epoch由一个或多个Batch组成, 具有一批的Epoch称为批量梯度下降学习算法。您可以将for循环放在每个需要遍历训练数据集的epoch上，在这个for循环中是另一个嵌套的for循环，它遍历每批样本，其中一个批次具有指定的“批量大小”样本数。

当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一次epoch。然而，当一个epoch对于计算机而言太庞大的时候，就需要把它分成多个小块。

为什么要使用多于一个epoch?

在神经网络中传递完整的数据集一次是不够的，而且我们需要将完整的数据集在同样的神经网络中传递多次。但请记住，我们使用的是有限的数据集，并且我们使用一个迭代过程即梯度下降来优化学习过程。如下图所示。因此仅仅更新一次或者说使用一个epoch是不够的。

随着epoch数量增加，神经网络中的权重的更新次数也在增加，曲线从欠拟合变得过拟合。

几个epoch才是合适的呢？

不幸的是，这个问题并没有正确的答案。对于不同的数据集，答案是不一样的。但是数据的多样性会影响合适的epoch的数量。比如，只有黑色的猫的数据集，以及有各种颜色的猫的数据集。

epochs 数量传统上很大，通常是数百或数千，允许学习算法运行直到模型的误差被充分地最小化了。您可能会看到文献和教程设置为10,100,500,1000和更大的时期数量的示例。通常创建线图，其显示沿x轴的时间以及模型在y轴上的误差或技能。这些图有时被称为学习曲线。这些图可以帮助诊断模型是否已经过度学习，学习不足或者是否适合训练数据集。

３．iteration

iteration: 中文翻译为迭代

1个iteration即迭代一次，也就是用batch_size个样本训练一次。

迭代是重复反馈的动作，神经网络中我们希望通过迭代进行多次的训练以到达所需的目标或结果