batch:

表示批次。设置过大的批次(batch)大小,可能会对训练时网络的准确性产生负面影响,因为它降低了梯度下降的随机性。

Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 (Full Batch Learning)的形式,这样做至少有 2 个好处:

其一,由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。

其二,由于不同权重的梯度值差别巨大,因此选取一个全局的学习率很困难。 Full Batch Learning 可以使用Rprop 只基于梯度符号并且针对性单独更新各权值。

对于更大的数据集,以上 2 个好处又变成了 2 个坏处:

其一,随着数据集的海量增长和内存限制,一次性载入所有的数据进来变得越来越不可行。

其二,以 Rprop 的方式迭代,会由于各个 Batch 之间的采样差异性,各次梯度修正值相互抵消,无法修正。这才有了后来 RMSProp 的妥协方案。

epoch:

当我们分批学习时,每次使用过全部训练数据完成一次Forword运算以及一次BP运算,称为完成了一次epoch。

Batch_Size:

既然 Full Batch Learning 并不适用大数据集,那么走向另一个极端怎么样?所谓另一个极端,就是每次只训练一个样本,即 Batch_Size = 1。这就是在线学习Online Learning)。线性神经元在均方误差代价函数的错误面是一个抛物面,横截面是椭圆。对于多层神经元、非线性网络,在局部依然近似是抛物面。使用在线学习,每次修正方向以各自样本的梯度方向修正,横冲直撞各自为政,难以达到收敛。

【batch size最大是样本总数N,此时就是Full batch learning;最小是1,即每次只训练一个样本,这就是在线学习(Online Learning)。】

可不可以选择一个适中的 Batch_Size 值呢?

这就是批梯度下降法(Mini-batches Learning)。因为如果数据集足够充分,那么用一半(甚至少得多)的数据训练算出来的梯度与用全部数据训练出来的梯度是几乎一样的。

在合理范围内,增大 Batch_Size 有何好处?

内存利用率提高了,大矩阵乘法的并行化效率提高。

跑完一次 epoch(全数据集)所需的迭代次数减少,对于相同数据量的处理速度进一步加快。

在一定范围内,一般来说 Batch_Size 越大,其确定的下降方向越准,引起训练震荡越小。

总结:

随着 Batch_Size 增大,处理相同数据量的速度越快。

随着 Batch_Size 增大,达到相同精度所需要的 epoch 数量越来越多。

由于上述两种因素的矛盾, Batch_Size 增大到某个时候,达到时间上的最优。

由于最终收敛精度会陷入不同的局部极值,因此 Batch_Size 增大到某些时候,达到最终收敛精度上的最优。

batch、batch size与epoch相关推荐

  1. 深度学习基础概念-Batch、Iteration、Epoch理解

    1.概念理解 Batch.Iteration.Epoch是在模型训练阶段的概念. 在模型训练时,我们选择优化算法,如梯度下降法(全批量梯度下降法BGD.小批量梯度下降法mini-Batch.随机梯度下 ...

  2. 机器学习笔记(15)— 基本概念batch、batchsize、epoch、iteration

    本文主要介绍机器学习中的四个基本概念,batch.batchsize.epoch.iteration,这几个概念对于初学者来说容易混淆.因此在次记录一下. 深度学习中的优化算法就是梯度下降算法,通过该 ...

  3. 深度学习中Batch、Iteration、Epoch的概念与区别

    在神经网络训练中,一般采用小批量梯度下降的方式. Batch Epoch Iteration 就是其中的重要的概念.我们要理解懂得它们都是什么以及它们之间的区别. 1.Batch 每次迭代时使用的一批 ...

  4. 神经网络 深度学习 专业术语解释(Step, Batch Size, Iteration,Epoch)

    1. 名词解释 Step: 训练模型的步数 Batch Size(批尺寸): 计算梯度所需的样本数量,太小会导致效率低下,无法收敛.太大会导致内存撑不住,Batch Size增大到一定程度后,其下降方 ...

  5. ML参数及ResNet中Pre-activation和post-activation的区别

    batch_size:多少个数据为一个批次进行梯度更新. batch:以batch_size为单位,将数据集划分为多少个batch.batch=total size/batch_size epoch: ...

  6. 【CV】深度学习中Epoch, Batch, Iteration的含义

    Epoch 使用训练集的全部数据样本进行一次训练,称为一次epoch,即所有训练集的样本都在神经网络中进行了一次正向传播和一次反向传播 神经网络中需要有多次epoch,每次epoch中会进行一次更新权 ...

  7. 如何理解深度学习分布式训练中的large batch size与learning rate的关系?

    问题详情: 在深度学习进行分布式训练时,常常采用同步数据并行的方式,也就是采用大的batch size进行训练,但large batch一般较于小的baseline的batch size性能更差,请问 ...

  8. EPOCH, BATCH, INTERATION

    CIFAR10 数据集有 50000 张训练图片,10000 张测试图片.现在选择 Batch Size = 256 对模型进行训练. 每个 Epoch 要训练的图片数量:  训练集具有的 Batch ...

  9. Epoch, Batch, Iteration 区别

    Author:龙箬 Computer Application Technology Change the World with Data and Artificial Intelligence ! C ...

最新文章

  1. vue - blog开发学习1
  2. Ubuntu查看系统任务管理器(cpu+内存资源占用)+查看虚拟机分配核心数
  3. id3决策树_信息熵、信息增益和决策树(ID3算法)
  4. 事关SuperSocket发布,寻找YangFan哥哥
  5. 我是如何使用git把本地代码上传到github上的,值得借鉴
  6. web.xml 配置文件 超详细说明!!!
  7. php tp 模板assign,thinkphp中怎么让assign在另一个模板里使用呢?
  8. LeetCode 1656. 设计有序流(数组)
  9. Webrtc服务器搭建转
  10. pcm5102a解码芯片音质评测_简单测评200元档可能是唯一搭载高通QCC3020芯片的真无线蓝牙耳机...
  11. jsoncpp的安装与使用实战(windows交叉编译Ubuntu)
  12. python 生成空白矩阵_3个用于数据科学的顶级Python库
  13. pdf factory pro7序列号教你如何打印转换PDF教程
  14. 在Vue中如何缓存页面
  15. 网络安全等级保护2.0详解
  16. 查询oracle耗时sql,查看Oracle耗时Sql
  17. 搭建公众号微商城+小程序微商城 企业商城系统一条龙 拖拽可视化装修模板
  18. 旅行青蛙服务器维护时间,旅行青蛙怎么调节时间 旅行青蛙修改时间攻略
  19. 强监管焕新外卖行业,美团、饿了么如何应对?
  20. MySQL--创建表

热门文章

  1. Fluent网格划分经验
  2. matplotlib——画布分辨率和尺寸
  3. 程序员加班看不上球赛崩溃,外卖小哥伸出援手:我帮你改代码
  4. 程序员如何提升自身价值
  5. java计算机毕业设计教师继续教育MyBatis+系统+LW文档+源码+调试部署
  6. Python输入自己的姓名、地址,年龄,转化为另一种格式输出
  7. 有时候,感慨的人生~
  8. 【PPT】画三维立体块
  9. 建筑学专业申请计算机研究生吗,细说德国研究生申请之建筑学硕士
  10. 华为平远程windows电脑