如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔~我会非常开心的~

花书+吴恩达深度学习（五）正则化方法（防止过拟合）

花书+吴恩达深度学习（六）优化方法之 Mini-batch（SGD, MBGD, BGD）

花书+吴恩达深度学习（七）优化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）

花书+吴恩达深度学习（八）优化方法之 Batch normalization

花书+吴恩达深度学习（九）优化方法之二阶近似方法（牛顿法, CG, BFGS, L-BFGS）

0. 前言

通常，我们定义代价函数：

其中，使用的是全部样本集，如果修改其数量，就会得到不同的算法。

1. Batch gradient descent（BGD）

BGD 称为批量梯度下降，就是原始的梯度下降，每次迭代使用所有的样本进行更新操作。

BGD 的优点：

每次更新的梯度估计方向直接指向收敛的最小值点，最终达到收敛点

BGD 的缺点：

数据量庞大时，每一次迭代都需要耗费很大的时间

2. Stochastic gradient descent（SGD）

SGD 称为随机梯度下降，每次迭代使用的仅仅是随机的一个样本。

SGD 的优点：

因为只有一个样本，每次更新迭代速度快
可以作为在线算法，不断使用新的数据更新参数

SGD 的缺点：

每次梯度估计方向都不确定，可能需要很长的时间接近最小值点，永远不会收敛

3. Mini-batch gradient descent（MBGD）

MBGD 称为小批量梯度下降，每次迭代使用一个以上又不是全部的样本。

MBGD 的优点：

使用多个样本相比 SGD 提高了梯度估计的精度
小批量的估计，相当于在学习过程中加入了噪声，会有一些正则化的效果

MBGD 的缺点：

同 SGD 一样，每次梯度估计的方向不确定，可能需要很长时间接近最小值点，不会收敛

通常在使用 MBGD 之前先将数据集随机打乱，然后再划分 Mini-batch，所以 MBGD 有时也称为 SGD 。

Mini-batch 大小的选择通常使用 2 的幂数，可以获得更少的运行时间。

遍历完所有数据，称为一个 epoch ，通常需要遍历几次 epoch 才行。

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔~我会非常开心的~

花书+吴恩达深度学习（六）优化方法之 Mini-batch（SGD, MBGD, BGD）相关推荐

花书+吴恩达深度学习（二六）近似推断（EM, 变分推断）
文章目录 0. 前言 1. 将推断视为优化问题 1.1 期望最大化 EM 1.2 最大后验推断 MAP 1.3 稀疏编码 2. 变分推断 2.1 离散型潜变量 2.2 连续性潜变量如果这篇文章对你有 ...
花书+吴恩达深度学习（十六）序列模型之双向循环网络 BRNN 和深度循环网络 Deep RNN
目录 0. 前言 1. 双向循环网络 BRNN(Bidirectional RNN) 2. 深度循环网络 Deep RNN 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花 ...
花书+吴恩达深度学习（二五）直面配分函数（CD, SML, SM, RM, NCE）
文章目录 0. 前言 1. 对数似然梯度 1.1 朴素 MCMC 算法 1.2 对比散度算法 CD 1.3 随机最大似然 SML 2. 伪似然 3. 得分匹配 SM 4. 比率匹配 RM 5. 去噪得 ...
花书+吴恩达深度学习（二四）蒙特卡罗方法（重要采样，MCMC）
文章目录 0. 前言 1. 重要采样 2. 马尔可夫链蒙特卡罗 MCMC 3. 不同峰值之间的混合挑战如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 花书+吴恩达深度学习( ...
花书+吴恩达深度学习（二三）结构化概率模型（贝叶斯网络、马尔可夫随机场）
文章目录 0. 前言 1. 有向模型 2. 无向模型 3. 因子图 4. 分离和d-分离 5. 从图模型中采样如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 花书+吴恩达深 ...
花书+吴恩达深度学习（十七）序列模型之长短期记忆 LSTM 和门控循环单元 GRU
目录 0. 前言 1. 长短期记忆 LSTM 2. 门控循环单元 GRU 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十五)序列模型之循环神经网络 ...
花书+吴恩达深度学习（十五）序列模型之循环神经网络 RNN
目录 0. 前言 1. RNN 计算图 2. RNN 前向传播 3. RNN 反向传播 4. 导师驱动过程(teacher forcing) 5. 不同序列长度的 RNN 如果这篇文章对你有一点小小的 ...
花书+吴恩达深度学习（十四）卷积神经网络 CNN 之经典案例（LetNet-5, AlexNet, VGG-16, ResNet, Inception Network）
目录 0. 前言 1. LeNet-5 2. AlexNet 3. VGG-16 4. ResNet 残差网络 5. Inception Network 如果这篇文章对你有一点小小的帮助,请给个关注, ...
花书+吴恩达深度学习（九）优化方法之二阶近似方法（牛顿法, CG, BFGS, L-BFGS）
目录 0. 前言 1. 牛顿法 2. 共轭梯度法(CG) 3. BFGS 4. L-BFGS 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(五)正则化 ...

花书+吴恩达深度学习（六）优化方法之 Mini-batch（SGD, MBGD, BGD）

目录

0. 前言

1. Batch gradient descent（BGD）

2. Stochastic gradient descent（SGD）

3. Mini-batch gradient descent（MBGD）

花书+吴恩达深度学习（六）优化方法之 Mini-batch（SGD, MBGD, BGD）相关推荐

最新文章

热门文章