花书+吴恩达深度学习（九）优化方法之二阶近似方法（牛顿法, CG, BFGS, L-BFGS）

2024-06-02 08:32:37

目录

0. 前言

1. 牛顿法

2. 共轭梯度法（CG）

3. BFGS

4. L-BFGS

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔~我会非常开心的~

花书+吴恩达深度学习（五）正则化方法（防止过拟合）

花书+吴恩达深度学习（六）优化方法之 Mini-batch（SGD, MBGD, BGD）

花书+吴恩达深度学习（七）优化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）

花书+吴恩达深度学习（八）优化方法之 Batch normalization

花书+吴恩达深度学习（九）优化方法之二阶近似方法（牛顿法, CG, BFGS, L-BFGS）

0. 前言

在之前，通常使用梯度下降法进行模型训练，除此之外，还有许多二阶的近似方法。

本篇主要是简单介绍总结这几种方法，不进行深入。

假设代价函数表示为：

1. 牛顿法

牛顿法是基于二阶泰勒级数展开在某点附近来近似的优化方法，忽略了高阶导数：

令近似求解最优的：

对于局部的二次函数，牛顿法会直接跳到极小值处。如果目标函数是凸的，但有高阶项，那么该更新是迭代的。

常用的正则化策略包括在 Hessian 矩阵对角线上增加常数：

牛顿法的优点：因为利用了二阶信息，相比较梯度下降法，下降速度更快。

牛顿法的缺点：如果参数数目为，那么需要计算矩阵的逆，算法复杂度是。

2. 共轭梯度法（CG）

共轭梯度法（Conjugate Gradient）是介于梯度下降法与牛顿法之间的一个方法，它仅需利用一阶导数信息，但克服了梯度下降法收敛慢的缺点，又避免了牛顿法需要存储和计算 Hessian 矩阵并求逆的缺点。

CG 中，寻求一个和先前先搜索方向共轭的搜索方向，即它不会撤销该方向上的进展。

第次迭代的搜索方向表示为：

有两种方法确定：

3. BFGS

BFGS 是一种拟牛顿法，使用矩阵近似逆，迭代的更新精度以更好的近似。

BFGS 优点是花费较少的时间改进每个线搜索。

BFGS 必须存储 Hessian 逆矩阵，需要的存储空间。

4. L-BFGS

L-BFGS 和 BFGS 相同的方法计算。

但是假设是单位矩阵，而不需要每一步都存储近似值。

每步存储一些用于更新的向量，每步的存储代价是。

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔~我会非常开心的~

花书+吴恩达深度学习（九）优化方法之二阶近似方法（牛顿法, CG, BFGS, L-BFGS）相关推荐

花书+吴恩达深度学习（二九）生成随机网络 GSN
文章目录 0. 前言 1. 生成随机网络 GSN 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 花书+吴恩达深度学习(二七)深度生成模型之玻尔兹曼机及其变体(RBM, DB ...
花书+吴恩达深度学习（十九）构建模型策略（训练模型顺序、偏差方差、数据集划分、数据不匹配）
目录 0. 前言 1. 调试模型顺序 2. 偏差方差的解决方法 3. 数据集的选取划分 4. 数据不匹配问题 5. 评估指标的选取 6. 贝叶斯最佳误差如果这篇文章对你有一点小小的帮助,请给个关注, ...
花书+吴恩达深度学习（二八）深度生成模型之有向生成网络（VAE, GAN, 自回归网络）
文章目录 0. 前言 1. sigmoid 信念网络 2. 生成器网络 3. 变分自编码器 VAE 4. 生成式对抗网络 GAN 5. 生成矩匹配网络 6. 自回归网络 6.1 线性自回归网络 6.2 ...
花书+吴恩达深度学习（二十）构建模型策略（超参数调试、监督预训练、无监督预训练）
目录 0. 前言 1. 学习率衰减 2. 调参策略 3. 贪心监督预训练 4. 贪心逐层无监督预训练如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十 ...
花书+吴恩达深度学习（十八）迁移学习和多任务学习
目录 0. 前言 1. 迁移学习 2. 多任务学习如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十八)迁移学习和多任务学习花书+吴恩达深度学习(十 ...
花书+吴恩达深度学习（八）优化方法之 Batch normalization
目录 0. 前言 1. Batch normalization 训练 2. Batch normalization 测试如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书 ...
花书+吴恩达深度学习（七）优化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）
目录 0. 前言 1. 指数加权平均(exponentially weighted averages) 2. Momentum 动量 3. Nesterov 动量 4. AdaGrad 5. RMSP ...
花书+吴恩达深度学习（六）优化方法之 Mini-batch（SGD, MBGD, BGD）
目录 0. 前言 1. Batch gradient descent(BGD) 2. Stochastic gradient descent(SGD) 3. Mini-batch gradient d ...
花书+吴恩达深度学习（五）正则化方法（防止过拟合）
目录 0. 前言 1. 参数范数惩罚 2. Dropout 随机失活 3. 提前终止 4. 数据集增强 5. 参数共享如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+ ...

最新文章

热门文章