花书+吴恩达深度学习(九)优化方法之二阶近似方法(牛顿法, CG, BFGS, L-BFGS)
目录
0. 前言
1. 牛顿法
2. 共轭梯度法(CG)
3. BFGS
4. L-BFGS
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~
花书+吴恩达深度学习(五)正则化方法(防止过拟合)
花书+吴恩达深度学习(六)优化方法之 Mini-batch(SGD, MBGD, BGD)
花书+吴恩达深度学习(七)优化方法之基本算法(Momentum, Nesterov, AdaGrad, RMSProp, Adam)
花书+吴恩达深度学习(八)优化方法之 Batch normalization
花书+吴恩达深度学习(九)优化方法之二阶近似方法(牛顿法, CG, BFGS, L-BFGS)
0. 前言
在之前,通常使用梯度下降法进行模型训练,除此之外,还有许多二阶的近似方法。
本篇主要是简单介绍总结这几种方法,不进行深入。
假设代价函数表示为:
1. 牛顿法
牛顿法是基于二阶泰勒级数展开在某点 附近来近似 的优化方法,忽略了高阶导数:
令 近似求解最优的 :
对于局部的二次函数,牛顿法会直接跳到极小值处。如果目标函数是凸的,但有高阶项,那么该更新是迭代的。
常用的正则化策略包括在 Hessian 矩阵对角线上增加常数:
牛顿法的优点:因为利用了二阶信息,相比较梯度下降法,下降速度更快。
牛顿法的缺点:如果参数数目为 ,那么需要计算 矩阵的逆,算法复杂度是 。
2. 共轭梯度法(CG)
共轭梯度法(Conjugate Gradient)是介于梯度下降法与牛顿法之间的一个方法,它仅需利用一阶导数信息,但克服了梯度下降法收敛慢的缺点,又避免了牛顿法需要存储和计算 Hessian 矩阵并求逆的缺点。
CG 中,寻求一个和先前先搜索方向共轭的搜索方向,即它不会撤销该方向上的进展。
第 次迭代的搜索方向表示为:
有两种方法确定:
3. BFGS
BFGS 是一种拟牛顿法,使用矩阵 近似逆,迭代的更新精度以更好的近似 。
BFGS 优点是花费较少的时间改进每个线搜索。
BFGS 必须存储 Hessian 逆矩阵 ,需要 的存储空间。
4. L-BFGS
L-BFGS 和 BFGS 相同的方法计算 。
但是假设 是单位矩阵,而不需要每一步都存储近似值。
每步存储一些用于更新 的向量,每步的存储代价是 。
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~
花书+吴恩达深度学习(九)优化方法之二阶近似方法(牛顿法, CG, BFGS, L-BFGS)相关推荐
- 花书+吴恩达深度学习(二九)生成随机网络 GSN
文章目录 0. 前言 1. 生成随机网络 GSN 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 花书+吴恩达深度学习(二七)深度生成模型之玻尔兹曼机及其变体(RBM, DB ...
- 花书+吴恩达深度学习(十九)构建模型策略(训练模型顺序、偏差方差、数据集划分、数据不匹配)
目录 0. 前言 1. 调试模型顺序 2. 偏差方差的解决方法 3. 数据集的选取划分 4. 数据不匹配问题 5. 评估指标的选取 6. 贝叶斯最佳误差 如果这篇文章对你有一点小小的帮助,请给个关注, ...
- 花书+吴恩达深度学习(二八)深度生成模型之有向生成网络(VAE, GAN, 自回归网络)
文章目录 0. 前言 1. sigmoid 信念网络 2. 生成器网络 3. 变分自编码器 VAE 4. 生成式对抗网络 GAN 5. 生成矩匹配网络 6. 自回归网络 6.1 线性自回归网络 6.2 ...
- 花书+吴恩达深度学习(二十)构建模型策略(超参数调试、监督预训练、无监督预训练)
目录 0. 前言 1. 学习率衰减 2. 调参策略 3. 贪心监督预训练 4. 贪心逐层无监督预训练 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十 ...
- 花书+吴恩达深度学习(十八)迁移学习和多任务学习
目录 0. 前言 1. 迁移学习 2. 多任务学习 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十八)迁移学习和多任务学习 花书+吴恩达深度学习(十 ...
- 花书+吴恩达深度学习(八)优化方法之 Batch normalization
目录 0. 前言 1. Batch normalization 训练 2. Batch normalization 测试 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书 ...
- 花书+吴恩达深度学习(七)优化方法之基本算法(Momentum, Nesterov, AdaGrad, RMSProp, Adam)
目录 0. 前言 1. 指数加权平均(exponentially weighted averages) 2. Momentum 动量 3. Nesterov 动量 4. AdaGrad 5. RMSP ...
- 花书+吴恩达深度学习(六)优化方法之 Mini-batch(SGD, MBGD, BGD)
目录 0. 前言 1. Batch gradient descent(BGD) 2. Stochastic gradient descent(SGD) 3. Mini-batch gradient d ...
- 花书+吴恩达深度学习(五)正则化方法(防止过拟合)
目录 0. 前言 1. 参数范数惩罚 2. Dropout 随机失活 3. 提前终止 4. 数据集增强 5. 参数共享 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+ ...
最新文章
- python opencv 人脸比对_Python3.5+openCv在Windows下利用LBP算法进行人脸识别并匹配
- UVa272-TeX中的引号
- db2设置数据库增量备份_DB2在线增量备份 还原增量备份及前滚恢复
- # 遍历结构体_关于二叉树怎样建立和四种遍历方法你知道吗?
- php网页登录制作,thinkphp5 系统登录的实现
- vue router-link添加点击事件无效
- 将数据加载到datagridview_JVM系列(一)-- Java类的加载机制
- 《现代操作系统(中文第三版)》课后习题——第六章 死锁
- 江苏省公安厅交管高速公路硬件扩容备份一体机项目
- python写植物大战僵尸简单版_写个最简单的植物大战僵尸修改器吧!c和python
- 你的才艺怎样变现?--Rarible平台
- 布同:使用ghost备份或者还原的往事
- cad特性匹配快捷键命令_CAD复制图形或特性的相关命令和操作
- 闲人闲谈PS之五——项目型企业核算方式选择
- WIN10 系统无法启动YY开播
- docker之制作镜像
- Windows版Docker桌面
- 常用字节单位转化和字符中英文长度计算
- PRML - Chapter 02 Probability Distributions
- 我们不是神的孩子/林丽渊