目录

0. 前言

1. 牛顿法

2. 共轭梯度法(CG)

3. BFGS

4. L-BFGS


如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~

花书+吴恩达深度学习(五)正则化方法(防止过拟合)

花书+吴恩达深度学习(六)优化方法之 Mini-batch(SGD, MBGD, BGD)

花书+吴恩达深度学习(七)优化方法之基本算法(Momentum, Nesterov, AdaGrad, RMSProp, Adam)

花书+吴恩达深度学习(八)优化方法之 Batch normalization

花书+吴恩达深度学习(九)优化方法之二阶近似方法(牛顿法, CG, BFGS, L-BFGS)

0. 前言

在之前,通常使用梯度下降法进行模型训练,除此之外,还有许多二阶的近似方法。

本篇主要是简单介绍总结这几种方法,不进行深入。

假设代价函数表示为:

1. 牛顿法

牛顿法是基于二阶泰勒级数展开在某点  附近来近似  的优化方法,忽略了高阶导数:

令  近似求解最优的  :

对于局部的二次函数,牛顿法会直接跳到极小值处。如果目标函数是凸的,但有高阶项,那么该更新是迭代的。

常用的正则化策略包括在 Hessian 矩阵对角线上增加常数:

牛顿法的优点:因为利用了二阶信息,相比较梯度下降法,下降速度更快。

牛顿法的缺点:如果参数数目为  ,那么需要计算  矩阵的逆,算法复杂度是  。

2. 共轭梯度法(CG)

共轭梯度法(Conjugate Gradient)是介于梯度下降法与牛顿法之间的一个方法,它仅需利用一阶导数信息,但克服了梯度下降法收敛慢的缺点,又避免了牛顿法需要存储和计算 Hessian 矩阵并求逆的缺点。

CG 中,寻求一个和先前先搜索方向共轭的搜索方向,即它不会撤销该方向上的进展。

第  次迭代的搜索方向表示为:

 有两种方法确定:

3. BFGS

BFGS 是一种拟牛顿法,使用矩阵  近似逆,迭代的更新精度以更好的近似  。

BFGS 优点是花费较少的时间改进每个线搜索。

BFGS 必须存储 Hessian 逆矩阵  ,需要  的存储空间。

4. L-BFGS

L-BFGS 和 BFGS 相同的方法计算  。

但是假设  是单位矩阵,而不需要每一步都存储近似值。

每步存储一些用于更新  的向量,每步的存储代价是  。


如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~

花书+吴恩达深度学习(九)优化方法之二阶近似方法(牛顿法, CG, BFGS, L-BFGS)相关推荐

  1. 花书+吴恩达深度学习(二九)生成随机网络 GSN

    文章目录 0. 前言 1. 生成随机网络 GSN 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 花书+吴恩达深度学习(二七)深度生成模型之玻尔兹曼机及其变体(RBM, DB ...

  2. 花书+吴恩达深度学习(十九)构建模型策略(训练模型顺序、偏差方差、数据集划分、数据不匹配)

    目录 0. 前言 1. 调试模型顺序 2. 偏差方差的解决方法 3. 数据集的选取划分 4. 数据不匹配问题 5. 评估指标的选取 6. 贝叶斯最佳误差 如果这篇文章对你有一点小小的帮助,请给个关注, ...

  3. 花书+吴恩达深度学习(二八)深度生成模型之有向生成网络(VAE, GAN, 自回归网络)

    文章目录 0. 前言 1. sigmoid 信念网络 2. 生成器网络 3. 变分自编码器 VAE 4. 生成式对抗网络 GAN 5. 生成矩匹配网络 6. 自回归网络 6.1 线性自回归网络 6.2 ...

  4. 花书+吴恩达深度学习(二十)构建模型策略(超参数调试、监督预训练、无监督预训练)

    目录 0. 前言 1. 学习率衰减 2. 调参策略 3. 贪心监督预训练 4. 贪心逐层无监督预训练 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十 ...

  5. 花书+吴恩达深度学习(十八)迁移学习和多任务学习

    目录 0. 前言 1. 迁移学习 2. 多任务学习 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十八)迁移学习和多任务学习 花书+吴恩达深度学习(十 ...

  6. 花书+吴恩达深度学习(八)优化方法之 Batch normalization

    目录 0. 前言 1. Batch normalization 训练 2. Batch normalization 测试 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书 ...

  7. 花书+吴恩达深度学习(七)优化方法之基本算法(Momentum, Nesterov, AdaGrad, RMSProp, Adam)

    目录 0. 前言 1. 指数加权平均(exponentially weighted averages) 2. Momentum 动量 3. Nesterov 动量 4. AdaGrad 5. RMSP ...

  8. 花书+吴恩达深度学习(六)优化方法之 Mini-batch(SGD, MBGD, BGD)

    目录 0. 前言 1. Batch gradient descent(BGD) 2. Stochastic gradient descent(SGD) 3. Mini-batch gradient d ...

  9. 花书+吴恩达深度学习(五)正则化方法(防止过拟合)

    目录 0. 前言 1. 参数范数惩罚 2. Dropout 随机失活 3. 提前终止 4. 数据集增强 5. 参数共享 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+ ...

最新文章

  1. python opencv 人脸比对_Python3.5+openCv在Windows下利用LBP算法进行人脸识别并匹配
  2. UVa272-TeX中的引号
  3. db2设置数据库增量备份_DB2在线增量备份 还原增量备份及前滚恢复
  4. # 遍历结构体_关于二叉树怎样建立和四种遍历方法你知道吗?
  5. php网页登录制作,thinkphp5 系统登录的实现
  6. vue router-link添加点击事件无效
  7. 将数据加载到datagridview_JVM系列(一)-- Java类的加载机制
  8. 《现代操作系统(中文第三版)》课后习题——第六章 死锁
  9. 江苏省公安厅交管高速公路硬件扩容备份一体机项目
  10. python写植物大战僵尸简单版_写个最简单的植物大战僵尸修改器吧!c和python
  11. 你的才艺怎样变现?--Rarible平台
  12. 布同:使用ghost备份或者还原的往事
  13. cad特性匹配快捷键命令_CAD复制图形或特性的相关命令和操作
  14. 闲人闲谈PS之五——项目型企业核算方式选择
  15. WIN10 系统无法启动YY开播
  16. docker之制作镜像
  17. Windows版Docker桌面
  18. 常用字节单位转化和字符中英文长度计算
  19. PRML - Chapter 02 Probability Distributions
  20. 我们不是神的孩子/林丽渊

热门文章

  1. 微信小程序中rpx与rem单位使用
  2. 文件创建时间、访问时间、修改时间
  3. c/c++ 指针函数 和 函数指针
  4. 配置VS2008本地调试.NETFRAMEWORK源代码
  5. 创业思考:做生意不是靠学历
  6. java递归简易应用教程
  7. redhat6.5 升级内核
  8. 视频采集以及播放的流程
  9. RK3288 制作内核开机logo
  10. Java学习个人备忘录之接口