如何理解神经网络优化中Momentem能够缓解hessian矩阵病态的问题?

1、首先介绍一下,矩阵的病态问题

矩阵病态主要是因为矩阵向量之间相关性太大,在二维上说就是矩阵向量之间的夹角太小,导致这两个相似的矩阵向量稍有改变,计算结果就会有很大的不同。

看一个例子更容易理解:

2、接着介绍下hessian矩阵,

hesiian矩阵很好理解,它就是是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。

在神经网络的优化中,hesiian矩阵病态就表现在局部最小点和鞍点,因为在局部最小点和鞍点处四周的梯度变化率(梯度和二阶导都是相似的)都是相似的,但是往不同的梯度方向前进又会导致优化结果有较大的差异。

3、这样就容易理解了,Momentum有一定的摆脱局部最小点和鞍点的能力,所以也就可以说成能一定程度上缓解hessian矩阵病态的问题,其实这是同一个问题的不同表述。

如何理解神经网络优化中Momentem能够缓解hessian矩阵病态的问题相关推荐

  1. 神经网络优化中的Weight Averaging

    ©PaperWeekly 原创 · 作者|张子逊 研究方向|神经网络剪枝.NAS 在神经网络优化的研究中,有研究改进优化器本身的(例如学习率衰减策略.一系列 Adam 改进等等),也有不少是改进 no ...

  2. 中计算散度的函数_深度神经网络优化中的不可导函数如何计算梯度?

    众所周知,神经网络仅能处理连续的浮点数,标准的输出也是连续型的数字.但实际问题中,我们很多时候都需要一个离散的结果,比如分类问题中我们希望输出正确的类别,"类别"是离散的,&quo ...

  3. 曹健老师 TensorFlow2.1 —— 第二章 神经网络优化

    第一章 本章目的:学会神经网络优化过程,使用正则化减少过拟合,使用优化器更新网络参数. 2.1 预备知识 tf.where(条件语句, 真返回A, 假返回B) a = tf.constant([1,2 ...

  4. Halide视觉神经网络优化

    Halide视觉神经网络优化 概述 Halide是用C++作为宿主语言的一个图像处理相关的DSL(Domain Specified Language)语言,全称领域专用语言.主要的作用为在软硬层面上( ...

  5. 各种神经网络优化算法:从梯度下降到Adam方法

    在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法? 这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最佳 ...

  6. 【深度学习】从梯度下降到 Adam!一文看懂各种神经网络优化算法

    王小新 编译自 Medium 量子位 出品 | 公众号 QbitAI,编辑:AI有道 在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯 ...

  7. 深度学习教程(6) | 神经网络优化算法(吴恩达·完整版)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/35 本文地址:https://www.showmeai.tech/article-d ...

  8. 一文概览神经网络优化算法

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 一.机器学习的优化 机器学习的优化(目标),简单来说是:搜索模型的 ...

  9. 神经网络优化算法总结

    Datawhale干货 编译:王小新,来源:量子位 在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法? 这篇文 ...

最新文章

  1. 揭秘HPE的最新一代组合式基础设施Synergy
  2. 个人喜欢的关于模式识别、机器学习、推荐系统、图像特征等方面个人主页及博客
  3. XenServer中LVM的性能
  4. 一文读懂FM算法优势,并用python实现
  5. 二、nodemon-Node.js 监控工具
  6. python程序化 k线指定时间更新_Python之路 14 K线时间序列管理器
  7. 面试:一文搞懂重载和重写的区别
  8. 展示面--存储学习总结于2021年
  9. 【五级流水线CPU】—— 7. 协处理器访问指令(2条)
  10. Maya中操作普通DG节点和Dag节点的区别
  11. 库伦法-锂电池容量计量
  12. Linux_无法运行可执行文件
  13. 天池大数据竞赛——UI特征统计
  14. 推荐几个好用实用的免费图标素材(好看的icon)
  15. 【前端笔记】js计算两个日期差多少天
  16. 3dmark压力测试 linux,3DMark压力测试发布:彻底榨干你电脑!
  17. 2019年暑假 纪中培训总结
  18. 同步Socket 与 异步 Socket
  19. flutter桌面_Flutter如何赢得桌面
  20. GCC详解的-Wl选项说明与测试

热门文章

  1. 一张图告诉你BCH路线分歧的现状
  2. Java数据结构与排序算法——堆和堆排序
  3. cisco路由器设置telnet口令的问题
  4. HOW TO WRITE A DAILY LAB NOTE?
  5. 《柯南 绯红色的子弹》 观后感
  6. !亲测有效!质量最高的pr模板网站,有点小贵罢了
  7. 在线抠图工具:亲测有效
  8. NLP的一些学习资料
  9. Tensorflow运行程序报错 FailedPreconditionError
  10. PostgreSQL 10.1 手册_部分 II. SQL 语言_第 5 章 数据定义_5.6. 权限