训练网络时,通常先对网络的初始权值按照某种分布进行初始化,如:高斯分布。初始化权值操作对最终网络的性能影响比较大,合适的网络初始权值能够使得损失函数在训练过程中的收敛速度更快,从而获得更好的优化结果。

但是按照某类分布随机初始化网络权值时,存在一些不确定因素,并不能保证每一次初始化操作都能使得网络的初始权值处在一个合适的状态。不恰当的初始权值可能使得网络的损失函数在训练过程中陷入局部最小值,达不到全局最优的状态。因此,如何消除这种不确定性,是训练深度网络是必须解决的一个问题。

momentum 动量能够在一定程度上解决这个问题。momentum 动量是依据物理学的势能与动能之间能量转换原理提出来的。

        当 momentum 动量越大时,其转换为势能的能量也就越大,就越有可能摆脱局部凹域的束缚,进入全局凹域。momentum 动量主要用在权重更新的时候。

一般,神经网络在更新权值时,采用如下公式:

w = w - learning_rate * dw

引入momentum后,采用如下公式:

v = mu * v - learning_rate * dw

w = w + v

其中,v初始化为0,mu是设定的一个超变量,最常见的设定值是0.9。可以这样理解上式:如果上次的momentum()与这次的负梯度方向是相同的,那这次下降的幅度就会加大,从而加速收敛。

原文链接:https://blog.csdn.net/u013989576/article/details/70241121

深度学习中的动量momentum相关推荐

  1. 深度学习中常用优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)

    本文转载自:https://www.cnblogs.com/guoyaohua/p/8542554.html 在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagr ...

  2. 深度学习中的Momentum算法原理

    一.介绍 在深度学习中,Momentum(动量)优化算法是对梯度下降法的一种优化, 它在原理上模拟了物理学中的动量,已成为目前非常流行的深度学习优化算法之一.在介绍动量优化算法前,需要对 指数加权平均 ...

  3. 深度学习中的优化简介

    深度学习算法在许多情况下都涉及到优化. 1. 学习和纯优化有什么不同 在大多数机器学习问题中,我们关注某些性能度量P,其定义于测试集上并且可能是不可解的.因此,我们只是间接地优化P.我们系统通过降低代 ...

  4. 深度学习中的优化算法串讲

    Datawhale原创 作者:谢文睿,Datawhale成员 寄语:优化算法是一个超参数,一个优化算法不是适合所有损失函数的,没有哪个优化算法是绝对的好或绝对的坏,是要根据损失函数判断的 本文对深度学 ...

  5. 深度学习中7种最优化算法的可视化与理解

    作者丨小小鱼@知乎 来源丨https://zhuanlan.zhihu.com/p/41799394 本文旨在优化一维函数,实际上模型参数有数百万维以上,差距很大,因此本文最好作为辅助法的理解,而非对 ...

  6. 深度学习中的优化算法与实现

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 GiantPandaCV导语:这篇文章的内容主要是参考 沐神的mxnet/gluon视频中,Aston ...

  7. 一文概览深度学习中的五大正则化方法和七大优化策略

    深度学习中的正则化与优化策略一直是非常重要的部分,它们很大程度上决定了模型的泛化与收敛等性能.本文主要以深度卷积网络为例,探讨了深度学习中的五项正则化与七项优化策略,并重点解释了当前最为流行的 Ada ...

  8. 深度学习中多层全连接网络的梯度下降法及其变式

    深度学习中多层全连接网络的梯度下降法及其变式 1 梯度下降法 2 梯度下降的变式 1.SGD 2.Momentum 3.Adagrad 4.RMSprop 5.Adam 6.小结 1 梯度下降法 梯度 ...

  9. 手撕深度学习中的优化器

    深度学习中的优化算法采用的原理是梯度下降法,选取适当的初值params,不断迭代,进行目标函数的极小化,直到收敛.由于负梯度方向时使函数值下降最快的方向,在迭代的每一步,以负梯度方向更新params的 ...

最新文章

  1. 国际大师Stan Lippman访华布道C++技术大会
  2. 55种网页常用小技巧
  3. Ubuntu下安装Docker
  4. STM32F1迷你板外部中断
  5. 报表中如何控制附件的上传和下载权限
  6. 8月13日见!三星Note 20国行版官宣:唯一悬念只剩价格
  7. php 多线程写入文件,C#_C#实现多线程写入同一个文件的方法,本文实例讲述了C#实现多线程 - phpStudy...
  8. 大型油烟机清洗机器人_餐饮业大型油烟机清洗的必要性,你知道吗?
  9. 利用redis做网站每天访问量,好处节省空间,存上一亿个用户占用12M(理论上大概)...
  10. SQL获得当前时间函数(MySQL)
  11. vue中使用video-player和百度地图
  12. 货币金融学学习笔记(第4篇中央银行与货币操作政策)
  13. Oracle之同义词
  14. 大数据时代下的网络安全与数据隐私论文
  15. 网络摄像机进行互联网视频直播录像方案的选择,EasyNVS or EasyCloud or EasyGBS?
  16. 百度地图API计算经纬度
  17. ybt1357 车厢调度
  18. python足球联赛赛程_足球联赛赛程表工作表
  19. MybatisPlus查询条件和排序高级封装
  20. RTKLIB学习总结(五)后处理函数调用流程、postpos、execses_b、execses_r、execses、procpos、rtkpos

热门文章

  1. Qt for vs2017 grpc无法解析的外部符号错误
  2. X-wrt路由器配置校园网ipv6穿透
  3. 红米NOTE拆机视屏 红米NOTE换总成
  4. python中生成藏头诗
  5. SpringBoot整合第三方技术
  6. CMD终端中一些常用的快捷键
  7. 经典再现,用python画出剑仙一中的绝美桃花林
  8. MySQL多表查询语句
  9. phpword表格使用以及文字居中、单元格合并问题
  10. 历史最全GAN网络及其各种变体整理(附论文及代码实现)