一、动量momentum的由来

训练网络时,通常先对网络的初始值按照某种分布进行初始化,如:高斯分布。初始化权值操作对最终的网络性能影响比较大,合适的网络初始权值操作能够使损失函数在训练过程中收敛速度快,从而获得更好的优化结果。但是按照分布随机初始化网络权值时,存在一些不确定的因素,并不能保证每一次初始化操作都能使得网络的初始值处在一个合理的状态。不恰当的初始权值可能使网络的损失函数在训练过程中先去局部最小值,达不到全局最优的状态。因此,如何消除这种不确定性,是训练神经网络必须解决的一个问题。

二、什么是动量momentum

动量momentum动量能够在一定的程度上解决这个问题。动量momentum是依据物理学的势能与动能之间能量转换原理提出来的。当动量momentum越大时,其转换为势能的能量也就越大,就越有可能摆脱局部凹域的束缚,进去全局凹域。动量momentum主要用在权值更新的时候。

三、工作原理

一般我们使用神经网络更新权值时,采用如下公式:

w = w - learning_rate * dw

引入动量momentum后,采用如下公式:

v = mu * v - learning_rate * dw

W = w + v

其中,v初始化为0,mu是设定的一个超变量,最常见的设定值是 0.9。

可以这样理解上式:如果上次的动量momentum(v)与这次的负梯度方向是相同的,那这次下降的幅度会增加,从而增加

深度学习学习笔记 --- 动量momentum相关推荐

  1. 深度学习中的动量momentum

    训练网络时,通常先对网络的初始权值按照某种分布进行初始化,如:高斯分布.初始化权值操作对最终网络的性能影响比较大,合适的网络初始权值能够使得损失函数在训练过程中的收敛速度更快,从而获得更好的优化结果. ...

  2. torch的拼接函数_从零开始深度学习Pytorch笔记(13)—— torch.optim

    前文传送门: 从零开始深度学习Pytorch笔记(1)--安装Pytorch 从零开始深度学习Pytorch笔记(2)--张量的创建(上) 从零开始深度学习Pytorch笔记(3)--张量的创建(下) ...

  3. 深度学习入门首推资料--吴恩达深度学习全程笔记分享

    本文首发于微信公众号"StrongerTang",可打开微信搜一搜,或扫描文末二维码,关注查看更多文章. 原文链接:(https://mp.weixin.qq.com/s?__bi ...

  4. 深度学习入门笔记(七):深层神经网络

    欢迎关注WX公众号:[程序员管小亮] 专栏--深度学习入门笔记 声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献. 2)本文仅供学术交流,非商用.所以每一部分具 ...

  5. 吴恩达深度学习——读书笔记

    神经网络和深度学习 深度学习概述 深度学习(Deep Learning)是更复杂的神经网络(Neural Network). 这是一个基本的神经网络模型结构.在训练的过程中,只要有足够的输入x和输出y ...

  6. deeplearing.ai 深度学习课程笔记

    deeplearing.ai 深度学习课程笔记 一.神经网络与机器学习 直观理解神经网络.随着神经网络层的加深,所提取的特征(函数)不断组合,最终得到更宏观.更复杂的所需要的特征.简单的例子比如房屋价 ...

  7. Deeplearning.ai深度学习课程笔记-在线版

    注意:请点击阅读原文 课程概述 课程视频离线版本可以到github:https://github.com/fengdu78/deeplearning_ai_books 查找下载. 课程地址:https ...

  8. pytorch深度学习入门笔记

    Pytorch 深度学习入门笔记 作者:梅如你 学习来源: 公众号: 阿力阿哩哩.土堆碎念 B站视频:https://www.bilibili.com/video/BV1hE411t7RN? 中国大学 ...

  9. 深度学习 学习笔记总结

    最近也不知道干啥了,索性把这个坑填完,也算是对自己研一的一些总结吧. 文章目录 前言 一.神经网络与深度学习 二.神经网络的过拟合与正则化 三.深度学习的优化算法 四.卷积神经网络 五.循环神经网络 ...

最新文章

  1. php+实现群发微信模板消息_php实现发送微信模板消息的方法,php信模板消息_PHP教程...
  2. python中读取文件内容-Python读取文件内容的三种常用方式及效率比较
  3. 推荐一个Android Studio很实用的插件android-butterknife-zelezny
  4. Ubuntu vi 上下左右变ABCD问题解决方法
  5. YOLO学习-1:win10(64位)+ python3.6 + TensorFlow + keras + yolov3测试实践
  6. 查看Unity工程版本
  7. 对比kCCPositionTypeFree和kCCPositionTypeRelative两种粒子移动类型
  8. SPI模式下MCU对SD卡的控制及操作命令
  9. CentOS6找回root密码 - 黑猴子
  10. java利用poi导出数据到excel
  11. UITableView的复用过程
  12. c语言串口接收的字符转int,从串口发送和接收int值
  13. el-select 默认选中
  14. java输出华氏摄氏温度转换表_输出华氏-摄氏温度转换表
  15. rabbitmq port is already allocated
  16. 数据结构 严蔚敏 迷宫求解 代码
  17. 万年历,阴阳历转换。
  18. 信息学奥赛一本通 1325:【例7.4】 循环比赛日程表
  19. FDTD Solutions时域有限差分法仿真学习相关操作(一)——GDS导出
  20. 方向导数和梯度的辨析

热门文章

  1. 多模态情感识别-MISA: baseline解读
  2. 云原生计算动态周报8.9-8.15
  3. 常见的Linux发行版说明和下载地址
  4. 豆瓣评分9.0,《IBM SPSS数据分析与挖掘实战案例精粹》
  5. 4:eMMC command
  6. Transferable Sparse Adversarial Attack
  7. v8引擎编译全记录2021-2-23
  8. SMM模式--来自CSDN 辛晓晨
  9. 130万奖金池!目标检测、3D点云检测与跟踪、L4规划控制等赛事全面启动!国家智能网联汽车创新中心ICV创新算法攻关任务来了...
  10. 互联网舆情监测系统的发展阶段,TOOM互联网舆情监测系统有哪些?