一、动量梯度下降法Momentum

在上一篇中学到了指数加权平均,让我们回顾一下。
vt=βvt+(1−β)θtv_t=\beta v_t+(1-\beta)\theta_tvt​=βvt​+(1−β)θt​
在动量梯度下降中,同样用到的是指数加权平均

这样做的好处是更好避免了梯度下降时的纵向波动,从而横向更快达到最优。

公式中的微分项dW和db可以理解成加速度,v项理解成速度,β\betaβ相当于施加一个摩擦力。想象一个球向下滚的过程中,获得动量,但是摩擦不会让它一直无限加速。

二、RSMprop优化算法

RSMprop同样可以加速梯度下降(学这一部分的时候感觉这优化算法比较玄学)
Sdw=βSdw+(1−β)dw2S_{dw}=\beta S_{dw}+(1-\beta)dw^2Sdw​=βSdw​+(1−β)dw2

Sdb=βSdb+(1−β)db2S_{db}=\beta S_{db}+(1-\beta)db^2Sdb​=βSdb​+(1−β)db2

w:=w−αdwSdw+εw:=w-\alpha\frac{dw}{\sqrt{S_{dw}}+\varepsilon}w:=w−αSdw​​+εdw​

b:=b−αdbSdb+εb:=b-\alpha\frac{db}{\sqrt{S_{db}}+\varepsilon}b:=b−αSdb​​+εdb​


在波动较大的情况下,SdwS_{dw}Sdw​小而SdbS_{db}Sdb​大,通过上述公式让dwdwdw除以较小的数使得w变化更大,让dbdbdb除以较大的数使得b的变化更稳定。这样处理后,增大学习率α\alphaα可以保证梯度下降不在纵向上偏离过大。

三、Adam优化算法

这个算法厉害了,是将Momentum和RSMprop算法结合在一起,是一个经得起时间检验的算法。

Adaptive Moment Estimation

超参数取值

深度学习笔记(二十)Momentum动量梯度下降及RSMprop Adam优化算法相关推荐

  1. 深度学习笔记第二门课 改善深层神经网络 第二周:优化算法

    本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...

  2. 深度学习笔记(十)—— 梯度检验[Gradient Checks]

      这是深度学习笔记第十篇,完整的笔记目录可以点击这里查看.      梯度检验就是将解析法(也就是用导数公式求解梯度)计算的梯度与用数值法(也就是通过导数定义求解梯度)计算的梯度进行对比,以检验解析 ...

  3. 深度学习笔记(十四)—— 超参数优化[Hyperparameter Optimization]

      这是深度学习笔记第十四篇,完整的笔记目录可以点击这里查看.      训练神经网络会涉及到许多超参数设置.神经网络中最常见的超参数包括: the initial learning rate lea ...

  4. 花书+吴恩达深度学习(二十)构建模型策略(超参数调试、监督预训练、无监督预训练)

    目录 0. 前言 1. 学习率衰减 2. 调参策略 3. 贪心监督预训练 4. 贪心逐层无监督预训练 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十 ...

  5. Mr.J-- jQuery学习笔记(二十八)--DOM操作方法(添加方法总结)

    Table of Contents appendTo appendTo(source, target) 源代码 append prependTo ​ ​ ​ ​ prependTo源码 prepend ...

  6. 嵌入式系统设计师学习笔记二十八:嵌入式程序设计③——高级程序设计语言

    嵌入式系统设计师学习笔记二十八:嵌入式程序设计③--高级程序设计语言 解释程序和编译程序 编译器的工作阶段示意图 语法错误:非法字符,关键字或标识符拼写错误 语法错误:语法结构出错,if--endif ...

  7. uniapp 学习笔记二十二 购物车页面结构搭建

    uniapp 学习笔记二十二 购物车页面结构搭建 cart.vue <template><view><view class="flex padding" ...

  8. Polyworks脚本开发学习笔记(二十)-补充几个常见操作指令的使用

    Polyworks脚本开发学习笔记(二十)-补充几个常见操作指令的使用 大概要写到结尾了,最后几篇就将手册的各常用命令再看一遍,组合一下,并列举出常见的一些有用的操作. DATA_COLOR_MAP数 ...

  9. 深度学习笔记(一)—— 计算梯度[Compute Gradient]

      这是深度学习笔记第一篇,完整的笔记目录可以点击这里查看.      有两种方法来计算梯度:一种是计算速度慢,近似的,但很简单的方法(数值梯度),另一种是计算速度快,精确的,但更容易出错的方法,需要 ...

  10. 动手学深度学习(二十二)——GoogLeNet:CNN经典模型(五)

    文章目录 1. 含并行连结的网络(GoogLeNet) 1.1 Inception块 1.2 GoogLeNet模型 2. 动手实现简化的GoogLeNet模型 2.1 实现Inception块 2. ...

最新文章

  1. a,b互换,不使用中间变量
  2. 深入分析H2数据库控制台中无需身份验证的RCE漏洞
  3. 解决tomcat控制台乱码问题
  4. android Fragments详解
  5. 一文彻底掌握Apache Hudi异步Clustering部署
  6. docker mysql主从_使用docker 实现MySQL主从同步/读写分离
  7. PIX防火墙security context配置手册(虚拟防火墙技术)
  8. 表情识别(三)--基于几何与Gabor小波的多层感知
  9. 水调歌头.明月几时有 小儿拼音版
  10. 网站:推荐几款好用的在线短链生成工具
  11. 递归函数的例子python卖鸭子_递归算法实现卖鸭子
  12. 企业做好绩效管理的四种方法
  13. 禁用计算机的网络连接无线网络连接,电脑设置了禁用网络,连接不上WIFI.怎么解除...
  14. android 图片底部波浪线,如何添加文字下面的红色波浪线在Android的TextView的
  15. 缺少office的组件
  16. matlab建立mex,手把手教你在VC++中建立MEX文件及调试
  17. 道一HTTP测试工具
  18. 第六篇:weblogic之被管服务器的创建
  19. Java去除字符串中空格的方法详解
  20. HTTP返回结果状态码小结

热门文章

  1. 病毒茶几 U盘里的恶魔——Autorun病毒
  2. Ios 公司申请苹果账号
  3. vue那个生命周期函数操作dom_vue生命周期
  4. (给3d人物模型添加原始动画文件 针对3d模型有动画文件 没有Avatar 没有Animator Controller)
  5. wireshark抓包使用教程
  6. 浅谈CMMI3认证从评估前准备到正式评估的全部过程
  7. 消除“Permission is only granted to system apps”错误
  8. 【前端工程化】搭建vue-cli + cesium项目的脚手架及常见问题
  9. PageRank实践-博客园用户PageRank排名
  10. cors数据类型_CORS账号和南方RTK连接怎样操作使用?步骤说明