深度学习笔记(二十)Momentum动量梯度下降及RSMprop Adam优化算法
一、动量梯度下降法Momentum
在上一篇中学到了指数加权平均,让我们回顾一下。
vt=βvt+(1−β)θtv_t=\beta v_t+(1-\beta)\theta_tvt=βvt+(1−β)θt
在动量梯度下降中,同样用到的是指数加权平均
这样做的好处是更好避免了梯度下降时的纵向波动,从而横向更快达到最优。
公式中的微分项dW和db可以理解成加速度,v项理解成速度,β\betaβ相当于施加一个摩擦力。想象一个球向下滚的过程中,获得动量,但是摩擦不会让它一直无限加速。
二、RSMprop优化算法
RSMprop同样可以加速梯度下降(学这一部分的时候感觉这优化算法比较玄学)
Sdw=βSdw+(1−β)dw2S_{dw}=\beta S_{dw}+(1-\beta)dw^2Sdw=βSdw+(1−β)dw2
Sdb=βSdb+(1−β)db2S_{db}=\beta S_{db}+(1-\beta)db^2Sdb=βSdb+(1−β)db2
w:=w−αdwSdw+εw:=w-\alpha\frac{dw}{\sqrt{S_{dw}}+\varepsilon}w:=w−αSdw+εdw
b:=b−αdbSdb+εb:=b-\alpha\frac{db}{\sqrt{S_{db}}+\varepsilon}b:=b−αSdb+εdb
在波动较大的情况下,SdwS_{dw}Sdw小而SdbS_{db}Sdb大,通过上述公式让dwdwdw除以较小的数使得w变化更大,让dbdbdb除以较大的数使得b的变化更稳定。这样处理后,增大学习率α\alphaα可以保证梯度下降不在纵向上偏离过大。
三、Adam优化算法
这个算法厉害了,是将Momentum和RSMprop算法结合在一起,是一个经得起时间检验的算法。
Adaptive Moment Estimation
超参数取值
深度学习笔记(二十)Momentum动量梯度下降及RSMprop Adam优化算法相关推荐
- 深度学习笔记第二门课 改善深层神经网络 第二周:优化算法
本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...
- 深度学习笔记(十)—— 梯度检验[Gradient Checks]
这是深度学习笔记第十篇,完整的笔记目录可以点击这里查看. 梯度检验就是将解析法(也就是用导数公式求解梯度)计算的梯度与用数值法(也就是通过导数定义求解梯度)计算的梯度进行对比,以检验解析 ...
- 深度学习笔记(十四)—— 超参数优化[Hyperparameter Optimization]
这是深度学习笔记第十四篇,完整的笔记目录可以点击这里查看. 训练神经网络会涉及到许多超参数设置.神经网络中最常见的超参数包括: the initial learning rate lea ...
- 花书+吴恩达深度学习(二十)构建模型策略(超参数调试、监督预训练、无监督预训练)
目录 0. 前言 1. 学习率衰减 2. 调参策略 3. 贪心监督预训练 4. 贪心逐层无监督预训练 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十 ...
- Mr.J-- jQuery学习笔记(二十八)--DOM操作方法(添加方法总结)
Table of Contents appendTo appendTo(source, target) 源代码 append prependTo prependTo源码 prepend ...
- 嵌入式系统设计师学习笔记二十八:嵌入式程序设计③——高级程序设计语言
嵌入式系统设计师学习笔记二十八:嵌入式程序设计③--高级程序设计语言 解释程序和编译程序 编译器的工作阶段示意图 语法错误:非法字符,关键字或标识符拼写错误 语法错误:语法结构出错,if--endif ...
- uniapp 学习笔记二十二 购物车页面结构搭建
uniapp 学习笔记二十二 购物车页面结构搭建 cart.vue <template><view><view class="flex padding" ...
- Polyworks脚本开发学习笔记(二十)-补充几个常见操作指令的使用
Polyworks脚本开发学习笔记(二十)-补充几个常见操作指令的使用 大概要写到结尾了,最后几篇就将手册的各常用命令再看一遍,组合一下,并列举出常见的一些有用的操作. DATA_COLOR_MAP数 ...
- 深度学习笔记(一)—— 计算梯度[Compute Gradient]
这是深度学习笔记第一篇,完整的笔记目录可以点击这里查看. 有两种方法来计算梯度:一种是计算速度慢,近似的,但很简单的方法(数值梯度),另一种是计算速度快,精确的,但更容易出错的方法,需要 ...
- 动手学深度学习(二十二)——GoogLeNet:CNN经典模型(五)
文章目录 1. 含并行连结的网络(GoogLeNet) 1.1 Inception块 1.2 GoogLeNet模型 2. 动手实现简化的GoogLeNet模型 2.1 实现Inception块 2. ...
最新文章
- a,b互换,不使用中间变量
- 深入分析H2数据库控制台中无需身份验证的RCE漏洞
- 解决tomcat控制台乱码问题
- android Fragments详解
- 一文彻底掌握Apache Hudi异步Clustering部署
- docker mysql主从_使用docker 实现MySQL主从同步/读写分离
- PIX防火墙security context配置手册(虚拟防火墙技术)
- 表情识别(三)--基于几何与Gabor小波的多层感知
- 水调歌头.明月几时有 小儿拼音版
- 网站:推荐几款好用的在线短链生成工具
- 递归函数的例子python卖鸭子_递归算法实现卖鸭子
- 企业做好绩效管理的四种方法
- 禁用计算机的网络连接无线网络连接,电脑设置了禁用网络,连接不上WIFI.怎么解除...
- android 图片底部波浪线,如何添加文字下面的红色波浪线在Android的TextView的
- 缺少office的组件
- matlab建立mex,手把手教你在VC++中建立MEX文件及调试
- 道一HTTP测试工具
- 第六篇:weblogic之被管服务器的创建
- Java去除字符串中空格的方法详解
- HTTP返回结果状态码小结
热门文章
- 病毒茶几 U盘里的恶魔——Autorun病毒
- Ios 公司申请苹果账号
- vue那个生命周期函数操作dom_vue生命周期
- (给3d人物模型添加原始动画文件 针对3d模型有动画文件 没有Avatar 没有Animator Controller)
- wireshark抓包使用教程
- 浅谈CMMI3认证从评估前准备到正式评估的全部过程
- 消除“Permission is only granted to system apps”错误
- 【前端工程化】搭建vue-cli + cesium项目的脚手架及常见问题
- PageRank实践-博客园用户PageRank排名
- cors数据类型_CORS账号和南方RTK连接怎样操作使用?步骤说明