指数加权平均、动量梯度下降法、RMSprop、Adam优化算法
目录
1.指数加权平均(exponentially weighted averages)
这里有一年的温度数据。
如果想计算温度的趋势,也就是局部平均值(local average),或者说移动平均值(moving average),怎么做?
:当天的温度,:从当天开始计算前天的平均温度,:从昨天开始计算前天的平均温度。
比如,β=0.9,计算的就是前10天的平均温度,如下图红线所示。β=0.98,计算的就是前50天的平均温度,如下图绿线所示。
为什么是天?
,,...
...
这些项的系数呈指数级减少
0.37,
当β->1,选定为分界线,从开始,以后的项都可忽略不计,(1-β)=。
例:β=0.9,10为分界线,(1-0.9)0.90....+0....。
β=0.98,50为分界线,(1-0.98)0.0....+0....。
偏差修正(Bias correction)
β=0.98,如果没有进行偏差修正,得到的其实是下图的紫线。
,0.02,=0.98x0.02+0.02
=5,,算局部平均值的时候,不太合理,偏小。
所以,在估测初期要进行一个修正,公式:
例:t=2,要修正为,β=0.98
当t越来越大的时候,就近似等于,上图的紫线就和绿线重合了,修正偏差的作用也就不大了。
所以,如果你关心初始时期的偏差,偏差修正能让你在早期获得更好的估测。不在乎早期的偏差,不做修正也问题不大。
指数加权平均优点是只会占很少的内存,计算的时候只需要一行代码,需要知道的信息很少。计算精度肯定不如直接计算前n天的均值,但是后者要保存前n天的数据,更占内存。
2.动量梯度下降法(Gradient descent with momentum)
动量梯度下降法(红线)要快于标准的梯度下降法(蓝线)。
每次迭代,在现有的mini-batch上计算dW,db,更新参数。等式右边的其实是上一状态的值。
两个超参数(hyperparameter):α(学习率)、β(控制着指数加权平均),β常见值等于0.9
3.RMSprop
RMSprop算法同样能加速梯度下降。
每次迭代,在现有的mini-batch上计算dW,db,更新参数。
,
w:=,b:=
RMS:Root Mean Square,均方根
4.Adam优化算法(optimization algorithm)
该算法实际上是将momentum和RMSprop这两种算法结合起来,也是为了加速梯度下降,应用广泛。
每次迭代,在现有的mini-batch上计算dW,db,更新参数。
,
,
偏差修正:,,,
w:=,b:=
超参数:学习率α:需要调整、常用值为0.9、常用值为0.999、ε常用值为
指数加权平均、动量梯度下降法、RMSprop、Adam优化算法相关推荐
- 2.6 动量梯度下降法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 2.5 指数加权平均的偏差修正 回到目录 2.7 RMSprop 动量梯度下降法 (Gradient Descent with Momentum) 还有一种算法叫做Momen ...
- Adam优化算法中的指数移动平均
机器学习经典算法(三)--指数加权平均 机器学习经典算法(三)–指数加权平均 指数加权平均(Exponentially Weighted Averages)是一些改进梯度下降法重要理论,如上篇博文梯度 ...
- 随机梯度下降法_动量梯度下降法(gradient descent with momentum)
简介 动量梯度下降法是对梯度下降法的改良版本,通常来说优化效果好于梯度下降法.对梯度下降法不熟悉的可以参考梯度下降法,理解梯度下降法是理解动量梯度下降法的前提,除此之外要搞懂动量梯度下降法需要知道原始 ...
- 2.2.3 动量梯度下降法
动量梯度下降法 我们现在介绍一下Momentum梯度下降法,运行速度快于标准的梯度下降法.其基本思想就是计算梯度的指数加权平均数,并利用该梯度来更新权重. 如图所示,图中蓝色的代表batch或者min ...
- 动量梯度下降法 Momentum
动量梯度下降法是对梯度下降法的一种优化算法,该方法学习率可以选择更大的值,函数的收敛速度也更快. 梯度下降法就像下面这张图,通过不断的更新 w与b,从而让函数移动到红点,但是要到达最优解,需要我们不断 ...
- 动量梯度下降法Momentum
转载请注明出处,原文地址 前言 动量梯度下降法是对梯度下降法的一种优化算法,该方法学习率可以选择更大的值,函数的收敛速度也更快.梯度下降法就像下面这张图,通过不断的跟新w与b,从而让函数移动到红点,但 ...
- 梯度下降法 —— 经典的优化方法
梯度下降法 -- 经典的优化方法 机器学习基础算法python代码实现可参考:zlxy9892/ml_code 1 原理 在机器学习的核心内容就是把数据喂给一个人工设计的模型,然后让模型自动的&quo ...
- Adam优化算法(Adam optimization algorithm)
Adam优化算法(Adam optimization algorithm) Adam优化算法基本上就是将Momentum和RMSprop结合在一起. 初始化 2.在第t次迭代中,用mini-batch ...
- 2.8 Adam 优化算法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 2.7 RMSprop 回到目录 2.9 学习率衰减 Adam优化算法 (Adam Optimization Algorithm) 在深度学习的历史上,包括许多知名研究者在内 ...
最新文章
- linux的裁剪过程,让你的小linux更加完善,赶快试试吧!
- string 相等 java_java中String相等问题
- go语言生成自定义uuid_竟然不用写代码!一款可视化 Web 管理后台生成工具
- 做好平面设计,你要知道的几个创造性思维?
- android锁屏显示应用程序,今日应用:微软又给 Android 做了一款锁屏应用
- java 删除压缩zip文件_从ZIP存档中删除文件,而无需在Java或Python中解压缩 - java...
- 认识数据分析_认识您的最佳探索数据分析新朋友
- 互联网推送服务原理:长连接+心跳机制(MQTT协议)
- ZOJ-2008-Invitation Cards(dijkstra)
- lopatkin俄大神精简中文系统Windows 8.1 Pro 19599 x86-x64 ZH-CN SM
- 【操作系统】知识梳理(十一)多媒体操作系统
- 计算机网络 如何算 子网号,已知Ip地址子网掩码如何计算子网号、主机号.doc
- 手机wps怎么设置打印横竖_WPS表格打印预览在哪如何设置横向和纵向打印方式
- 2022春招第一波投递时间预测,早看早知道
- asynchttpclient java_Java-Post方法在Android的AsyncHttpClient中不起作...
- 永磁直驱风力发电机并网仿真,机侧采用最大功率跟踪控制
- 【设计模式】沉浸式学习(持续更新中。。。)
- 时间毫秒值的计算运用
- KEPServerEX 6.8.796.0 新版本发布说明
- cracer培训教程第一期 文件上传漏洞与命令注入漏洞