目录

1.指数加权平均(exponentially weighted averages)

这里有一年的温度数据。

如果想计算温度的趋势,也就是局部平均值(local average),或者说移动平均值(moving average),怎么做?

:当天的温度,:从当天开始计算前天的平均温度,:从昨天开始计算前天的平均温度。

比如,β=0.9,计算的就是前10天的平均温度,如下图红线所示。β=0.98,计算的就是前50天的平均温度,如下图绿线所示。

为什么是天?

...

...

这些项的系数呈指数级减少

0.37,

当β->1,选定为分界线,从开始,以后的项都可忽略不计,(1-β)=

例:β=0.9,10为分界线,(1-0.9)0.90....+0....

β=0.98,50为分界线,(1-0.98)0.0....+0....

偏差修正(Bias correction)

β=0.98,如果没有进行偏差修正,得到的其实是下图的紫线。

0.02=0.98x0.02+0.02

=5,,算局部平均值的时候,不太合理,偏小。

所以,在估测初期要进行一个修正,公式:

例:t=2,要修正为,β=0.98

当t越来越大的时候,就近似等于,上图的紫线就和绿线重合了,修正偏差的作用也就不大了。

所以,如果你关心初始时期的偏差,偏差修正能让你在早期获得更好的估测。不在乎早期的偏差,不做修正也问题不大。

指数加权平均优点是只会占很少的内存,计算的时候只需要一行代码,需要知道的信息很少。计算精度肯定不如直接计算前n天的均值,但是后者要保存前n天的数据,更占内存。

2.动量梯度下降法(Gradient descent with momentum)

动量梯度下降法(红线)要快于标准的梯度下降法(蓝线)。

每次迭代,在现有的mini-batch上计算dW,db,更新参数。等式右边的其实是上一状态的值。

两个超参数(hyperparameter):α(学习率)、β(控制着指数加权平均),β常见值等于0.9

3.RMSprop

RMSprop算法同样能加速梯度下降。

每次迭代,在现有的mini-batch上计算dW,db,更新参数。

w:=,b:=

RMS:Root Mean Square,均方根

4.Adam优化算法(optimization algorithm)

该算法实际上是将momentum和RMSprop这两种算法结合起来,也是为了加速梯度下降,应用广泛。

每次迭代,在现有的mini-batch上计算dW,db,更新参数。

偏差修正:

w:=,b:=

超参数:学习率α:需要调整、常用值为0.9、常用值为0.999、ε常用值为

指数加权平均、动量梯度下降法、RMSprop、Adam优化算法相关推荐

  1. 2.6 动量梯度下降法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 2.5 指数加权平均的偏差修正 回到目录 2.7 RMSprop 动量梯度下降法 (Gradient Descent with Momentum) 还有一种算法叫做Momen ...

  2. Adam优化算法中的指数移动平均

    机器学习经典算法(三)--指数加权平均 机器学习经典算法(三)–指数加权平均 指数加权平均(Exponentially Weighted Averages)是一些改进梯度下降法重要理论,如上篇博文梯度 ...

  3. 随机梯度下降法_动量梯度下降法(gradient descent with momentum)

    简介 动量梯度下降法是对梯度下降法的改良版本,通常来说优化效果好于梯度下降法.对梯度下降法不熟悉的可以参考梯度下降法,理解梯度下降法是理解动量梯度下降法的前提,除此之外要搞懂动量梯度下降法需要知道原始 ...

  4. 2.2.3 动量梯度下降法

    动量梯度下降法 我们现在介绍一下Momentum梯度下降法,运行速度快于标准的梯度下降法.其基本思想就是计算梯度的指数加权平均数,并利用该梯度来更新权重. 如图所示,图中蓝色的代表batch或者min ...

  5. 动量梯度下降法 Momentum

    动量梯度下降法是对梯度下降法的一种优化算法,该方法学习率可以选择更大的值,函数的收敛速度也更快. 梯度下降法就像下面这张图,通过不断的更新 w与b,从而让函数移动到红点,但是要到达最优解,需要我们不断 ...

  6. 动量梯度下降法Momentum

    转载请注明出处,原文地址 前言 动量梯度下降法是对梯度下降法的一种优化算法,该方法学习率可以选择更大的值,函数的收敛速度也更快.梯度下降法就像下面这张图,通过不断的跟新w与b,从而让函数移动到红点,但 ...

  7. 梯度下降法 —— 经典的优化方法

    梯度下降法 -- 经典的优化方法 机器学习基础算法python代码实现可参考:zlxy9892/ml_code 1 原理 在机器学习的核心内容就是把数据喂给一个人工设计的模型,然后让模型自动的&quo ...

  8. Adam优化算法(Adam optimization algorithm)

    Adam优化算法(Adam optimization algorithm) Adam优化算法基本上就是将Momentum和RMSprop结合在一起. 初始化 2.在第t次迭代中,用mini-batch ...

  9. 2.8 Adam 优化算法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 2.7 RMSprop 回到目录 2.9 学习率衰减 Adam优化算法 (Adam Optimization Algorithm) 在深度学习的历史上,包括许多知名研究者在内 ...

最新文章

  1. linux的裁剪过程,让你的小linux更加完善,赶快试试吧!
  2. string 相等 java_java中String相等问题
  3. go语言生成自定义uuid_竟然不用写代码!一款可视化 Web 管理后台生成工具
  4. 做好平面设计,你要知道的几个创造性思维?
  5. android锁屏显示应用程序,今日应用:微软又给 Android 做了一款锁屏应用
  6. java 删除压缩zip文件_从ZIP存档中删除文件,而无需在Java或Python中解压缩 - java...
  7. 认识数据分析_认识您的最佳探索数据分析新朋友
  8. 互联网推送服务原理:长连接+心跳机制(MQTT协议)
  9. ZOJ-2008-Invitation Cards(dijkstra)
  10. lopatkin俄大神精简中文系统Windows 8.1 Pro 19599 x86-x64 ZH-CN SM
  11. 【操作系统】知识梳理(十一)多媒体操作系统
  12. 计算机网络 如何算 子网号,已知Ip地址子网掩码如何计算子网号、主机号.doc
  13. 手机wps怎么设置打印横竖_WPS表格打印预览在哪如何设置横向和纵向打印方式
  14. 2022春招第一波投递时间预测,早看早知道
  15. asynchttpclient java_Java-Post方法在Android的AsyncHttpClient中不起作...
  16. 永磁直驱风力发电机并网仿真,机侧采用最大功率跟踪控制
  17. 【设计模式】沉浸式学习(持续更新中。。。)
  18. 时间毫秒值的计算运用
  19. KEPServerEX  6.8.796.0  新版本发布说明
  20. cracer培训教程第一期 文件上传漏洞与命令注入漏洞

热门文章

  1. 【OSPF路由配置命令汇总大全】面面俱到
  2. Android自定义效果 简易示波器 (1)
  3. 并行程序设计导论pdf电子书_并行程序设计导论学习笔记——OpenMP(1)
  4. ZigBee集成开发环境IAR安装
  5. C语言入门程序【1】
  6. Go如何自动解压缩包?如何读取docx/doc文件内容?
  7. Flutter Android 签名打包
  8. 在银行存款5000万,能办理一张50万额度的信用卡吗?
  9. 影视网站排名,关键词SEO注意事项
  10. 开源的在线答题小程序分享