深度模型的优化

==》 参考文章:梯度下降的可视化解释

1. 梯度下降求解的优化器

  • 动量(momentum)
    动量借助了物理思想,在物理学上定义为质量乘以速度。想象一下在碗里滚动一个球,不会在底部停止,受惯性影响。使用动量的随机梯度下降(SGD)也就是加了一个速度项的超参数,这个参数乘上次的移动量,影响着本次的移动量改变。v←αv−ϵ∇θ(1m∑i=1mL(f(x(i);θ),y(i)))θ←θ+v\begin{array}{l} v \leftarrow \alpha v-\epsilon \nabla_{\theta}\left(\frac{1}{m} \sum_{i=1}^{m} L\left(f\left(x^{(i)} ; \theta\right), y^{(i)}\right)\right) \\ \theta \leftarrow \theta+v \end{array} v←αv−ϵ∇θ​(m1​∑i=1m​L(f(x(i);θ),y(i)))θ←θ+v​

    • 动量移动得更快
    • 动量有机会逃脱局部极小值
    • 代价是引入了另一个超参数
  • AdaGrad(Adaptive Gradient)
    AdaGrad 不是像动量一样跟踪梯度之和,而是跟踪梯度平方之和,并使用这种方法在不同的方向上调整梯度

    • 在参数空间中更为平缓的倾斜方向会取得更大的进步
    • 梯度的平方和只会增加,会导致有效学习率过早和过量的减小
  • RMSProp(Root Mean Square Propagation)
    RMSProp 算法修改AdaGrad,改变梯度积累为指数加权的移动平均,也可以理解为添加衰减因子来控制梯度积累的大小,保证学习率在一个可控范围。

  • Adam(Adaptive Moment Estimation)
    Adam 同时兼顾了动量和 RMSProp 的优点,也就是动量直接并入了梯度一阶矩(指数加权)的估计。

2.

《Deep Learning (Ian Goodfellow)》深度模型的优化相关推荐

  1. Deep Learning (Ian Goodfellow, Yoshua Bengio and Aaron Courville) 阅读笔记

    Ian Goodfellow, Yoshua Bengio and Aaron Courville 合著的<Deep Learning> 终于写完了,并且放在网上可以在线免费阅读.网址:h ...

  2. Deep Learning (Ian Goodfellow, Yoshua Bengio and Aaron Courville)深度学习中英文版本资源

    转自 -博客园的zivon:https://www.cnblogs.com/zivon/p/9106966.html 看到CSDN上下载需要10个.20个积分,觉得有点贵并没有下载.然后查了一圈,发现 ...

  3. Deep Learning ---Ian Goodfellow

    Stochastic gradient algorithm(SGA): 随机梯度下降算法. https://blog.csdn.net/kwame211/article/details/8036407 ...

  4. 《Deep Learning (Ian Goodfellow)》概率与信息论

    概率与信息论 1. 部分数学概念 频率派(frequentist) 频率学派从「自然」角度出发,试图直接为「事件」本身建模. 频率派发展出来的模型,一般来说叫做统计机器学习,实际上是一个优化问题: 设 ...

  5. 《Deep Learning (Ian Goodfellow)》机器学习基础

    机器学习基础 1. 学习算法 任务 分类.输入缺失分类.回归.转录.机器翻译.结构化输出.异常检测.合成和采样.缺失值填补.去噪.密度估计或概率质量函数估计 经验 根据学习过程中的不同经验,机器学习算 ...

  6. 《Deep Learning (Ian Goodfellow)》线性代数

    线性代数 1. 部分数学概念 张量(tensor) 一个数组中的元素分布在若干维坐标的规则网格中,称之为张量. 生成子空间(span) 一组向量的生成子空间是原始向量线性组合后所能抵达的点的集合. 范 ...

  7. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展

    Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展 目录 Natural Langu ...

  8. 译文Deep Learning in Bioinformatics --深度学习在生物信息学领域的应用(1)

    译文Deep Learning in Bioinformatics --深度学习在生物信息学领域的应用(1) 深度学习在生物信息学领域的应用(1) 原文链接:https://arxiv.org/abs ...

  9. Biological network analysis with deep learning(使用深度学习的生物网络分析)

    Biological network analysis with deep learning(使用深度学习的生物网络分析)很少有关于生物网络的综述类论文,这是今年发在 Briefings in Bio ...

最新文章

  1. 虚拟服务器系统一般用那种,虚拟主机 选什么系统
  2. 听说,京沪津的人都爱直接“看牌”买买买
  3. android 等待按钮框架,Android 开发 MaterialDialog框架的详解
  4. Istio 自动注入 sidecar 不成功及k8s安装istio后pod无法创建解决方案
  5. linux 二级域名设置
  6. java 数据库连接实例,Java连接各种数据库的实例
  7. flex item的width VS flex-basis
  8. 二维小波变换_【外文文献速读】实时二维水波模拟
  9. JMeter(十三)-代理服务器录制脚本
  10. [paper reading] SSD
  11. 问题十九:怎么模拟ray tracing中漫射材料球体的颜色(diffuse materials)
  12. MobaXterm连接Linux教程
  13. IBM 人工智能黑科技
  14. python的encode方法_Python encode() 方法
  15. 自己DIY一个pinephone——debian与主线linux在红米2(msm8916)上的移植 (二)
  16. 劝君莫惜金缕衣 劝君惜取少年时 2015年 ,我22岁。
  17. A005 C++提高编程
  18. 数学建模——TOPSIS法(优劣解距离法)学习笔记(一)
  19. latex 页眉页脚
  20. IDEA 使用Spring Boot框架实现hello world

热门文章

  1. UI设计师整体工作流程!
  2. Android Webview录音功能与原生录音实现
  3. 大坝安全监测设备(数据采集仪MCU)-守护水库安全防线
  4. Elasticsearch——Geo-distance查询
  5. WPF 动态更换模板
  6. 【学习笔记】一个关于utf8编码转换的问题
  7. ngrok实现内网穿透,让家里的笔记本也能做服务器
  8. 重置服务器系统要多久,云服务器需要多久重启一下
  9. R语言使用lm函数构建多元回归模型(Multiple Linear Regression)、使用step函数筛选最合适的回归变量(逐步回归筛选预测变量的最佳子集)
  10. Git(入门第一次提交)