原文地址:http://www.researchgate.net/profile/Robert_Jacobs9/publication/223108796_Increased_rates_of_convergence_through_learning_rate_adaptation/links/0deec525d8f8dd5ade000000.pdf

  已经看了CNN,rbm,sae等网络及算法,所有网络在训练时都需要一个learning rate,一直以来都觉得这个量设为定值即可,现在才发现其实这个量也可以变更和学习。

  文章中提到的时最早的神经网络learning rate,不过我觉得对现在有启发作用。文中提出神经网络中,如果把error function看成是一个多变量函数,每个参数对应一个变量,那么这个函数在每个参数wi方向上变化的速度是不同的,并且如果error function不是圆形的话,负梯度方向并不是指向最小值的(这个画个椭圆做个切线就知道),因此应该采用不同的learning rate。

  随后提出了作者一种启发式的方法就是在神经网络中,如果一个参数每次的导数的符号保持不变,说明它一直沿正方向走,那么应该增大learning rate以达到更快地到达最小值点,如果一个参数每次的导数的符号经常变化,说明它已经越过了最小值点,在最小值点附近摆动,那么应该减小learning rate让它稳定。

  随后就是算法,一个是momentum方法,,这样前面的导数可以影响后面的参数变更,从而使一直沿一个方向走的参数的改变,否则减小参数的改变。

  第二种是delta-delta learning rule,这个ε(t+1)是根据

得出的,第二个式子的结果就是learning rate的导数,可以用sgd更新learning rate。但显然,这会有一个缺陷,结束第二个式子的结果是两个导数相乘,会比较小,所以这个方法不好,有个改进版的。

这个函数结合了那两个原则并且防止learning rate减到小于0,线性增加也不会增加的太快。

  希望本博客对别人有帮助,谢谢。

转载于:https://www.cnblogs.com/caozj/p/4841344.html

关于Increased rates of convergence through learning rate adaptation一文的理解相关推荐

  1. Paper:论文解读《Adaptive Gradient Methods With Dynamic Bound Of Learning Rate》中国本科生提出AdaBound的神经网络优化算法

    Paper:论文解读-<Adaptive Gradient Methods With Dynamic Bound Of Learning Rate>中国本科生(学霸)提出AdaBound的 ...

  2. 如何理解深度学习分布式训练中的large batch size与learning rate的关系?

    问题详情: 在深度学习进行分布式训练时,常常采用同步数据并行的方式,也就是采用大的batch size进行训练,但large batch一般较于小的baseline的batch size性能更差,请问 ...

  3. Adam和学习率衰减(learning rate decay)

    1.梯度下降法更新参数 梯度下降法参数更新公式: 其中,η 是学习率,θt是第 t 轮的参数,J(θt) 是损失函数,∇J(θt) 是梯度. 在最简单的梯度下降法中,学习率 ηη 是常数,是一个需要实 ...

  4. 学习速率 learning rate

    学习速率的选取策略 运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率 ααα : 如果学习速率太小,则会使收敛过慢. 如果学习速率太大,则会导致代价函数振荡 ...

  5. machine learning (5)---learning rate

    degugging:make sure gradient descent is working correctly cost function(J(θ)) of Number of iteration ...

  6. learning rate四种改变方式

    Fixed learning rate固定不变 base_lr = 0.01 lr_policy = "fixed" Step learning rate在每迭代stepsize次 ...

  7. 【学习率调整】学习率衰减之周期余弦退火 (cyclic cosine annealing learning rate schedule)

    1. 概述 在论文<SGDR: Stochastic Gradient Descent with Warm Restarts>中主要介绍了带重启的随机梯度下降算法(SGDR),其中就引入了 ...

  8. 深度学习中的 Batch_Size,以及learning rate参数理解(跑pytorch代码时遇到的问题)

    在训练和测试的时候遇到的问题, _error_if_any_worker_fails() RuntimeError: DataLoader worker (pid 25637) is killed b ...

  9. 深度学习:权重衰减(weight decay)与学习率衰减(learning rate decay)

    正则化方法:防止过拟合,提高泛化能力 避免过拟合的方法有很多:early stopping.数据集扩增(Data augmentation).正则化(Regularization)包括L1.L2(L2 ...

最新文章

  1. Jquery 改变样式
  2. 编译 glibc-2.14 时出现的一个LD_LIBRARY_PATH不路径bug
  3. python变量类型怎么决定的_Python数据类型提示痛点的解决方案探讨
  4. 苹果市场占有率_三星、华为、苹果位列前三!外媒公布2020年Q2全球智能手机销量排行榜...
  5. 一键切换ip地址bat_震惊!FPGA配置居然一键完成!
  6. python获取图片大小_Python实现获取本地及远程图片大小的方法示例_python_脚本中心...
  7. poj 1032 Parliament 编程的小技巧
  8. 用soapUI测试post接口方法步骤
  9. 微信语音怎么转发给别人听_新版微信语音转发方法(微信语音怎么转发给别人听)...
  10. ps软件1.基础工具2.工具快捷键3.图片基本操作4.撤回方法5.抠图
  11. 【MySQL 09】安装mysql时出现:需要这两个包perl(Data::Dumper),perl(JSON)
  12. 微信小程序:Picker-View与Picker-View-column的使用
  13. python 在线教程-python教程在线
  14. Android Menu菜单栏
  15. python日历模块_Python日历模块总结
  16. 西安交大梁力上机实验第三章12,从0到180度每隔5度输出该角度的正弦值余弦值
  17. #238 蔡老板分果子 [哈希 or DFS序]
  18. mongodb聚合联系题目及参考答案
  19. Direct2D 简介
  20. 初见倾心,土曼第三代智能手表T-Ripple新体验

热门文章

  1. Java从网络批量读取图片并保存至本网站服务器后再插入文章中
  2. 企业安全建设之浅谈数据防泄露
  3. 1038. Recover the Smallest Number (30)
  4. 探索ASP.NET MVC5系列之~~~6.Session篇(进程外Session)
  5. Cocos2d-x v3.1 坐标系统(五)
  6. Android.text.TextUtils类
  7. Android okHttp上传图片
  8. WebKit 内核源码分析 (四)
  9. 03-运行时数据区概述及线程
  10. Python常用的模块的使用技巧