关于Increased rates of convergence through learning rate adaptation一文的理解

原文地址：http://www.researchgate.net/profile/Robert_Jacobs9/publication/223108796_Increased_rates_of_convergence_through_learning_rate_adaptation/links/0deec525d8f8dd5ade000000.pdf

　　已经看了CNN，rbm，sae等网络及算法，所有网络在训练时都需要一个learning rate，一直以来都觉得这个量设为定值即可，现在才发现其实这个量也可以变更和学习。

　　文章中提到的时最早的神经网络learning rate，不过我觉得对现在有启发作用。文中提出神经网络中，如果把error function看成是一个多变量函数，每个参数对应一个变量，那么这个函数在每个参数wi方向上变化的速度是不同的，并且如果error function不是圆形的话，负梯度方向并不是指向最小值的（这个画个椭圆做个切线就知道），因此应该采用不同的learning rate。

　　随后提出了作者一种启发式的方法就是在神经网络中，如果一个参数每次的导数的符号保持不变，说明它一直沿正方向走，那么应该增大learning rate以达到更快地到达最小值点，如果一个参数每次的导数的符号经常变化，说明它已经越过了最小值点，在最小值点附近摆动，那么应该减小learning rate让它稳定。

　　随后就是算法，一个是momentum方法，，这样前面的导数可以影响后面的参数变更，从而使一直沿一个方向走的参数的改变，否则减小参数的改变。

　　第二种是delta-delta learning rule，这个ε(t＋1）是根据

得出的，第二个式子的结果就是learning rate的导数，可以用sgd更新learning rate。但显然，这会有一个缺陷，结束第二个式子的结果是两个导数相乘，会比较小，所以这个方法不好，有个改进版的。

这个函数结合了那两个原则并且防止learning rate减到小于0，线性增加也不会增加的太快。

　　希望本博客对别人有帮助，谢谢。

转载于:https://www.cnblogs.com/caozj/p/4841344.html

关于Increased rates of convergence through learning rate adaptation一文的理解相关推荐

Paper：论文解读《Adaptive Gradient Methods With Dynamic Bound Of Learning Rate》中国本科生提出AdaBound的神经网络优化算法
Paper:论文解读-<Adaptive Gradient Methods With Dynamic Bound Of Learning Rate>中国本科生(学霸)提出AdaBound的 ...
如何理解深度学习分布式训练中的large batch size与learning rate的关系？
问题详情: 在深度学习进行分布式训练时,常常采用同步数据并行的方式,也就是采用大的batch size进行训练,但large batch一般较于小的baseline的batch size性能更差,请问 ...
Adam和学习率衰减（learning rate decay）
1.梯度下降法更新参数梯度下降法参数更新公式: 其中,η 是学习率,θt是第 t 轮的参数,J(θt) 是损失函数,∇J(θt) 是梯度. 在最简单的梯度下降法中,学习率 ηη 是常数,是一个需要实 ...
学习速率 learning rate
学习速率的选取策略运用梯度下降算法进行优化时,权重的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率 ααα : 如果学习速率太小,则会使收敛过慢. 如果学习速率太大,则会导致代价函数振荡 ...
machine learning (5)---learning rate
degugging:make sure gradient descent is working correctly cost function(J(θ)) of Number of iteration ...
learning rate四种改变方式
Fixed learning rate固定不变 base_lr = 0.01 lr_policy = "fixed" Step learning rate在每迭代stepsize次 ...
【学习率调整】学习率衰减之周期余弦退火（cyclic cosine annealing learning rate schedule）
1. 概述在论文<SGDR: Stochastic Gradient Descent with Warm Restarts>中主要介绍了带重启的随机梯度下降算法(SGDR),其中就引入了 ...
深度学习中的 Batch_Size,以及learning rate参数理解(跑pytorch代码时遇到的问题)
在训练和测试的时候遇到的问题, _error_if_any_worker_fails() RuntimeError: DataLoader worker (pid 25637) is killed b ...
深度学习：权重衰减（weight decay）与学习率衰减（learning rate decay）
正则化方法:防止过拟合,提高泛化能力避免过拟合的方法有很多:early stopping.数据集扩增(Data augmentation).正则化(Regularization)包括L1.L2(L2 ...

关于Increased rates of convergence through learning rate adaptation一文的理解

关于Increased rates of convergence through learning rate adaptation一文的理解相关推荐

最新文章

热门文章