神经网络训练细节part2上

参数更新机制

SGD
Momentum update
Nesterov Momentum update
AdaGrad update
RMSProp update
Adam update

SGD

随机梯度下降：

x += - learning_rate * dx

特点：如果在水平方向上梯度较小，而在垂直方向上梯度较大，会造成在水平方向更新较慢，而在垂直方向上造成上下抖动。收敛速度慢。

Momentum update

动量更新

v = mu*v - learning_rate * dx
x += v

借用物理学动量的思想，给参数更新加上一个动量。其中mu是超参数，通常设置在0.5到0.9之间，v的初始值为0。

特点：（1）收敛速度比SGD快。（2）从实现可以看出动量更新会逐渐放慢速度，最终停下来。

Nesteriov Momentum update

不同于动量更新，动量更新是当前的梯度加上当前的动量值，得到实际更新的方向，而Nestreriov Momentum update是用当前的动量加上预测的梯度得到更新的方向。

左边：

$v_t=\mu v_{t-1}-learning\; rate\bigtriangledown f(\Theta _{t-1})\\ \theta_{t}=\theta _{t-1}+v_t$

右边：

$v_t=\mu v_{t-1}-learning\: rate\bigtriangledown f(\Theta _{t-1}+\mu v_{t-1})\\ \theta_{t}=\theta _{t-1}+v_t$

特点：比前面两种更新速度更快地向最优解靠近。

AdaGrad update

cache += dx**2
x += learning_rate * dx / (np.sqrt(cache) + 1e-7 )

在更新时，考虑到了数据每一维的规模。其中1e-7是为了防止分母为0的情况出现。

特点：（1）补偿措施。比如垂直方向上梯度较大，水平方向上梯度较大，在用AdaGrad进行更新参数时，就会用垂直方向上的梯度除以对应的cache会使更新的梯度值较小，而同理会使水平方向上的梯度值较大，这在一定程度上是一种补偿措施。因为网络很多情况下需要在梯度大的方向上得到梯度叫较小的更新。（2）网络最终会停止。因为cache会不断变大，会使更新步长越来越小，最终会使网络停止更新，而网络需要不断更新。

RMSProp update

cache = dacay_rate * cache + (1 - decay_rate) * dx**2
x += - learning_rate * dx / (np.sqrt(cache) + 1e-7)

该方法对AdaGrad的最终停止更新做出了改善，decay_rate是一个超参数，名为衰减率，一般设置为0.99。

特点：具备AdaGrad的全部优点，并且不会过早停止。

Adam update

m = beta1*m + (1-beta1)*dx
v = beta2*v + (1-beta2)*(dx**2)
x += - learning_rate * m / (np.sqrt(v) + 1e-7)

是动量和RMSProp的一种结合。

实际上实现的时候会有偏置矫正，一开始的时候数据可能不正确，在最初几次更新中，使m和v较大，不会过小。

m = beta1*m + (1-beta1)*dx
v = beta2*v + (1-beta2)*(dx**2)
m /= 1-beta1**t
v /= 1-beta2**t
x += - learning_rate * m / (np.sqrt(v) + 1e-7)

学习率：最初使用较高的学习率，然后逐渐减小学习率。

CS231n李飞飞计算机视觉神经网络训练细节part2上相关推荐

[深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 7笔记
内容列表 Lecture 7 Convolutional Neural Networks 卷积神经网络历史卷积神经网络具体结构卷积层池化层全连接层神经网络架构发展 LeNet AlexNet ...
[深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 5笔记
内容列表 Lecture 5 Training Neural Networks,Part I 神经网络的历史训练神经网络激活函数数据预处理权重初始化批量归一化检查学习过程超参数优化小结 ...
[深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 1笔记
前言:目前做深度学习也有一段时间了,系统的知识也学了很多,但是大多数都是自己在网上所获得的零散的知识,最近看了李飞飞的斯坦福网上公开课,觉得可以好好的巩固一下基础,对每个Lecture做一下笔记,De ...
李飞飞计算机视觉笔记（5）--神经网络训练细节part2
参数更新算法动量更新(Momentum) 复习一下SGD公式 W i = W i − l r ∗ g r a d W_i=W_i-lr*grad Wi=Wi−lr∗grad 我们在使用SGD时比 ...
斯坦福CS231n李飞飞计算机视觉之线性分类上
线性分类器简介线性评分函数阐明线性分类器译者注:上篇翻译截止处损失函数多类SVM Softmax分类器 SVM和Softmax的比较基于Web的可交互线性分类器原型小结线性分类上一篇 ...
CS231N斯坦福李飞飞-计算机视觉-损失函数和优化
CS231N斯坦福李飞飞-计算机视觉-损失函数和优化
李飞飞计算机视觉课CS231n第一天
李飞飞计算机视觉课CS231n第一天数据集 Pascal Visual Object Challenge: 20 catagories ImageNet: 22000 catagories and ...
李飞飞计算机视觉-自用笔记（第八周）
李飞飞计算机视觉-自用笔记(八) 15 深度学习高效方法与硬件 15 深度学习高效方法与硬件庞大模型的三大挑战: 大小.速度.能源效率解决方法: 1.算法优化: 剪枝(pruning):并非神经网 ...
李飞飞计算机视觉-自用笔记（第一周）
李飞飞计算机视觉-自用笔记(一) 1 课程介绍-计算机视觉概述 1.1 课程介绍-历史背景 2 图像分类 2.1 数据-驱动方法(机器学习) 2.2 K最近邻算法 2.3 线性分类I 3 损失函数和优 ...
李飞飞计算机视觉笔记（２）--线性分类器损失函数与最优化
文章中的词语解释: 分类器:完整的神经网络类别分类器:分类器中的某一个输出对应的所有权值(单层全连接神经网络) 损失函数:不包括正则式的损失函数正则化损失函数:包括正则式的损失函数多类SVM损失 ...

CS231n李飞飞计算机视觉神经网络训练细节part2上

神经网络训练细节part2上

SGD

Momentum update

Nesteriov Momentum update

AdaGrad update

RMSProp update

Adam update

CS231n李飞飞计算机视觉神经网络训练细节part2上相关推荐

最新文章

热门文章

CS231n李飞飞计算机视觉 神经网络训练细节part2上

神经网络训练细节part2上

SGD

Momentum update

Nesteriov Momentum update

AdaGrad update

RMSProp update

Adam update

CS231n李飞飞计算机视觉 神经网络训练细节part2上相关推荐

最新文章

热门文章

CS231n李飞飞计算机视觉神经网络训练细节part2上

CS231n李飞飞计算机视觉神经网络训练细节part2上相关推荐