一般梯度

也称常规梯度，就是 f ( w ⃗ ) f(\vec w) f(w ) 对 w ⃗ \vec w w 的偏导，即 ∂ f ( w ⃗ ) ∂ w ⃗ \frac{\partial f(\vec w)}{\partial\vec w} ∂w ∂f(w )，因为在欧式坐标系中，负梯度方向是下降最快的方向，即所谓的最速下降法。

随机梯度

和常规梯度很像，不同的是随机梯度会在 ∇ f ( w ⃗ ) \nabla f(\vec w) ∇f(w ) 中随机挑选一个或多个方向进行下降。

相对梯度

增量 Δ w ⃗ = D w ⃗ \Delta\vec w=D\vec w Δw =Dw ，选择适当的 D D D，使得 f ( w ⃗ + D w ⃗ ) f(\vec w+D\vec w) f(w +Dw ) 最小。Cardoso 等人将 ∂ f ( w ⃗ ) ∂ w ⃗ w T \frac{\partial f(\vec w)}{\partial\vec w}w^T ∂w ∂f(w )wT 定义为 f ( w ⃗ ) f(\vec w) f(w ) 的相对梯度。

自然梯度

在保持 ∣ ∣ Δ w ⃗ ∣ ∣ 2 ||\Delta\vec w||^2 ∣∣Δw ∣∣2 不变的前提下，寻找一个最佳的方向，使得 f ( w ⃗ + Δ w ⃗ ) f(\vec w+\Delta\vec w) f(w +Δw ) 最小。Amari 利用黎曼几何的有关理论，证明该最佳方向不是 “负” 常规梯度方向，而是 “负” 黎曼梯度。并将 ∂ f ( w ⃗ ) ∂ w ⃗ w T w \frac{\partial f(\vec w)}{\partial\vec w}w^Tw ∂w ∂f(w )wTw 定义为 f ( w ⃗ ) f(\vec w) f(w ) 的自然梯度。

一般梯度、随机梯度、相对梯度和自然梯度相关推荐

kl散度的理解_以曲率的视角理解自然梯度优化
一个故事我要讲一个故事:一个你几乎肯定听过的故事,但它的侧重点与你习以为常关注的不同. 所有现代深度学习模型都使用梯度下降进行训练. 在梯度下降的每个步骤中,您的参数值从某个起始点开始,然后将它们移 ...
NIPS 2017 | 线上分享第一期：似自然梯度的优化算法KFAC与强化学习算法ACKTR
上周我们发布了<攻略 | 虽然票早已被抢光,你可以从机器之心关注 NIPS 2017>,在 NIPS 2017 正式开始前,我们将选出数篇优质论文,邀请论文作者来做线上分享,聊聊理论.技术 ...
梯度下降法的三种形式批量梯度下降法、随机梯度下降以及小批量梯度下降法
梯度下降法的三种形式BGD.SGD以及MBGD 梯度下降法的三种形式BGD.SGD以及MBGD 阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. ...
【调参19】如何使用梯度裁剪（Gradient Clipping）避免梯度爆炸
文章目录 1. 梯度爆炸和裁剪 2. TensorFlow.Keras 实现 2.1 梯度范数缩放(Gradient Norm Scaling) 2.2 梯度值裁剪(Gradient Value Cl ...
梯度下降 Gradient Descent 详解、梯度消失和爆炸
1.什么是梯度在微积分中,对多元函数的参数求∂偏导,把求得的各个参数的偏导数以向量形式写出来即为梯度. 例如对于函数f(x,y),分别对x,y求偏导,求得的梯度向量就是 (∂f/∂x, ∂f/∂y) ...
机器学习总结（九）：梯度消失（vanishing gradient）与梯度爆炸（exploding gradient）问题
(1)梯度不稳定问题: 什么是梯度不稳定问题:深度神经网络中的梯度不稳定性,前面层中的梯度或会消失,或会爆炸. 原因:前面层上的梯度是来自于后面层上梯度的乘乘积.当存在过多的层次时,就出现了内在本质上 ...
深度理解RNN的梯度消失和LSTM为什么能解决梯度消失
一.RNN的梯度消失有什么不同之处先说结论:RNN的梯度等于近距离梯度与远距离梯度的和,RNN的梯度消失是远距离梯度的消失,而近距离梯度不会消失,同时总的梯度不会消失,从而导致总的梯度由近距离梯度占 ...
监督学习——随机梯度下降算法（sgd）和批梯度下降算法（bgd）
线性回归首先要明白什么是回归.回归的目的是通过几个已知数据来预测另一个数值型数据的目标值. 假设特征和结果满足线性关系,即满足一个计算公式h(x),这个公式的自变量就是已知的数据x,函数值h(x)就 ...
Logistic 回归(sigmoid函数，手机的评价,梯度上升，批处理梯度,随机梯度，从疝气病症预测病马的死亡率...
(手机的颜色,大小,用户体验来加权统计总体的值)极大似然估计MLE 1.Logistic回归 Logistic regression (逻辑回归),是一种分类方法,用于二分类问题(即输出只有两种).如 ...

一般梯度、随机梯度、相对梯度和自然梯度

一般梯度

随机梯度

相对梯度

自然梯度

一般梯度、随机梯度、相对梯度和自然梯度相关推荐

最新文章

热门文章