一般梯度、随机梯度、相对梯度和自然梯度
一般梯度
也称常规梯度,就是 f ( w ⃗ ) f(\vec w) f(w ) 对 w ⃗ \vec w w 的偏导,即 ∂ f ( w ⃗ ) ∂ w ⃗ \frac{\partial f(\vec w)}{\partial\vec w} ∂w ∂f(w ),因为在欧式坐标系中,负梯度方向是下降最快的方向,即所谓的最速下降法。
随机梯度
和常规梯度很像,不同的是随机梯度会在 ∇ f ( w ⃗ ) \nabla f(\vec w) ∇f(w ) 中随机挑选一个或多个方向进行下降。
相对梯度
增量 Δ w ⃗ = D w ⃗ \Delta\vec w=D\vec w Δw =Dw ,选择适当的 D D D,使得 f ( w ⃗ + D w ⃗ ) f(\vec w+D\vec w) f(w +Dw ) 最小。Cardoso 等人将 ∂ f ( w ⃗ ) ∂ w ⃗ w T \frac{\partial f(\vec w)}{\partial\vec w}w^T ∂w ∂f(w )wT 定义为 f ( w ⃗ ) f(\vec w) f(w ) 的相对梯度。
自然梯度
在保持 ∣ ∣ Δ w ⃗ ∣ ∣ 2 ||\Delta\vec w||^2 ∣∣Δw ∣∣2 不变的前提下,寻找一个最佳的方向,使得 f ( w ⃗ + Δ w ⃗ ) f(\vec w+\Delta\vec w) f(w +Δw ) 最小。Amari 利用黎曼几何的有关理论,证明该最佳方向不是 “负” 常规梯度方向,而是 “负” 黎曼梯度。并将 ∂ f ( w ⃗ ) ∂ w ⃗ w T w \frac{\partial f(\vec w)}{\partial\vec w}w^Tw ∂w ∂f(w )wTw 定义为 f ( w ⃗ ) f(\vec w) f(w ) 的自然梯度。
一般梯度、随机梯度、相对梯度和自然梯度相关推荐
- kl散度的理解_以曲率的视角理解自然梯度优化
一个故事 我要讲一个故事:一个你几乎肯定听过的故事,但它的侧重点与你习以为常关注的不同. 所有现代深度学习模型都使用梯度下降进行训练. 在梯度下降的每个步骤中,您的参数值从某个起始点开始,然后将它们移 ...
- NIPS 2017 | 线上分享第一期:似自然梯度的优化算法KFAC与强化学习算法ACKTR
上周我们发布了<攻略 | 虽然票早已被抢光,你可以从机器之心关注 NIPS 2017>,在 NIPS 2017 正式开始前,我们将选出数篇优质论文,邀请论文作者来做线上分享,聊聊理论.技术 ...
- 梯度下降法的三种形式批量梯度下降法、随机梯度下降以及小批量梯度下降法
梯度下降法的三种形式BGD.SGD以及MBGD 梯度下降法的三种形式BGD.SGD以及MBGD 阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. ...
- 【调参19】如何使用梯度裁剪(Gradient Clipping)避免梯度爆炸
文章目录 1. 梯度爆炸和裁剪 2. TensorFlow.Keras 实现 2.1 梯度范数缩放(Gradient Norm Scaling) 2.2 梯度值裁剪(Gradient Value Cl ...
- 梯度下降 Gradient Descent 详解、梯度消失和爆炸
1.什么是梯度 在微积分中,对多元函数的参数求∂偏导,把求得的各个参数的偏导数以向量形式写出来即为梯度. 例如对于函数f(x,y),分别对x,y求偏导,求得的梯度向量就是 (∂f/∂x, ∂f/∂y) ...
- 机器学习总结(九):梯度消失(vanishing gradient)与梯度爆炸(exploding gradient)问题
(1)梯度不稳定问题: 什么是梯度不稳定问题:深度神经网络中的梯度不稳定性,前面层中的梯度或会消失,或会爆炸. 原因:前面层上的梯度是来自于后面层上梯度的乘乘积.当存在过多的层次时,就出现了内在本质上 ...
- 深度理解RNN的梯度消失和LSTM为什么能解决梯度消失
一.RNN的梯度消失有什么不同之处 先说结论:RNN的梯度等于近距离梯度与远距离梯度的和,RNN的梯度消失是远距离梯度的消失,而近距离梯度不会消失,同时总的梯度不会消失,从而导致总的梯度由近距离梯度占 ...
- 监督学习——随机梯度下降算法(sgd)和批梯度下降算法(bgd)
线性回归 首先要明白什么是回归.回归的目的是通过几个已知数据来预测另一个数值型数据的目标值. 假设特征和结果满足线性关系,即满足一个计算公式h(x),这个公式的自变量就是已知的数据x,函数值h(x)就 ...
- Logistic 回归(sigmoid函数,手机的评价,梯度上升,批处理梯度,随机梯度,从疝气病症预测病马的死亡率...
(手机的颜色,大小,用户体验来加权统计总体的值)极大似然估计MLE 1.Logistic回归 Logistic regression (逻辑回归),是一种分类方法,用于二分类问题(即输出只有两种).如 ...
最新文章
- 用C#操纵IIS(代码)
- akaze特征匹配怎么去掉不合适的点_单应性矩阵应用基于特征的图像拼接
- Java开发人员 2019 生态系统信息图
- 深度学习(21)神经网络与全连接层四: 输出方式
- 洛谷UVA1328,POJ1961-Period【KMP,字符串】
- mysql从dos界面_从DOS界面进入MYSQL数据库
- Magento:在head.phtml中获取产品属性 echo a product attribute in magento head.phtml
- Docker 学习4 Docker容器虚拟化网络概述
- JAVA POI读取Excel中Cell为null的处理
- centos7抢先安装docker1.0
- 【技术帖】Mysql The 'InnoDB' feature is disabled; you n
- React native连续按两次退出app
- Debugging with GDB 用GDB调试多线程程序
- Tomcat 8 和 JDK11 安装记录
- python一个下划线和两个下划线_python 单下划线/双下划线使用总结
- 基于Python的BOSS直聘Python岗位数据分析
- 带你从头到尾梳理大图片加载OOM处理问题
- 215868-33-0,Ocean Blue, SE,3-羧基-6,8-二氟-7-羟基香豆素琥珀酰亚胺酯蓝色荧光染料
- 让div占据父元素剩下的所有位置
- 英伟达 Nano 新手必读:Jetson Nano 深度学习算法模型基准性能测评