一般梯度

也称常规梯度,就是 f ( w ⃗ ) f(\vec w) f(w ) 对 w ⃗ \vec w w 的偏导,即 ∂ f ( w ⃗ ) ∂ w ⃗ \frac{\partial f(\vec w)}{\partial\vec w} ∂w ∂f(w )​,因为在欧式坐标系中,负梯度方向是下降最快的方向,即所谓的最速下降法。

随机梯度

和常规梯度很像,不同的是随机梯度会在 ∇ f ( w ⃗ ) \nabla f(\vec w) ∇f(w ) 中随机挑选一个或多个方向进行下降。

相对梯度

增量 Δ w ⃗ = D w ⃗ \Delta\vec w=D\vec w Δw =Dw ,选择适当的 D D D,使得 f ( w ⃗ + D w ⃗ ) f(\vec w+D\vec w) f(w +Dw ) 最小。Cardoso 等人将 ∂ f ( w ⃗ ) ∂ w ⃗ w T \frac{\partial f(\vec w)}{\partial\vec w}w^T ∂w ∂f(w )​wT 定义为 f ( w ⃗ ) f(\vec w) f(w ) 的相对梯度。

自然梯度

在保持 ∣ ∣ Δ w ⃗ ∣ ∣ 2 ||\Delta\vec w||^2 ∣∣Δw ∣∣2 不变的前提下,寻找一个最佳的方向,使得 f ( w ⃗ + Δ w ⃗ ) f(\vec w+\Delta\vec w) f(w +Δw ) 最小。Amari 利用黎曼几何的有关理论,证明该最佳方向不是 “负” 常规梯度方向,而是 “负” 黎曼梯度。并将 ∂ f ( w ⃗ ) ∂ w ⃗ w T w \frac{\partial f(\vec w)}{\partial\vec w}w^Tw ∂w ∂f(w )​wTw 定义为 f ( w ⃗ ) f(\vec w) f(w ) 的自然梯度。

一般梯度、随机梯度、相对梯度和自然梯度相关推荐

  1. kl散度的理解_以曲率的视角理解自然梯度优化

    一个故事 我要讲一个故事:一个你几乎肯定听过的故事,但它的侧重点与你习以为常关注的不同. 所有现代深度学习模型都使用梯度下降进行训练. 在梯度下降的每个步骤中,您的参数值从某个起始点开始,然后将它们移 ...

  2. NIPS 2017 | 线上分享第一期:似自然梯度的优化算法KFAC与强化学习算法ACKTR

    上周我们发布了<攻略 | 虽然票早已被抢光,你可以从机器之心关注 NIPS 2017>,在 NIPS 2017 正式开始前,我们将选出数篇优质论文,邀请论文作者来做线上分享,聊聊理论.技术 ...

  3. 梯度下降法的三种形式批量梯度下降法、随机梯度下降以及小批量梯度下降法

    梯度下降法的三种形式BGD.SGD以及MBGD 梯度下降法的三种形式BGD.SGD以及MBGD 阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. ...

  4. 【调参19】如何使用梯度裁剪(Gradient Clipping)避免梯度爆炸

    文章目录 1. 梯度爆炸和裁剪 2. TensorFlow.Keras 实现 2.1 梯度范数缩放(Gradient Norm Scaling) 2.2 梯度值裁剪(Gradient Value Cl ...

  5. 梯度下降 Gradient Descent 详解、梯度消失和爆炸

    1.什么是梯度 在微积分中,对多元函数的参数求∂偏导,把求得的各个参数的偏导数以向量形式写出来即为梯度. 例如对于函数f(x,y),分别对x,y求偏导,求得的梯度向量就是 (∂f/∂x, ∂f/∂y) ...

  6. 机器学习总结(九):梯度消失(vanishing gradient)与梯度爆炸(exploding gradient)问题

    (1)梯度不稳定问题: 什么是梯度不稳定问题:深度神经网络中的梯度不稳定性,前面层中的梯度或会消失,或会爆炸. 原因:前面层上的梯度是来自于后面层上梯度的乘乘积.当存在过多的层次时,就出现了内在本质上 ...

  7. 深度理解RNN的梯度消失和LSTM为什么能解决梯度消失

    一.RNN的梯度消失有什么不同之处 先说结论:RNN的梯度等于近距离梯度与远距离梯度的和,RNN的梯度消失是远距离梯度的消失,而近距离梯度不会消失,同时总的梯度不会消失,从而导致总的梯度由近距离梯度占 ...

  8. 监督学习——随机梯度下降算法(sgd)和批梯度下降算法(bgd)

    线性回归 首先要明白什么是回归.回归的目的是通过几个已知数据来预测另一个数值型数据的目标值. 假设特征和结果满足线性关系,即满足一个计算公式h(x),这个公式的自变量就是已知的数据x,函数值h(x)就 ...

  9. Logistic 回归(sigmoid函数,手机的评价,梯度上升,批处理梯度,随机梯度,从疝气病症预测病马的死亡率...

    (手机的颜色,大小,用户体验来加权统计总体的值)极大似然估计MLE 1.Logistic回归 Logistic regression (逻辑回归),是一种分类方法,用于二分类问题(即输出只有两种).如 ...

最新文章

  1. 用C#操纵IIS(代码)
  2. akaze特征匹配怎么去掉不合适的点_单应性矩阵应用基于特征的图像拼接
  3. Java开发人员 2019 生态系统信息图
  4. 深度学习(21)神经网络与全连接层四: 输出方式
  5. 洛谷UVA1328,POJ1961-Period【KMP,字符串】
  6. mysql从dos界面_从DOS界面进入MYSQL数据库
  7. Magento:在head.phtml中获取产品属性 echo a product attribute in magento head.phtml
  8. Docker 学习4 Docker容器虚拟化网络概述
  9. JAVA POI读取Excel中Cell为null的处理
  10. centos7抢先安装docker1.0
  11. 【技术帖】Mysql The 'InnoDB' feature is disabled; you n
  12. React native连续按两次退出app
  13. Debugging with GDB 用GDB调试多线程程序
  14. Tomcat 8 和 JDK11 安装记录
  15. python一个下划线和两个下划线_python 单下划线/双下划线使用总结
  16. 基于Python的BOSS直聘Python岗位数据分析
  17. 带你从头到尾梳理大图片加载OOM处理问题
  18. 215868-33-0,Ocean Blue, SE,3-羧基-6,8-二氟-7-羟基香豆素琥珀酰亚胺酯蓝色荧光染料
  19. 让div占据父元素剩下的所有位置
  20. 英伟达 Nano 新手必读:Jetson Nano 深度学习算法模型基准性能测评

热门文章

  1. 怎么通过facebook找客户
  2. 路由器输入三次密码 服务器响应吗,路由器三次密码错误怎么办?
  3. python有趣小程序春节祝福-Python实现春节祝福语自动回复
  4. [8266]小黑固件正式发布
  5. 03pe修改计算机名称,[U盘PE教程]玩转PE内置注册表(基于NT6.0)
  6. ROS 2 ardent apalone安装和使用说明
  7. 简简单单的一个嵌入式板子项目,笔记
  8. 电气设备绝缘在线监测系统的原理
  9. 设计原则:开闭原则(OCP)
  10. Linux系统编程之网络编程(socket)