【stanford】梯度、梯度下降,随机梯度下降
一、梯度gradient
http://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6
在标量场f中的一点处存在一个矢量G,该矢量方向为f在该点处变化率最大的方向,其模也等于这个最大变化率的数值,则矢量G称为标量场f的梯度。
在向量微积分中,标量场的梯度是一个向量场。
标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。
更严格的说,从欧氏空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在这个意义上,梯度是雅戈比矩阵的一个特殊情况。
在单变量的实值函数的情况,梯度只是导数,或者,对于一个线性函数,也就是线的斜率。
梯度一词有时用于斜度,也就是一个曲面沿着给定方向的倾斜程度。
一个标量函数的梯度记为: 或 , 其中(nabla)表示矢量微分算子。
二、梯度下降法
http://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95
梯度下降法,基于这样的观察:
如果实值函数 在点 处可微且有定义,那么函数 在 点沿着梯度相反的方向 下降最快。因而,如果
对于 为一个够小数值时成立,那么 。
是向量。
考虑到这一点,我们可以从函数 的局部极小值的初始估计 出发,并考虑如下序列 使得
因此可得到
如果顺利的话序列 收敛到期望的极值。注意每次迭代步长 可以改变。
梯度下降法的缺点是:
- 靠近极小值时速度减慢。
- 直线搜索可能会产生一些问题。
- 可能会'之字型'地下降。
三、随机梯度下降法stochastic gradient descent,也叫增量梯度下降
由于梯度下降法收敛速度慢,而随机梯度下降法会快很多
–根据某个单独样例的误差增量计算权值更新,得到近似的梯度下降搜索(随机取一个样例)
–可以看作为每个单独的训练样例定义不同的误差函数
–在迭代所有训练样例时,这些权值更新的序列给出了对于原来误差函数的梯度下降的一个合理近似
–通过使下降速率的值足够小,可以使随机梯度下降以任意程度接近于真实梯度下降
•标准梯度下降和随机梯度下降之间的关键区别
–标准梯度下降是在权值更新前对所有样例汇总误差,而随机梯度下降的权值是通过考查某个训练样例来更新的
–在标准梯度下降中,权值更新的每一步对多个样例求和,需要更多的计算
–标准梯度下降,由于使用真正的梯度,标准梯度下降对于每一次权值更新经常使用比随机梯度下降大的步长
–如果标准误差曲面有多个局部极小值,随机梯度下降有时可能避免陷入这些局部极小值中
转载于:https://www.cnblogs.com/549294286/archive/2012/12/13/2817204.html
【stanford】梯度、梯度下降,随机梯度下降相关推荐
- 机器学习算法(优化)之一:梯度下降算法、随机梯度下降(应用于线性回归、Logistic回归等等)...
本文介绍了机器学习中基本的优化算法-梯度下降算法和随机梯度下降算法,以及实际应用到线性回归.Logistic回归.矩阵分解推荐算法等ML中. 梯度下降算法基本公式 常见的符号说明和损失函数 X :所有 ...
- 坐标下降+随机梯度下降
坐标下降+随机梯度下降 坐标轴下降法(Coordinate Descent, CD)是一种迭代法,通过启发式的方法一步步的迭代求解函数的最小值,和梯度下降法(GD)不同的时候,坐标轴下降法是沿着坐标轴 ...
- 批梯度下降 随机梯度下降_梯度下降及其变体快速指南
批梯度下降 随机梯度下降 In this article, I am going to discuss the Gradient Descent algorithm. The next article ...
- 批量梯度下降 | 随机梯度下降 | 小批度梯度下降
文章目录 1. 什么是梯度?求梯度有什么公式? 2. 批量梯度下降 | 随机梯度下降 | 小批度梯度下降 区别 3. 随机梯度下降的两种方式:原始形式 和 对偶形式 1. 什么是梯度?求梯度有什么公式 ...
- 全梯度下降算法、随机梯度下降算法、小批量梯度下降算法、随机平均梯度下降算法、梯度下降算法总结
一.常见梯度下降算法 全梯度下降算法(Full gradient descent,FGD) 随机梯度下降算法(Stochastic gradient descent,SGD) 随机平均梯度下降算法(S ...
- 梯度下降法的三种形式批量梯度下降法、随机梯度下降以及小批量梯度下降法
梯度下降法的三种形式BGD.SGD以及MBGD 梯度下降法的三种形式BGD.SGD以及MBGD 阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. ...
- 线性模型(梯度下降随机梯度下降)
参考视频:03.梯度下降算法_哔哩哔哩_bilibili 显然使用穷举法效率太低了,如果权重多一些,时间复杂度将是指数级的增长.所以我们需要使用梯度下降算法来优化. 梯度Gradient: ∂ c o ...
- 随机梯度下降python_(史上最详细)批量梯度下降算法、随机梯度下降算法、小批量梯度下降算法python代码实现...
伪代码: 批量梯度下降法(Batch Gradient Descent): Repeat until convergence{ } 随机梯度下降法(Stochastic Batch Gradient ...
- 梯度下降法、随机梯度下降法、批量梯度下降法及牛顿法、拟牛顿法、共轭梯度法
http://ihoge.cn/2018/GradientDescent.html http://ihoge.cn/2018/newton1.html 引言 李航老师在<统计学习方法>中将 ...
- 梯度下降法and随机梯度下降法
1. 梯度下降法 梯度下降法的原理可以参考:斯坦福机器学习第一讲. 我实验所用的数据是100个二维点. 如果梯度下降算法不能正常运行,考虑使用更小的步长(也就是学习率),这里需要注意两点: 1)对于足 ...
最新文章
- 近10年数据智能团队建设,联想总结了由内而外的发展经验 | 专访联想集团副总裁田日辉...
- 登录方式1:MySQL自带客户端
- LiveVideoStackCon深圳-精选最新多媒体技术方案
- 关于含光 800,这里有你想要的一切答案!
- python量化常用_简单介绍下量化分析的常用库TA-lib
- RedHat7如何配置新网卡
- iOS 开发获取字体类型
- java怎么实现读取文件_Java读取文件的简单实现方法
- 工行网银支付浏览器兼容问题小记
- 婚姻是一场精神上的门当户对
- 服务器文档分类,服务器的分类
- 西安交大计算机和信息工程录取分数,西安交大在山西各专业录取分数.doc
- Node.js相关资源
- 对中国标准时间(CST)和中国夏令时(CDT)的不同处理
- 【牛客刷题】上手用C语言写一个三子棋小游戏超详解哦(电脑优化)
- 深入理解设计模式-抽象工厂模式
- 基础篇. ARM架构和处理器(3)
- 淘宝开源的代码质量检测工具,真强啊~
- RX5700XT和RX6700XT的区别 RX 5700XT和RX 6700XT选哪个好
- 如何为铁威马NAS设置固定IP?
热门文章
- PHP实现JS颜文字编码解码过程-aaencode+aadecode
- 从IBM和SUN分析当前SOA公司现状
- Java字符串格式化记录
- RedHat发布JBoss 7.2,完全支持Java EE 8规范
- listview 通用模版
- django -- 联合索引
- 【音乐分享】Let Me Go
- apache2.2+PHP5.2.3+mysql5.0+gd+zend+phpmyadmin
- Vmware VirtualCenter Server服务无法自动启动
- Android Camera open运行流程