目录

1、 梯度下降法(gradient descent)

2、 随机梯度下降(Stochastic gradient descent)

3、 小批量梯度下降(Mini-Batch gradient descent)

4、下面三种算法优缺点对比:


1、梯度下降法(gradient descent)

对于梯度下降法 如果训练样本集特别大(假设为样本3亿:表示在美国大学3亿人口,因此美国的人口普查拥有这样数量级的数据),如果想用这些数据去拟合一个线性回归模型,那么需要对着3亿数据进行求和,计算量太大了,这种梯度下降也被称为批量地图下降法,(批量:表示每次我们都要同时考虑所有训练样本,我们称之为一批训练样本)

可以想象一下如果真有3亿数据存在计算机硬盘中,那么这种算法需要将这3亿人口数据读入到计算机中,仅仅为了计算这个微分项(下图中的),需要不断的将这些数据传入计算机的内存中但是计算机的内存存不了这个多数据,所以需要慢慢读取这些数据,然后进行一次求和,再算出这个微分,做完这些以后,自己才刚刚完成梯度下降法中的其中一步,你还得再来一遍遍历这3亿数据,然后计算和的值,做完这一步你依然只完成了梯度下降法一小步,一直这样下去进行下去,为了计算收敛结果,需要花费很长的时间,对比这种批量梯度下降法,下面介绍一种新的算法随机梯度下降法。这种方法完全不同了,每次迭代中不需要考虑所有的训练样本啦,仅仅只需要考虑一个样本。

2、随机梯度下降(Stochastic gradient descent)

如果我们一定需要一个大规模的训练集,我们可以尝试使用随机梯度下降法来代替批量梯度下降法。

随机梯度下降算法在每一次计算之后便更新参数,而不需要将所有的训练集求和,而在梯度下降法还没有完成一次迭代的时候,随机梯度下降法便已经走了好远了,但是这样的算法存在一定的问题,不是每一步都是朝着正确的方向迈出的,因此算法虽然会逐渐走向全局最小值的位置,但是可能无法站到那个最小值得那一点,而是在最小值的附近徘徊。

 注意点:随机梯度下降法的外层我们一般认为1-10都是合理的,当然如果m非常的大,即是内层循环非常的大,那么我们外层这时候可以设置为1为合理的。

3、小批量梯度下降(Mini-Batch gradient descent)

           小批量梯度下降算法是介于批量梯度下降算法和随机梯度下降算法之间的,每计算常数b次训练实例,便更新一次参数

批量梯度下降:use all examples in each iteration. 
           随机梯度下降:use 1 example in each iteration 
           mini-batch梯度下降:use b examples in each iteration

下面这个例子中: b = 10 m=1000

通常我们令b在2-200之间,这样做的好处是:我们可以用向量化的方式来循环b个训练实例,如果我们用线性代数库比较好,能够支持平行处理,那么算法的总体表现将不受影响(与随机梯度下降相同)

4、下面三种算法优缺点对比:

(1)批量梯度下降法(Batch Gradient Descent) :在更新参数时都使用所有的样本来进行更新。

  优点:全局最优解,能保证每一次更新权值,都能降低损失函数;易于并行实现。

  缺点:当样本数目很多时,训练过程会很慢。

(2)随机梯度下降法(Stochastic Gradient Descent):在更新参数时都使用一个样本来进行更新。每一次跟新参数都用一个样本,更新很多次。如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将参数迭代到最优解了,对比上面的批量梯度下降,迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次,这种方式计算复杂度太高。

  优点:训练速度快;

  缺点:准确度下降,并不是全局最优;不易于并行实现。从迭代的次数上来看,随机梯度下降法迭代的次数较多,在解空间的搜索过程看起来很盲目。噪音很多,使得它并不是每次迭代都向着整体最优化方向。

(3)小批量梯度下降法(Mini-batch Gradient Descen):在更新每一参数时都使用一部分样本来进行更新。为了克服上面两种方法的缺点,又同时兼顾两种方法的优点。

4)三种方法使用的情况:如果样本量比较小,采用批量梯度下降算法。如果样本太大,或者在线算法,使用随机梯度下降算法。在实际的一般情况下,采用小批量梯度下降算法。

『ML笔记』梯度下降法和随机梯度下降法和小批量梯度对比相关推荐

  1. 『ML笔记』深入浅出字典学习1(Dictionary Learning)

    目录 一.预备知识 二.字典学习以及稀疏表示的概要 2.1.我们为什么需要字典学习? 2.2.我们为什么需要稀疏表示? 三.下一节 参考文献 一.预备知识 稀疏向量:假设向量中的元素绝大部分为零元素, ...

  2. 『ML笔记』HOG特征提取原理详解+代码

    HOG特征提取原理详解+代码! 文章目录 一. HOG特征介绍 二. HOG算法具体流程+代码 2.1. 图像灰度化和gamma矫正 2.2. 计算图像像素梯度图 2.3. 在8×8的网格中计算梯度直 ...

  3. 『ML笔记』字典学习3(Dictionary Learning,KSVD)

    文章目录 一.字典学习数学模型 1.1.数学描述 1.2.求解问题 1.3.字典学习算法实现 字典学习也是一种数据降维的方法,这里我用到SVD的知识,对SVD不太理解的地方,可以看看这篇博客: 奇异值 ...

  4. 『ML笔记』深入浅出字典学习2(Dictionary Learning)

    深入浅出字典学习2(Dictionary Learning) 文章目录 一.理解K-SVD字典学习 二.K-SVD字典学习算法概述 2.1.随机初始化字典D 2.2.固定字典,求取每个样本的稀疏编码 ...

  5. 梯度下降:全梯度下降算法(FG)、随机梯度下降算法(SG)、小批量梯度下降算法(mini-batch)、随机平均梯度下降算法(SAG)。梯度下降法算法比较和进一步优化。

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 2.2 梯度下降(Gradient Descent) 2.2. ...

  6. 3. 机器学习中为什么需要梯度下降?梯度下降算法缺点?_浅谈随机梯度下降amp;小批量梯度下降...

    机器学习三要素 上次的报告中,我们介绍了一种用于求解模型参数的迭代算法--梯度下降法.首先需要明确一点,即"梯度下降算法"在一个完整的统计学习流程中,属于什么?根据<统计学习 ...

  7. Lesson 4.34.4 梯度下降(Gradient Descent)基本原理与手动实现随机梯度下降与小批量梯度下降

    Lesson 4.3 梯度下降(Gradient Descent)基本原理与手动实现 在上一小节中,我们已经成功的构建了逻辑回归的损失函数,但由于逻辑回归模型本身的特殊性,我们在构造损失函数时无法采用 ...

  8. 【深度学习】——梯度下降优化算法(批量梯度下降、随机梯度下降、小批量梯度下降、Momentum、Adam)

    目录 梯度 梯度下降 常用的梯度下降算法(BGD,SGD,MBGD) 梯度下降的详细算法 算法过程 批量梯度下降法(Batch Gradient Descent) 随机梯度下降法(Stochastic ...

  9. 机器学习(四):批量梯度下降法(BGD)、随机梯度下降法(SGD)和小批量梯度下降法(MBGD)

    本文基于吴恩达老师的机器学习课程.看了吴恩达老师的机器学习课程,收获很多,想把课上学做的笔记结合自己的理解以及找到的一些资料综合起来做一个总结.大家感兴趣也可以自己去看一看吴恩达老师的课,这套课程,被 ...

最新文章

  1. 如何做到尽可能不使用庞大的jQuery
  2. linux下jdk/maven/tomcat
  3. 一棵树的生成树有几颗_次小生成树(树剖,生成树)
  4. 【跃迁之路】【440天】刻意练习系列199(2018.04.21)
  5. CSS3的calc()使用
  6. 基于.NET Standard的分布式自增ID算法--美团点评LeafSegment
  7. Scrapy-spiders(爬虫)
  8. python淘宝抢购_Python 实现毫秒级淘宝抢购脚本的示例代码
  9. nginx作用_云服务器:详解Nginx启用proxy_buffer缓冲
  10. SpringMVC框架第二天
  11. 利用物联网技术为市民打造“无忧”生活
  12. 宁夏计算机科学与技术产业发展新趋势,2021年CCF数据库发展战略研讨会在宁夏银川顺利召开...
  13. JAVA 获取音频文件(ogg格式)毫秒时长
  14. C++ +GDAL计算遥感影像植被指数
  15. 【合宙GSM模块Air202 烧录iRTU固件连接阿里云】
  16. 【反思】写在腾讯电话面试之后
  17. 桌面天气时钟【心知天气API、可获取实时时间、合成解码cJSON】
  18. 百度地图渲染wkt格式网格数据
  19. Eclipse各版本代号一览表以及官网上有很多版本的eclipse,下载哪个版本比较合适呢?
  20. 【Machine Learning】使用随机森林进行特征选择

热门文章

  1. 建筑施工复习资料-立杆基础
  2. 万兴pdf编辑解压后打不开_PDF文档无法编辑的原因和解决方案
  3. 服务器就是一台性能好的电脑吗,科普:什么是服务器? 服务器与普通电脑有何区别?...
  4. 海康威视相机开发(一)
  5. 2月9日,30秒知全网,精选7个热点
  6. Linux下的USB驱动
  7. 信息安全人员关注网站
  8. 华硕飞行堡垒键盘背光灯无法显示怎么办?
  9. 8个视频素材网站,免费可商用,视频剪辑必备。
  10. 青龙-聚看点(稳定的毛)