批量梯度下降与随机梯度下降之间的关系

首先来看一个最简单的例子，即线性回归。

与之前一样，我们从代价函数(cost function)开始。

1_CSocAhQwk1xuncdV7aRdmA

线性回归复习完毕。

所以，梯度下降算法是什么？

1_7EFYKfICK48B5jCxgYHVLQ

上面算法的意思是说，为了执行梯度下降，我们就要计算代价函数 J 的梯度。为了计算代价函数的梯度，我们要对所有样本的代价进行求和（黄色圆圈）。也就是说，如果有300万个样本，我们每计算一次梯度就要循环计算300万次。

下面是Python代码：

1def gradientDescent(X, y, theta, alpha, num_iters):
2    """
3       执行梯度下降
4    """
5    m = y.size # 训练样本的数量
6    for i in range(num_iters):
7        y_hat = np.dot(X, theta)
8        theta = theta - alpha * (1.0/m) * np.dot(X.T, y_hat-y)
9    return theta

看到上面的 np.dot(X.T, y_hat-y) 了吗？这是 “循环（求和）300万个样本” 的矢量化版本。

等等….这只是向最小化迈进了一步，我们真的要每计算一次代价就要计算300万次吗？

是的，如果使用梯度下降的话。

但如果使用随机梯度（Stochastic Gradient Descent, SGD）下降，就没有必要计算这么多次！

1_7LbtloKtsBZW1P0DmR4UDA

基本上，在SGD中，我们在每次迭代时只使用 1 个样本的梯度，用它来代替所有样本的梯度之和。

 1def SGD(f, theta0, alpha, num_iters):2    """ 3       参数：4       f  - 要优化的函数，它需要一个参数5            并产生两个输出，一个代价和相对于参数的梯度6       theta0 - 开始 SGD 的初始值7       num_iters  - SGD 的总迭代次数8       返回：9       theta  -  SGD 结束后的参数值
10    """
11    start_iter = 0
12    theta= theta0
13    for iter in xrange(start_iter + 1, num_iters + 1):
14        _, grad = f(theta)
15        theta = theta - (alpha * grad) # 没有使用点积
16    return theta

这是一个非常简单的算法！

有几点注意事项：

在SGD中，在循环之前，您需要随机更改训练样本。
在SGD中，因为它一次只使用一个样本，所以它的最小值路径比批量梯度的路径更嘈杂（更随机）。但是没关系，因为我们对路径漠不关心，只要它给我们最小的值和更短的训练时间。
小批量梯度下降在每次迭代时使用n个样本点（而不是SGD中的1个样本）。

原文：https://towardsdatascience.com/difference-between-batch-gradient-descent-and-stochastic-gradient-descent-1187f1291aa1

批量梯度下降与随机梯度下降之间的关系相关推荐

批量梯度下降，随机梯度下降和小批量梯度下降的区别
批量梯度下降,随机梯度下降和小批量梯度下降的区别主要体现在用于计算梯度的样本的数量: 批量梯度下降:在每次迭代时,用整个数据集的所有样本上的梯度计算更新. 随机梯度下降:在每次迭代时,用单个样本上的梯 ...
『ML笔记』梯度下降法和随机梯度下降法和小批量梯度对比
目录 1. 梯度下降法(gradient descent) 2. 随机梯度下降(Stochastic gradient descent) 3. 小批量梯度下降(Mini-Batch gradient ...
梯度下降算法_批梯度下降法，Minibatch梯度下降法和随机梯度下降法之间的区别...
什么是梯度下降法? 梯度下降法是一种机器学习中常用的优化算法,用来找到一个函数(f)的参数(系数)的值,使成本函数(cost)最小. 当参数不能解析计算时(如使用线性代数),并且必须通过优化算法搜索时 ...
随机梯度下降法matlab程序,批量梯度下降和随机梯度下降
1.概念 (1)批量梯度下降---最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小. (2)随机梯度下降---最小化每条样本的损失函数,虽然不是每次迭代得到的 ...
大白话5分钟带你走进人工智能-第十一节梯度下降之手动实现梯度下降和随机梯度下降的代码（6）...
第十一节梯度下降之手动实现梯度下降和随机梯度下降的代码(6) 我们回忆一下,之前咱们讲什么了?梯度下降,那么梯度下降是一种什么算法呢?函数最优化 ...
梯度下降与随机梯度下降
梯度下降法先随机给出参数的一组值,然后更新参数,使每次更新后的结构都能够让损失函数变小,最终达到最小即可.在梯度下降法中,目标函数其实可以看做是参数的函数,因为给出了样本输入和输出值后,目标函数就只剩 ...
最优化方法：梯度下降（批梯度下降和随机梯度下降）
http://blog.csdn.net/pipisorry/article/details/23692455 梯度下降法(Gradient Descent) 梯度下降法是一个一阶最优化算法,通常也称 ...
梯度、梯度下降，随机梯度下降
一.梯度gradient http://zh.wikipedia.org/wiki/%E6%A2%AF%E5%BA%A6 在标量场f中的一点处存在一个矢量G,该矢量方向为f在该点处变化率最大的方向,其 ...
梯度下降法和随机梯度下降法
1. 梯度在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度.比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y) ...
pytorch学习笔记（三十三）：梯度下降和随机梯度下降
文章目录前言 1. 一维梯度下降 2. 学习率 3. 多维梯度下降 4. 随机梯度下降小结前言在本节中,我们将介绍梯度下降(gradient descent)的工作原理.虽然梯度下降在深度学习 ...

批量梯度下降与随机梯度下降之间的关系

批量梯度下降与随机梯度下降之间的关系相关推荐

最新文章

热门文章