GD：gradient descent
SGD：Stochastic Gradient Descent

相同点

在GD和SGD中，都会在每次迭代中更新模型的参数，使得代价函数变小。

不同点

在GD中，每次迭代都要用到全部训练数据。
假设线性模型(θ\thetaθ是参数）
h(x)=∑i=1nθixi=θTxh(x)=\sum_{i=1}^n\theta_ix_i=\theta^Txh(x)=i=1∑nθixi=θTx
代价函数：
J(θ)=12∑i=1m(hθ(x(i))−y(i))2J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})^2J(θ)=21i=1∑m(hθ(x(i))−y(i))2
那么每次GD的更新算法为：
θj:=θj−α∂∂θjJ(θ)\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)θj:=θj−α∂θj∂J(θ)
由此算法可知，在对代价函数求偏导时，是需要用到全部的训练数据的。

在SGD中，每次迭代可以只用一个训练数据来更新参数。回到GD的更新算法，假设此时我们此时训练数据就只有一条(x,y)。

所以此时的更新参数的算法变为：

此时更新的算法，只用到了一个样本。其实具象的理解下，就是来了一条训练数据，算下此时根据模型算出的值和实际值的差距，如果差距大，那么参数更新的幅度大，反之则小。

当训练数据过大时，用GD可能造成内存不够用，那么就可以用SGD了，SGD其实可以算作是一种online-learning。另外SGD收敛会比GD快，但是对于代价函数求最小值还是GD做的比较好，不过SGD也够用了。

GD(梯度下降)和SGD(随机梯度下降)相关推荐

批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
批量梯度下降(BGD).随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解 </h1><div class="clear"></div> ...
机器学习小组知识点45:批量梯度下降法(BGD)和随机梯度下降法(SGD)的代码实现Matlab版1
原机器学习小组知识点4&5:批量梯度下降法(BGD)和随机梯度下降法(SGD)的代码实现Matlab版 2016年10月19日 10:17:28 Eric2016_Lv 阅读数:3379 这 ...
SGD(随机梯度下降)
在深度学习领域, 该优化算法是使用最优化的算法, 利用它, 通过不断的估计objective function的梯度, 更新模型参数,不断迭代, 直至收敛或者达到我们early stoping 的条件 ...
批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)及 batch、epoch、iteration
先介绍一下梯度下降:梯度下降是一种用于机器学习训练参数的一种优化方法.对损失函数进行梯度下降,"梯度"指误差梯度或误差斜率,"下降"指沿着误差斜率移动到误差较小 ...
梯度下降：全梯度下降算法(FG)、随机梯度下降算法(SG)、小批量梯度下降算法(mini-batch)、随机平均梯度下降算法(SAG)。梯度下降法算法比较和进一步优化。
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 2.2 梯度下降(Gradient Descent) 2.2. ...
1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD
排版也是醉了见原文:http://www.cnblogs.com/maybe2030/p/5089753.html 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度 ...
深度学习入门之SGD随机梯度下降法
SGD SGD为随机梯度下降法.用数学式可以将 SGD 写成如下的式(6.1). 这里把需要更新的权重参数记为W,把损失函数关于W的梯度记为 ∂L/∂W .ηηη 表示学习率,实际上会取 0.01 或 ...
随机梯度下降matlab,matlab随机梯度下降法
%是否使用梯度下降法进行局部搜索的控制参数 IfLocalSearch=0; %... 经过 10000 次训练后,traningdm 网络的输出误差与 traningd 训练算法的结果差不多, -9 ...
【转载】深度学习数学基础(二)～随机梯度下降(Stochastic Gradient Descent, SGD)
Source: 作者:Evan 链接:https://www.zhihu.com/question/264189719/answer/291167114 来源:知乎著作权归作者所有.商业转载请联系作 ...

GD(梯度下降)和SGD(随机梯度下降)

相同点

不同点

GD(梯度下降)和SGD(随机梯度下降)相关推荐

最新文章

热门文章