在搞清楚深度梯度压缩之前，我先将什么是梯度下降捋一捋，同时方便后面的理解。我会将论文里面提到的vanilla SGD和加了动量Momentum的SGD的区别也写出来。

正好，今天上午的最优化理论讲到了各种下降法逼近极小值点，最近读到关于联邦学习中如何减小通信效率和计算效率这个问题，借助深度梯度压缩，会极大地减少局部到服务器的通信成本。

一、什么是vanilla SGD

1、梯度

2、步长

3、SGD的数学表示

二、带有动量Momentum的SGD

一、什么是vanilla SGD

SGD是当下使用最广泛地优化器，原理是通过求得当前参数损失函数的最大梯度，往梯度的反方向走即可走到损失函数的极小值点。可以想象成盲人要寻找最快下山的过程，那就是不断地摸索当下点周围最陡峭的方位，沿着那个方位走是最大概率时间最短到达山谷的。

1、梯度

梯度：梯度在数学上表示函数在某点处的方向导数沿着该方向取得最大值。（方向导数是形容函数的陡峭程度）

可以这样想：在一个结构类似山谷的函数上存在一点，当然这个点会在各个方向上都存在方向导数，而我们所需要的梯度就是所有方向导数中最大的那个，沿着这个最大方向导数（梯度）上去的函数值增长速度会变得非常快，那反之，沿着梯度负方向的函数值就是负增长速度最快的。

先从第一个点往下找，找到沿着梯度负方向迈出第二步，到达第二个点，再找第二个点的最大梯度负方向迈出第二步，以此类推最后到达山谷最低处，也就是函数极小值点（方向导数此时为0）。如图所示：

然而决定如何找到极小值点的还有步长，也就是这个盲人除了要确定山坡的陡峭程度，还得控制自己的步伐大小。

2、步长

步长也就是学习率

【SGD深入理解】vanilia SGDmomentum SGD相关推荐

Adam那么棒，为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法
机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了. 不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了, ...
一个框架看懂优化算法之异同 SGD/AdaGrad/Adam
Adam那么棒,为什么还对SGD念念不忘 (1) -- 一个框架看懂优化算法机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着 ...
Adam 那么棒，为什么还对 SGD 念念不忘？一个框架看懂深度学习优化算法
作者|Juliuszh 链接 | https://zhuanlan.zhihu.com/juliuszh 本文仅作学术分享,若侵权,请联系后台删文处理机器学习界有一群炼丹师,他们每天的日常是: 拿来 ...
Pytorch框架中SGD＆Adam优化器以及BP反向传播入门思想及实现
因为这章内容比较多,分开来叙述,前面先讲理论后面是讲代码.最重要的是代码部分,结合代码去理解思想. SGD优化器思想: 根据梯度,控制调整权重的幅度公式: 权重(新) = 权重(旧) - 学习率 ...
pytorch梯度下降函数_Pytorch中常用的四种优化器SGD、Momentum、RMSProp、Adam
来源:AINLPer微信公众号编辑: ShuYini 校稿: ShuYini 时间: 2019-8-16 引言很多人在使用pytorch的时候都会遇到优化器选择的问题,今天就给大家介绍对比 ...
深度学习中常用优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）
本文转载自:https://www.cnblogs.com/guoyaohua/p/8542554.html 在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagr ...
随机梯度下降法（stochastic gradient descent，SGD）
梯度下降法大多数机器学习或者深度学习算法都涉及某种形式的优化. 优化指的是改变特征x以最小化或最大化某个函数 f(x) 的任务. 我们通常以最小化 f(x) 指代大多数最优化问题. 最大化可经由 ...
深度学习优化算法的总结与梳理（从 SGD 到 AdamW 原理和代码解读）
作者丨科技猛兽转自丨极市平台本文思想来自下面这篇大佬的文章: Juliuszh:一个框架看懂优化算法之异同 SGD/AdaGrad/Adam https://zhuanlan.zhihu.com/ ...
优化算法选择：SGD、SGDM、NAG、Adam、AdaGrad、RMSProp、Nadam
目录优化算法通用框架 SGD 系列:固定学习率的优化算法 SGD SGD (with Momentum) = SGD-M SGD(with Nesterov Acceleration)= NAG 自 ...

【SGD深入理解】vanilia SGDmomentum SGD

一、什么是vanilla SGD

1、梯度

2、步长

【SGD深入理解】vanilia SGDmomentum SGD相关推荐

最新文章

热门文章