目录

全量梯度下降

随机梯度下降

小批量梯度下降

三种梯度下降区别和优缺点


全量梯度下降

Batch Gradient Descent

在梯度下降中,对于θ的更新,所有的样本都有贡献,也就是参与调整θ。其计算得到 的是一个标准梯度。因而理论上来说一次更新的幅度是比较大的。如果样本不多的情况下, 当然是这样收敛的速度会更快啦。全量梯度下降每次学习都使用整个训练集,因此其优点在 于每次更新都会朝着正确的方向进行,最后能够保证收敛于极值点(凸函数收敛于全局极值 点,非凸函数可能会收敛于局部极值点),但是其缺点在于每次学习时间过长,并且如果训 练集很大以至于需要消耗大量的内存,并且全量梯度下降不能进行在线模型参数更新。

代码实现:

import numpy as np# 创建数据集X,y
np.random.seed(1)
X = np.random.rand(100, 1)
y = 4 + 3*X + np.random.randn(100, 1)
X_b = np.c_[np.ones((100, 1)), X]# 创建超参数
n_iterations = 10000
t0, t1 = 5, 500# 定义一个函数来动态调整学习率
def learning_rate_schedule(t):return t0/(t+t1)# 1,初始化θ, W0...Wn,标准正太分布创建W
theta = np.random.randn(2, 1)
# 4,判断是否收敛,一般不会去设定阈值,而是直接采用设置相对大的迭代次数保证可以收敛
for i in range(n_iterations):# 2,求梯度,计算gradientgradients = X_b.T.dot(X_b.dot(theta)-y)# 3,应用梯度下降法的公式去调整θ值 θt+1=θt-η*gradientlearning_rate = learning_rate_schedule(i)theta = theta - learning_rate * gradients
print(theta)
[[4.23695725][2.68492509]]

随机梯度下降

Stochastic Gradient Descent

梯度下降算法每次从训练集中随机选择一个样本来进行学习。批量梯度下降算法每次都 会使用全部训练样本,因此这些计算是冗余的,因为每次都使用完全相同的样本集。而随机 梯度下降算法每次只随机选择一个样本来更新模型参数,因此每次的学习是非常快速的,并 且可以进行在线更新。随机梯度下降最大的缺点在于每次更新可能并不会按照正确的方向进 行,因此可以带来优化波动(扰动)。

不过从另一个方面来看,随机梯度下降所带来的波动有个好处就是,对于类似盆地区域 (即很多局部极小值点)那么这个波动的特点可能会使得优化的方向从当前的局部极小值点 跳到另一个更好的局部极小值点,这样便可能对于非凸函数,最终收敛于一个较好的局部极 值点,甚至全局极值点。由于波动,因此会使得迭代次数(学习次数)增多,即收敛速度变 慢。不过最终其会和全量梯度下降算法一样,具有相同的收敛性,即凸函数收敛于全局极值 点,非凸损失函数收敛于局部极值点。

代码实现:

import numpy as np# 创建数据集
X = 2*np.random.rand(100, 1)
y = 4 + 3*X + np.random.randn(100, 1)
X_b = np.c_[np.ones((100, 1)), X]
# 创建超参数
n_epochs = 10000
m = 100
t0, t1 = 5, 500# 定义一个函数来调整学习率
def learning_rate_schedule(t):return t0/(t+t1)theta = np.random.randn(2, 1)
for epoch in range(n_epochs):# 在双层for循环之间,每个轮次开始分批次迭代之前打乱数据索引顺序arr = np.arange(len(X_b))np.random.shuffle(arr)X_b = X_b[arr]y = y[arr]for i in range(m):xi = X_b[i:i+1]yi = y[i:i+1]gradients = xi.T.dot(xi.dot(theta)-yi)learning_rate = learning_rate_schedule(epoch*m + i)theta = theta - learning_rate * gradientsprint(theta)
[[3.91306085][3.16087742]]

小批量梯度下降

Mini-Batch Gradient Descent

Mini-batch 梯度下降综合了 batch 梯度下降与 stochastic 梯度下降,在每次更新速 度与更新次数中间取得一个平衡,其每次更新从训练集中随机选择 batch_size,batch_size < m 个样本进行学习。相对于随机梯度下降算法,小批量梯度下降算法降低了收敛波动性, 即降低了参数更新的方差,使得更新更加稳定。相对于全量梯度下降,其提高了每次学习的速度。并且其不用担心内存瓶颈从而可以利用矩阵运算进行高效计算。一般而言每次更新随 机选择[50,256]个样本进行学习,但是也要根据具体问题而选择,实践中可以进行多次试验, 选择一个更新速度与更次次数都较适合的样本数。

代码实现:

import numpy as np# 创建数据集X,y
X = 2*np.random.rand(100, 1)
y = 4 + 3*X + np.random.randn(100, 1)
X_b = np.c_[np.ones((100, 1)), X]# 创建超参数
t0, t1 = 5, 500# 定义一个函数来动态调整学习率
def learning_rate_schedule(t):return t0/(t+t1)n_epochs = 100000
m = 100
batch_size = 10
num_batches = int(m / batch_size)theta = np.random.randn(2, 1)
for epoch in range(n_epochs):arr = np.arange(len(X_b))np.random.shuffle(arr)X_b = X_b[arr]y = y[arr]for i in range(num_batches):x_batch = X_b[i*batch_size: i*batch_size + batch_size]y_batch = y[i*batch_size: i*batch_size + batch_size]gradients = x_batch.T.dot(x_batch.dot(theta)-y_batch)learning_rate = learning_rate_schedule(epoch * m + i)theta = theta - learning_rate*gradientsprint(theta)
[[3.91630905][2.95252566]]

三种梯度下降区别和优缺点

在讲三种梯度下降区别之前,我们先来总结一下梯度下降法的步骤:

1. 瞎蒙,Random 随机θ,随机一组数值 W0…Wn

2. 求梯度,为什么是梯度?因为梯度代表曲线某点上的切线的斜率,沿着切线往下下降就 相当于沿着坡度最陡峭的方向下降

3. if g0, theta 往小调

4. 判断是否收敛 convergence,如果收敛跳出迭代,如果没有达到收敛,回第 2 步继续 四步骤对应计算方式:

a. np.random.rand()或者 np.random.randn()

b. i w j gradient = (h (x) - y)× x

c. Wi t+1 =Wi t -h ×gradient i

d. 判断收敛这里使用 g=0 其实并不合理,因为当损失函数是非凸函数的话 g=0 有可能是 极大值对吗!所以其实我们判断 loss 的下降收益更合理,当随着迭代 loss 减小的幅度 即收益不再变化就可以认为停止在最低点,收敛!

区别:其实三种梯度下降的区别仅在于第 2 步求梯度所用到的 X 数据集的样本数量不同! 它们每次学习(更新模型参数)使用的样本个数,每次更新使用不同的样本会导致每次学习的 准确性和学习时间不同

利用python实现3种梯度下降算法相关推荐

  1. Python使用tensorflow中梯度下降算法求解变量最优值

    TensorFlow是一个用于人工智能的开源神器,是一个采用数据流图(data flow graphs)用于数值计算的开源软件库.数据流图使用节点(nodes)和边线(edges)的有向图来描述数学计 ...

  2. 批量梯度下降python实现_python实现梯度下降算法的实例详解

    python版本选择 这里选的python版本是2.7,因为我之前用python3试了几次,发现在画3d图的时候会报错,所以改用了2.7. 数据集选择 数据集我选了一个包含两个变量,三个参数的数据集, ...

  3. 三种梯度下降算法的比较和几种优化算法

    博客已迁至知乎,本文链接:https://zhuanlan.zhihu.com/p/70910873 前言 这篇文章介绍了三种梯度下降方法的原理与优缺点,详细地讲解了Momentum.RMSprop和 ...

  4. 小伙利用Python绘制999种玫瑰花表白女神,会编程男孩子真好

    前言 Python的应用领域非常的广泛,可以做web开发.爬虫.自动化.数据分析.人工智能 等等,对于绘画,Python也是有一个专门的库:turtle. 利用python绘制一朵玫瑰,快拿去送给你心 ...

  5. 【python】三种梯度下降学习率策略的比较(exact line search, backtracking, diminishing steps)

    简要介绍: 1. exact line search 即在梯度下降的每次迭代中选择使梯度下降最大的学习率.我们可以使用黄金分割法来求解. 关于黄金分割法求根的实现golden_section()见专栏 ...

  6. Python实现线性回归和梯度下降算法

    目录 线性回归基础 实战--波士顿房价的线性回归模型 实战--能源效能数据的相关分析与 线性回归模型 梯度下降法介绍 实战--梯度下降法在线性回归中的使用 实战--scikit-learn使用SGD实 ...

  7. python语言原理_梯度下降算法的原理用Python语言实现,易于理解,python,更

    梯度下降 要找到某个函数的最小值,就是沿着该函数的梯度的负方向寻找.若寻找某函数最大值,则沿着梯度方向找. 那么梯度下降数学表示: :步长或叫学习率, :是函数关于w的导数 梯度上升数学表示: 上述某 ...

  8. 3min利用Python实现9种经典排序算法可视化!(附源代码)

    来源:恋习Python 本文附视频,建议收藏. 本文为你分享实现9种经典排序算法可视化的方法,3分钟即可实现. [导 读]近在某网站上看到一个视频,是关于排序算法的可视化的,看着挺有意思的,也特别喜感 ...

  9. python假设检验平均,利用python进行17种统计假设检验

    请点击阅读原文,在语雀中查看 https://www.yuque.com/alipayqgthu1irbf/sharkfin/enrzni 翻译自 https://machinelearningmas ...

最新文章

  1. 【Nignx】 nginx启动http服务,报错 curl: (56) Recv failure: Connection reset by peer
  2. 登录form php一个页面跳转页面,form表单页面跳转方式提交练习
  3. tp 查询3天内是否有记录_DNF:玩家哭诉没坐过飞机,被吧主实锤打脸,TP制裁强行背锅...
  4. 【Python面试】 说说Python面向对象三大特性?
  5. laravel 分词搜索匹配度_SEO除了“中文分词”还有“文本分析”- 搜狗蜘蛛池博客...
  6. 谈一谈flex布局使用中碰到的一些问题
  7. 『转』度百死去飞秋一个BUG引发的血案
  8. 解决IE6中 PNG图片透明的终极方案-八种方案!
  9. Go本地浏览Web服务器
  10. Django访问量和页面点击数统计
  11. 计算机二级考试vb试题,2016计算机二级考试《VB》真题练习
  12. 服务器 sn 作用,命令查看服务器SN号
  13. 多角度了解ABeam(德硕)技术架构
  14. 经常看直播,你知道如何用jmeter对直播间进行压力测试吗?
  15. cad2020卸载工具_2020年您应该拥有的12个自由职业者设计工具
  16. (转载)有关推挽输出、开漏输出、复用开漏输出、复用推挽输出以及上拉输入、下拉输入、浮空输入、模拟输入区别...
  17. scrapy_splash动态ip代理和请求头的动态修改
  18. 怎么搜索到最新最全的热点新闻资讯呢?有这四个工具就够了
  19. vue工程展示数字动画组件vue animate-number的使用与填坑
  20. 5g理论速度_5g速度有多快

热门文章

  1. 【数学】什么是取模运算?
  2. 谷歌五笔输入法电脑版_新手学拼音还是学五笔打字(看完你就明白)
  3. 计算格林函数的Lanczos算法
  4. 小饶学编程之JAVA EE第三部分——前端框架:1LayUI
  5. PCI设备的访问方法_桥设备(type1)
  6. CSS样式写出三角形
  7. 解决微信小程序“app.json: [“workers“] 字段需为 目录“错误及worker的使用
  8. android abd
  9. SpringBoot【The request was rejected because the URL was not normalized】
  10. JAVAMAIL试用google邮箱发送邮件