学习率,站在数学的角度去理解,就是步长,它决定了每次迭代过程中沿着梯度方向移动的距离。如果步长很大,那么算法就会陷入局部最优,很难收敛;步长太小,则算法将会花费大量的时间,才能收敛,速度很慢。所以学习率的选择很大程度的决定了算法的性能。

但如何调整学习率呢?应该包握住这个大方向:在斜率大的地方使用小的学习率,在斜率小的地方使用大的学习率。

接下来谈谈学习率如何表示:记h(a)=f(xk+adk),a>0,其中当前点为xk,当前的搜素方向为dk,a为学习率。

对h(a)关于a求导,得到∇ h(a)=∇ f ( xk +adk ) Tdk,因为梯度下降是寻找f(x)的最小值,则令∇ h(a)=∇ f ( xk +adk ) Tdk

=0,下降方向可以选择负梯度方向,从而h(0)的导数小于0,如果能够找到足够大的a,使得h(a)的导数大于0,则必存在一个a*,使得h`(a*)=0,其中a*即为要找的学习率。

常用的方法有:线性搜索,回溯线性搜索

听完邹博老师讲完梯度下降后,自己总结一下,希望有用!

机器学习的梯度下降中学习率的选取相关推荐

  1. 【机器学习】梯度下降中矩阵的迹的求导证明

    直接上图: 转载于:https://www.cnblogs.com/yongqiangyue/p/9023851.html

  2. 机器学习中为什么需要梯度下降_机器学习 —— 多元梯度下降

    一.多维特征 前面所述的房价预测的线性模型,只用到了一维特征,即size,房屋尺寸,要用这个特征量来预测房屋价格: 当数据集的信息不止一种时,便有了多维特征,比如: 上图有四个X,即四个特征,来预测房 ...

  3. 【机器学习】梯度下降的Python实现

    作者 | Vagif Aliyev 编译 | VK 来源 | Towards Data Science 梯度下降是数据科学的基础,无论是深度学习还是机器学习.对梯度下降原理的深入了解一定会对你今后的工 ...

  4. Gradient Descen-univariate(吴恩达机器学习:梯度下降在线性模型的应用)

    梯度下降算法在Linear Regression中的应用 文章目录 梯度下降算法在Linear Regression中的应用 单变量(univariate) 题目:预测利润 处理Training se ...

  5. Gradient Descen-multivariate(吴恩达机器学习:梯度下降在线性模型的应用)

    梯度下降算法在Linear Regression中的应用 文章目录 梯度下降算法在Linear Regression中的应用 多变量(multivariate) 题目:预测房价 数据标准化 处理Tra ...

  6. 吴恩达机器学习笔记-梯度下降

    通过前面的文章我们现在已经有了假设函数$h_\theta(x)$并知道如何度量这个函数与数据的符合程度,即代价函数$J(\theta_0,\theta_1)$取得最小值.那么现在要做的,就是如何去预估 ...

  7. 《机器学习》 梯度下降

     <机器学习> 梯度下降 2012-09-21 17:46 2712人阅读 评论(0) 收藏 举报 matrixc 参照<机器学习>这本书的第4.4.3节. 一.解决目标及 ...

  8. 量纲与无量纲、标准化、归一化、正则化【能够帮助梯度下降中学习进度收敛的更快、提升模型的收敛速度提升模型的精度、防止模型过拟合,提高模型的泛化能力】

    目录 1 量纲与无量纲 1.1 量纲 1.2 无量纲 2 标准化 3 归一化 归一化的好处 4 正则化 5 总结 1 量纲与无量纲 1.1 量纲 物理量的大小与单位有关.就比如1块钱和1分钱,就是两个 ...

  9. 唐宇迪​​机器学习实战——梯度下降求解逻辑回归(理论基础+源代码实现)

    问题的提出 符号问题,这里的lg就是指log2,你的理解是正确的!在计算机科学中有些符号的使用跟我们在数学中使用的有区别.比如有时候log用来表示自然对数(以e为底数).希望对你有帮助! 首先计算机科 ...

最新文章

  1. asp.net mvc 与 asp.net结合(asp.net mvc 技巧)
  2. ROW_NUMBER() OVER()函数用法;(分组,排序),partition by
  3. 用谷歌搜索技术问题一定比用百度好?也未必...
  4. 企业架构:现代数据架构的特征
  5. Ubuntu下安装JDK步骤
  6. ef 数据迁移mysql_Windows下重装xampp并做MySQL数据迁移的步骤
  7. 【转】WebApi 身份认证解决方案:Basic基础认证
  8. 服务器虚拟化 实验,VMware vSphere服务器虚拟化实验三 安装vCenter Server
  9. 【开源GPS追踪】 之 服务器端opengts安装
  10. oracle递归树查询
  11. Java版通用身份证验证
  12. 21_nips_深度学习损失景观的嵌入原则
  13. 利用tushare数据计算期货主力合约的活跃度
  14. STM32F4中断优先级NVIC管理
  15. 【转载】基于多层结构的网络游戏平台的研究与应用
  16. 海康威视web插件层级遮挡问题,仅供参考
  17. 如何在阿里云服务器上搭建mysql服务(最新版)
  18. Linux 系统烧写实操
  19. 带你爬取双色球历史开奖信息并作可视化分析
  20. VUE 实现购物车或者消息中心未读消息数量的实时监听

热门文章

  1. 深入浅出的解释什么是tensor
  2. Java进阶:java程序设计慕课版课后答案浪潮优派
  3. Chainer Chemistry | 用于化学和生物学的深度学习库
  4. objective-c常见类型%z
  5. OpenCV计算机视觉编程攻略第2版pdf
  6. dicom文件的处理
  7. Ajax 和 XML: 五种 Ajax 反模式
  8. VIT Adapter【Vision Transformer Adapter for Dense Predictions】论文笔记
  9. SpringBlade、Saber接口调用笔记
  10. OpenCV4.x图像处理实例-疲劳检测(基于眼睛纵横比,Eye Aspect Radio,EAR)