排版仍然是如此的粗糙,
有空再来排吧
day3

正文

gradient descent梯度下降

optimization最优化

这边讲的是梯度下降法的计算和逐点移动过程
逐点移动过程:任选一个初始点,在这个点处计算梯度,这个点减去学习率乘以梯度值,就是下个点,如此迭代
parameter参数,系数
visualize可视化
学习率,也就是最优化里面讲的步长,对于loss函数而言很重要
建议实际训练的时候要把最后这个图画出来,观察一下步长对model的loss函数的影响,通过观察曲线来及时调节步长
刚开始的时候步长应该大一点,当快靠近最优点的时候步长应该减小
比如上式就是一个不错的按照当前步数t减小步长的一个公式
当越靠近最优点,步长会越小,而且减小的幅度会逐渐下降
对于不同的参数应该给不同的步长
root mean square均方根
这里讲了均方根的计算,可以看到,每次update的参数都与学习率有关,也都与梯度自身有关
可以看到,这里的表达式抵消掉了根号下t+1这部分,最后分子只与学习率有关,而分母只与梯度的平方和有关
这个式子看分母的话说明,梯度越大,更新幅度越小,看分子的话说明,梯度越大,参数更新幅度越大,看起来似乎是互相矛盾的。
这里是想解释上面那个看似矛盾的项。按照我的理解就是刻画出了当前的梯度值相对于之前梯度值水平的变化剧烈程度,也可以认为是防止梯度爆炸或者消失对学习率造成不合常理的影响而采取的手段。
论学好最优化的 重要性。这就是讲的牛顿迭代法。同时考虑了这一点的导数值和二阶导数值,才能真正反映这一点距离最优点的距离。
这里是用一次微分来近似表征二次微分的大小
stochastic gradient descent随机梯度下降法
这里只用了一个example处的梯度就更新了参数值
随机梯度下降法
天下武功无坚不摧,唯快不破
当梯度下降法汇总了20个example的数据往最合理的方向迈了一步时,随机梯度下降法已经迈了20步了。 
 如果model函数中同时考虑了两个参数x1,x2,其中x2的范围比x1要大。那么要缩小x2的范围,使得x1,x2的range一样。
希望不同的特征值他们的范围是一样的。标准化,去量纲。
特征缩放,通过求对数或者指数等使数据分布范围近似
沿着w1方向等高线疏松,沿着w2方向等高线密集
没有scaling之前,搜索方向是曲折前进
scaling之后,搜索方向是直线指向最优点的
standard deviation标准偏差
feature scaling特征缩放的方法
问题的意思:我们每一次更新呢参数的时候,得到的新参数一定会使得loss变小吗?
答:
这个是不对的,因为在机器学习中更新参数的时候,loss函数有时候是会增大的
给定一个初始点,画一个它的邻域,在它的这个邻域中找到一个loss最小的点作为第二个迭代点,在这个迭代点周围再确定一个邻域,继续新邻域中的loss最小点。最终能迭代到最优点。
现在的问题是如何很快的在邻域中找到loss最小的那个点?
这边讲的是一元泰勒展开以及多元泰勒展开
如果红圈(与学习率、步长成正比)很小,那么x与x0距离很近,可以省略高次项,那么loss函数就可以很简单了,在这么简单的loss函数的基础上求loss最小值
讲了半天又回到了梯度下降法
不过上面成立的条件是学习率足够小
梯度下降法可能会陷入局部最优解

李宏毅机器学习笔记day3相关推荐

  1. 2021李宏毅机器学习笔记--21 Anomaly Detection

    2021李宏毅机器学习笔记--21 Anomaly Detection(异常侦测) 摘要 一.问题描述 二.Anomaly异常 三.Anomaly Detection(异常侦测)做法 3.1 Bina ...

  2. 李宏毅svm_【李宏毅机器学习笔记】 18、支持向量机(Support Vector Machine,SVM)...

    [李宏毅机器学习笔记]1.回归问题(Regression) [李宏毅机器学习笔记]2.error产生自哪里? [李宏毅机器学习笔记]3.gradient descent [李宏毅机器学习笔记]4.Cl ...

  3. 2021李宏毅机器学习笔记--12 attack ML models

    2021李宏毅机器学习笔记--12 attack ML models 摘要 一.图像模型的攻击 1.1原理 1.2Constraint 1.3参数训练 1.4一个例子 1.5攻击方法 1.5.1FGS ...

  4. 2021李宏毅机器学习笔记--22 Generative Adversarial Network 01

    @[TOC](2021李宏毅机器学习笔记–22 Generative Adversarial Network 01(GAN,生成式对抗网络)) 摘要 GAN是建立于神经网络的基础上的,其核心思想是&q ...

  5. 【李宏毅机器学习笔记】 23、循环神经网络(Recurrent Neural Network,RNN)

    [李宏毅机器学习笔记]1.回归问题(Regression) [李宏毅机器学习笔记]2.error产生自哪里? [李宏毅机器学习笔记]3.gradient descent [李宏毅机器学习笔记]4.Cl ...

  6. 【李宏毅机器学习笔记】 17、迁移学习(Transfer Learning)

    [李宏毅机器学习笔记]1.回归问题(Regression) [李宏毅机器学习笔记]2.error产生自哪里? [李宏毅机器学习笔记]3.gradient descent [李宏毅机器学习笔记]4.Cl ...

  7. 2018-3-20李宏毅机器学习笔记十----------Logistic Regression

    上节讲到:既然是一个直线型,只需要求解w和b.为何还要那么费劲的使用概率??? 视频:李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilib ...

  8. 2018-3-21李宏毅机器学习笔记十一-----Brief Introduction of Deep Learning?

    我觉的有用的: BP神经网络_百度百科 https://baike.baidu.com/item/BP%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/4581827?fr=a ...

  9. 李宏毅机器学习笔记六——Gradient Descent

    视频来源: 李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili.com/video/av10590361/?p=6 使用GD的注意 ...

  10. 李宏毅机器学习笔记(五)-----Where does the error come from

    视频来源: 李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili.com/video/av10590361/?p=5 functio ...

最新文章

  1. OKR 和 KPI 的适用场景
  2. java中求立方根_求解立方根
  3. tomcat-1-初识
  4. win10+linux系统进入安全模式,Win10进入安全模式的方法
  5. linux如何写一个daemon程序
  6. java列表mvc分页_Springmvc完成分页的功能
  7. 「leetcode」111.二叉树的最小深度(与求最大深度还有所不同的)
  8. python listbox排序_Python3.3.2 tkinter ttk TreeView percolumn排序只按最后一列排序?
  9. 嵌入式Linux学习笔记
  10. 【北京迅为】i.MX6ULL终结者MPU6050 六轴传感器例程原理分析
  11. C++ DOM读写xml(msxml6)
  12. 奥拉星插件flash下载手机版下载安装_flash控件手机版
  13. Mac上制作Linux U盘启动盘
  14. 性能测试模型-曲线拐点模型-压力曲线分析图
  15. vmd python 命令_VMD常用命令
  16. 健身耳机哪些品牌好?健身运动耳机推荐
  17. 实现个人域名跳转指定网站
  18. 笔记本计算机声音小,笔记本电脑没声音小喇叭不见了怎么恢复电脑
  19. 武汉计算机学校分数线,武汉交通学校2021年招生录取分数线
  20. 输入一行字符(输入以字符#结束),分别统计其中字母和数字字符的个数。

热门文章

  1. Conda更新失败:SSL错误:[SSL:CERTIFICATE_VERIFY_FAILED]证书验证失败
  2. Atitit postgresql data type 数据类型与mysql对应表 数据库常用数据类型 Postgre Mysql 整数 intgreter Int 小数 numeric FL
  3. Atitit ACID解决方案2PC(两阶段提交)  跨越多个数据库实例的ACID保证
  4. Atitit. visual studio vs2003 vs2005 vs2008  VS2010 vs2012 vs2015新特性 新功能.doc
  5. atitit.研发管理--标准化流程总结---java开发环境与项目部署环境的搭建工具包总结
  6. paip.C#.net TIMER不起作用在用户控件中
  7. XX项目技术架构模板
  8. 技术揭秘 | 如何设计 RQData 通讯协议
  9. Rust : 独一无二的Some
  10. 傅立叶:你让我如何理解你?