李宏毅机器学习Day03之误差

  • 误差从哪里来
    • 评估变量x的偏差
    • 评估变量x的方差
        • 为什么会有很多模型?
        • 不同模型的方差
        • 不同模型的偏差
        • 偏差与方差
      • 解决方案:tradeoff between bias and varience
        • 偏差太大:
        • 方差太大:
      • 模型选择
        • 交叉验证

参与了datawhale组队学习,李宏毅老师机器学习课程学习打卡
课程资料:https://www.bilibili.com/video/BV1Ht411g7Ef?p=1&vd_source=618ecf41cffc71dcd77f42f4c37554fe
课程笔记资料:https://linklearner.com/datawhale-homepage/#/learn/detail/93

李宏毅老师将bias和variance这块讲的太好了,用射箭的例子理解生动又形象(对比学校的相关课程,简直一个字绝)

误差从哪里来

参考:含公式推导 https://segmentfault.com/a/1190000016447144

下面考虑变量x的主要来源:偏差和方差

评估变量x的偏差

评估变量x的方差

为什么会有很多模型?

用同一个model,在不同的训练集中找到的f*就是不一样的

不同模型的方差

一次模型的方差就比较小的,也就是是比较集中,离散程度较小。而5次模型的方差就比较大,同理散布比较广,离散程度较大。

所以用比较简单的模型,方差是比较小的(就像射击的时候每次的时候,每次射击的设置都集中在一个比较小的区域内)。如果用了复杂的模型,方差就很大,散布比较开。

这也是因为简单的模型受到不同训练集的影响是比较小的。

不同模型的偏差

偏差与方差


overfitting: 偏差较小,方差较大
underfitting: 偏差较大,方差较小

解决方案:tradeoff between bias and varience

偏差太大:

方差太大:

模型选择

现在在偏差和方差之间就需要一个权衡 想选择的模型,可以平衡偏差和方差产生的错误,使得总错误最小 但是下面这件事最好不要做:

用训练集训练不同的模型,然后在测试集上比较错误,模型3的错误比较小,就认为模型3好。但实际上这只是你手上的测试集,真正完整的测试集并没有。比如在已有的测试集上错误是0.5,但有条件收集到更多的测试集后通常得到的错误都是大于0.5的。

交叉验证


图中public的测试集是已有的,private是没有的,不知道的。交叉验证 就是将训练集再分为两部分,一部分作为训练集,一部分作为验证集。用训练集训练模型,然后再验证集上比较,确实出最好的模型之后(比如模型3),再用全部的训练集训练模型3,然后再用public的测试集进行测试,此时一般得到的错误都是大一些的。不过此时会比较想再回去调一下参数,调整模型,让在public的测试集上更好,但不太推荐这样。

上述方法可能会担心将训练集拆分的时候分的效果比较差怎么办,可以用N折交叉验证

李宏毅机器学习Day03之误差相关推荐

  1. 李宏毅机器学习课程2~~~误差从哪里来?

    Stanford机器学习-第六讲. 怎样选择机器学习方法.系统 误差来源 误差主要来自于偏差和方差. 数学上定义: 通过covariate X 预测 Y ,我们假设存在如下关系: Y = f(X) + ...

  2. 【李宏毅机器学习】03:误差Error

    李宏毅机器学习03:误差Error 文章目录 李宏毅机器学习03:误差Error 一.Bias & Variance 偏差和方差 1.误差的来源 2.偏差和方差的理解 3.偏差和方差出现的原因 ...

  3. 李宏毅机器学习笔记(三)——Regression: output a scalar amp;amp; Gradient Descent

    视频来源: 李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili.com/video/av10590361/?p=3 机器学习的目的 ...

  4. 资料分享:推荐一本《李宏毅机器学习》开源电子书!

    背景 今天在 github 上看到了 datawhale 发布的 李宏毅机器学习笔记. https://datawhalechina.github.io/leeml-notes 其目录如下: P1 机 ...

  5. 喜大普奔:Datawhale开源项目《李宏毅机器学习完整笔记》发布了!

    开源地址 https://github.com/datawhalechina/leeml-notes [导读]关于机器学习的学习资料从经典书籍.免费公开课到开源项目应有尽有,可谓是太丰富啦,给学习者提 ...

  6. 李宏毅机器学习完整笔记发布,AI界「最热视频博主」中文课程笔记全开源

    点上方"小詹学Python",选择"置顶公众号"第一时间获取干货分享!本文转自:Datawhale 提起李宏毅老师,熟悉机器学习的读者朋友一定不会陌生.很多人选 ...

  7. 李宏毅机器学习课程---2、Regression - Case Study

    李宏毅机器学习课程---2.Regression - Case Study 一.总结 一句话总结: 分类讨论可能是比较好的找最佳函数的方法:如果 有这样的因素存在的话 模型不够好,可能是因素没有找全 ...

  8. 视频+笔记+能够跑通的代码,《李宏毅机器学习完整笔记》发布!

    点击我爱计算机视觉标星,更快获取CVML新技术 [导读]关于机器学习的学习资料从经典书籍.免费公开课到开源项目应有尽有,可谓是太丰富啦,给学习者提供了极大的便利.但网上比比皆是的学习资料大部分都是英文 ...

  9. 【李宏毅机器学习】Logistic Regression 逻辑回归(p11) 学习笔记

    李宏毅机器学习学习笔记汇总 课程链接 文章目录 Logistic Regression Step 1: Function Set Step 2: Goodness of a Function Step ...

最新文章

  1. 泰拉瑞亚服务器权限文件,泰拉瑞亚云服务器权限
  2. php 判断是否是单词,php – 检查字符串是否包含任何单词
  3. 专访阿里云MVP王俊杰:开发者的超能力是用技术让世界更美好
  4. Magento获取指定分类下的所有子分类信息
  5. 逆向建模软件介绍_逆向技术在2代机修理中的应用
  6. Django - 网页加载报错:A server error occurred. Please contact the administrator(亲测)
  7. Java虚拟机执行引擎多态的实现
  8. php 获取某一年最后一天_vivo年货节最后一天!多款机型大促,错过让你后悔再等一年!...
  9. 电气工程及其自动化学不学c语言,电气工程及其自动化学什么 就业方向有哪些...
  10. java实现文件上传下载功能,javaweb文件的下载和上传功能的实现
  11. apt报错Hash 校验和不符解决办法
  12. 大厂内部资料 | Redis 性能优化的 13 条军规!
  13. 重定向linux编译,linux重定向 - 悟性的个人页面 - OSCHINA - 中文开源技术交流社区...
  14. 教你大数据必修三大技能 快快记录下来
  15. html简介百度百科,outerHTML
  16. 使用 Python 合并地图瓦片
  17. 阿里云访问控制——OSS——STS
  18. vuca 时代_人工智能通过Vuca的镜头窥视未来
  19. easypoi的excel导出单元格只能选下拉选项工具类
  20. docx文件格式转PDF格式

热门文章

  1. 光纤到桌面即FTTD综合布线方法
  2. 统计学习方法 | 概论
  3. matlab曲线拟合工具箱 cftool
  4. 1.8 Illustrator标尺的使用 [Illustrator CC教程]
  5. 中心损失和单中心损失
  6. c++----随机数算法
  7. Android Gradle Composing builds 管理三方依赖
  8. 一个程序员的学习历程
  9. 如何在安卓安装LINUX
  10. 文件服务器之:NFS服务器