我们已经知道一些方法可以用来估计(可避免的)偏差和方差可以导致多少误差。这些方法包括估计最佳的错误率和计算算法的训练集和开发集误差。下面我们将讨论一种可以获得更多信息的方法:绘制学习曲线。

学习曲线绘制了开发集错误率和训练样本数量之间的关系。为了绘制学习曲线,需要在不同的训练集大小上运行算法。例如,如果有1000个样本,可以在100,200,300,…,1000个样本上分别运行算法。这样就可以画出关于开发集错误率和训练样本数量的学习曲线。举例如下:

随着训练集的增大,开发集错误率应该减少。
我们通常为算法设置一个期望错误率。比如:

  • 如果期望人类水平的性能,则人类水平错误率就是期望错误率
  • 如果算法作为某种产品(例如识别有猫的图片),我们可能会直观的知道什么样的性能才能给用户一个好的体验。
  • 如果你在一个重要的应用上工作了很长的时间,你可能已经形成了一种直观的感觉:明年我可能在这个应用上取得多少成果。

为学习曲线添加期望的性能:

可以从图中猜出增加训练集样本数量之后,红色的“开发集错误率”可以在多大程度上靠近期望值。上面的例子中,看起来增加一倍的训练样本可能达到期望的性能。
但是如果开发集错误率已经是稳定状态(例如:曲线变平了),那么可以立即肯定增加训练样本没什么用处。

分析上图的学习曲线,可以避免你花费数月时间,收集大量数据到最后发现没有什么用处。

只分析开发集错误率也有其不利的一面,因为即使增加更多训练数据也很难推断红色曲线将会是什么趋势。额外绘制训练集错误率曲线将会有利于估计增加训练数据所产生的效果。

28 诊断偏差和方差:学习曲线 (28 Diagnosing bias and variance_ Learning curves)相关推荐

  1. 吴恩达|机器学习作业5.0.偏差与方差

    5.0.偏差与方差 1)题目: 在本练习中,您将实现正则化线性回归,并使用它来研究具有不同偏差-方差属性的模型.在练习的前半部分,您将使用水库水位的变化实现正则化线性回归来预测大坝的出水量.在下半部分 ...

  2. Advice for applying machine learning - Diagnosing bias vs. variance

    摘要: 本文是吴恩达 (Andrew Ng)老师<机器学习>课程,第十一章<应用机器学习的建议>中第86课时<诊断偏差与方差>的视频原文字幕.为本人在视频学习过程中 ...

  3. 机器学习:利用学习曲线诊断模型的偏差和方差

    原文链接: https://www.sohu.com/a/218687556_100007018 https://www.dataquest.io/blog/learning-curves-machi ...

  4. 偏差、方差、欠拟合、过拟合、学习曲线

    文章目录 欠拟合 under fitting 过拟合 over fitting 偏差与方差 偏差 - 方差窘境 bias-variance dilemma 学习曲线 learning curve 欠拟 ...

  5. 斯坦福大学公开课机器学习:advice for applying machine learning | learning curves (改进学习算法:高偏差和高方差与学习曲线的关系)...

    绘制学习曲线非常有用,比如你想检查你的学习算法,运行是否正常.或者你希望改进算法的表现或效果.那么学习曲线就是一种很好的工具.学习曲线可以判断某一个学习算法,是偏差.方差问题,或是二者皆有. 为了绘制 ...

  6. 4.3 偏差与方差-机器学习笔记-斯坦福吴恩达教授

    偏差与方差 在机器学习中,偏差(bias) 反映了模型无法描述数据规律,而 方差(variance) 反映了模型对训练集过度敏感,而丢失了数据规律,高偏差和高方差都会造成新数据到来时,模型给出错误的预 ...

  7. 机器学习实践四--正则化线性回归 和 偏差vs方差

    这次实践的前半部分是,用水库水位的变化,来预测大坝的出水量. 给数据集拟合一条直线,可能得到一个逻辑回归拟合,但它并不能很好地拟合数据,这是高偏差(high bias)的情况,也称为"欠拟合 ...

  8. 吴恩达机器学习作业Python实现(五):偏差和方差

    吴恩达机器学习系列作业目录 在本练习中,您将实现正则化的线性回归和多项式回归,并使用它来研究具有不同偏差-方差属性的模型 1 Regularized Linear Regression 正则线性回归 ...

  9. 模型优化的风向标:偏差与方差

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:机器学习算法那些事 前面讲到测试集的泛化性能是衡量学习模 ...

最新文章

  1. EMC助力广东福彩中心容灾系统建设
  2. idea去除重复代码校验
  3. Qt-Threads和QObjects详解
  4. 阶乘和(信息学奥赛一本通-T1173)
  5. android viewpager 缩放,android – 使用ViewPager实现捏缩放
  6. Spring MVC 基于URL的映射规则(注解版)
  7. linux使用samba实现文件共享
  8. Python实现一维表与二维表之间的相互转化
  9. lightgbm中的多分类multiclass与multiclassova
  10. PDF文件电子签名怎么做?分享一个好用的签名工具
  11. Js中${}字符串拼接
  12. GD32篇 一、GD32程序设置读保护,防止程序被读取
  13. WLAN与WiFi各是什么意思有什么区别
  14. 关于 fatal error LNK1158: 无法运行“rc.exe” 的解决方法
  15. 传统系统架构与中台架构的区别和联系
  16. 负数在计算机中的表示和存储
  17. dell笔记本如何关闭计算机更新,联想戴尔笔记本Win10如何彻底永久关闭更新?
  18. Vijos - 佳佳的魔法药水(最短路)
  19. java迭代器删除元素_java迭代器中删除元素的操作
  20. html最快学会的方式,零基础HTML玩家的Bootstrap入门第一课(保证学会!)

热门文章

  1. 漫画 | Java语言是如何诞生的?
  2. 最小费用流bellman-ford算法总结
  3. 抖音、快手打起来了,互联网大佬集体内卷?
  4. 计算机教师专业环境,信息技术环境对教师专业发展的新要求
  5. C++笔记——第十篇 继承 的解析,详细易懂哦
  6. 全量发布与灰度发布(APP版本发布)
  7. 每日一诗词 —— 越人歌
  8. 软件测试有白和黑盒和灰盒,白盒测试、灰盒测试和黑盒测试的区别
  9. 计算机网络中心防火门开启方向,防火门的开启方向怎么确定?
  10. A类博士后年薪30万起!北邮人工智能学院郭军教授实验室招聘博士后研究人员...