我们在调试一个学习算法时,通常会用学习曲线(Learning Curves)观察机器学习算法是否为欠拟合过拟合

随着样本数的不断增大,我们发现在高偏差(欠拟合)时交叉验证集代价函数 J_cv(θ) 测试集代价函数 J_test (θ) 的图像如下,这个图像也叫做学习曲线(Learning Curves)

在高偏差时,随着样本数目的增加,测试集的偏差与交叉验证集的偏差几乎相等,测试集的偏差在上升到一定程度后就不会继续上升;根据交叉验证集来看,多项式的泛化程度随着数据集的增加减小到一定程度后就不再减小。这代表着,在高偏差(欠拟合)的情况下,增大数据集并不会优化你的算法。所以,在高偏差的情况下,你不需要把时间浪费在收集大量数据上。

再来看,在高方差的情况:

在高方差下,随着样本数目的增加,交叉验证集的偏差一直与测试集的偏差有很大的差距,测试集的偏差在不断地上升;根据交叉验证集来看,多项式的泛化程度随着数据集的增加而不断地减小。这代表着,在高方差(过拟合)的情况下,增大数据集在一定程度上会优化你的算法

因此,你了解当前算法处于高偏差或高方差对于你决定是否把大量的时间花费在寻找数据集很有必要,这会为你节省大量的时间,把时间用在刀刃上吧!

回到一开始的问题,在机器学习中,我们训练了一个模型,可能会发现这个模型得到的数据与实际数据偏差太大,也就是这个模型表现的不好。这时,我们需要想一些方法来优化我们的算法。

下面这些方法,就是在遇到高方差或高偏差时,我们所需要做的事情。

  • 得到更多的训练集:适用于高方差

  • 减小特征的数目:适用于高方差

  • 尝试去增加特征:适用于高偏差

  • 增加多项式:适用于高偏差

  • 增大 λ:适用于高方差

  • 减小 λ:适用于高偏差

ps. 本篇文章是根据吴恩达机器学习课程整理的学习笔记。如果想要一起学习机器学习,可以关注微信公众号「SuperFeng」,期待与你的相遇。

机器学习系列15:学习曲线相关推荐

  1. Weka中数据挖掘与机器学习系列之Exploer界面(七)

    不多说,直接上干货! Weka的Explorer(探索者)界面,是Weka的主要图形化用户界面,其全部功能都可通过菜单选择或表单填写进行访问.本博客将详细介绍Weka探索者界面的图形化用户界面.预处理 ...

  2. 机器学习系列(10)_决策树与随机森林回归

    注:本篇文章接上一篇文章>>机器学习系列(9)_决策树详解01 文章目录 一.决策树优缺点 二.泰坦尼克号幸存者案例 三.随机森林介绍 1.随机森林的分类 2.重要参数 [1]n_esti ...

  3. 阿里巴巴机器学习系列课程

    亲爱的同学们,福利来临!随着机器学习领域的发展越来越火,阿里云机器学习PAI为广大机器学习爱好的学生提供免费的一站式算法平台,该平台提供上百种算法,并且兼容TensorFlow.Caffe.MXNET ...

  4. 机器学习系列(8)_读《Nature》论文,看AlphaGo养成

    机器学习系列(8)_读<Nature>论文,看AlphaGo养成  标签: 机器学习算法深度学习神经网络蒙特卡罗树搜索 2016-03-16 11:23 17843人阅读 评论(8) 收藏 ...

  5. 机器学习系列------1. GBDT算法的原理

    GBDT算法是一种监督学习算法.监督学习算法需要解决如下两个问题: 1.损失函数尽可能的小,这样使得目标函数能够尽可能的符合样本 2.正则化函数对训练结果进行惩罚,避免过拟合,这样在预测的时候才能够准 ...

  6. 机器学习系列(4)_机器学习算法一览,应用建议与解决思路

    作者:寒小阳 时间:2016年1月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50469334 声明:版权所有,转载请联系作者并注明出 ...

  7. 机器学习系列(1)_数据分析之Kaggle泰坦尼克之灾

    本篇博客通过分析泰坦尼克号事故中乘客的信息,从而得出一些相关关系的判断,并且使用Python可视化的手段更加具体的展现. 注:本篇博客参考资料: 1.kaggle入门–泰坦尼克号之灾(某书) 2.机器 ...

  8. 机器学习系列笔记六:主成分分析PCA[下]

    机器学习系列笔记六:主成分分析PCA[下] 文章目录 机器学习系列笔记六:主成分分析PCA[下] scikit-learn中的PCA 基本使用 进阶操作 对比实验 设置合理的n_components ...

  9. 递归神经网络 matlab,机器学习系列:递归神经网络

    原标题:机器学习系列:递归神经网络 前言 BP 神经网络,训练的时候,给定一组输入和输出,不断的对权值进行训练,使得输出达到稳定.但 BP 神经网络并不是适合所有的场景,并不真正的体现出某些场景的真正 ...

  10. 机器学习系列|基于随机森林的生存分析模型-R实战

    机器学习系列|基于随机森林的生存分析模型-R实战 随机生存森林 随机生存森林通过训练大量生存树,以表决的形式,从个体树之中加权选举出最终的预测结果. 构建随机生存森林的一般流程为: Ⅰ. 模型通过&q ...

最新文章

  1. 为什么ajax请求状态码为0,ajax请求状态码为0的解决办法
  2. Tips——IndexSearcher自动更新
  3. P10 线性系统状态空间设计-《Matlab/Simulink与控制系统仿真》程序指令总结
  4. js的this与java的区别_JavaScirpt(JS)的this细究
  5. 链接服务器 因为它不存在或者您没有所需的权限。处理
  6. weblogic的输出打印日志设置
  7. GWT HTML editor
  8. Xml序列化自引用/循环引用问题2
  9. Web 性能优化:使用 CSS font-display 控制字体加载和替换
  10. 如何调试SharePoint中XsltListViewWebPart的XSL
  11. python如何设置双索引_python – 设置值多索引熊猫
  12. post和get的区别
  13. idea 设置类的注释模板
  14. UGUI-- Canvas Scaler 分辨率自适应组件
  15. 计算机操作系统的加密与恢复,当在 Windows中设置 FIPS 兼容策略时,BitLocker 的恢复密码Windows...
  16. 老友记第一季台词打印_老友记第一季第一集台词
  17. Excel的规划求解实例
  18. mysql面向用户是什么意思_原来大厂的MySQL面试会问这些问题!
  19. 推荐一款超级下载利器工具,突破网盘的下载限制
  20. Docker系列 WordPress系列 个人博客的广告展示

热门文章

  1. CodeForces 417D Cunning Gena 状压dp
  2. 拼图游戏怎样切换代码html,HTML5技术之图像处理:一个滑动的拼图游戏-H5教程
  3. 创业公司产品经理的进阶思考
  4. 你不得不看的“互联网+企业购”大趴攻略
  5. Android点将台:颜值担当[-Activity-],项目实践
  6. css横排文字光影效果_css实现发光文字,以及一点点js特效
  7. Laravel之数据库操作与Eloquent模型使用总结
  8. Spring内部原理模拟实现(一)—————— 开开开山怪
  9. MySQLdb 安装
  10. python 定时发送微信,利用python在微信中实现一个定时发送消息的功能