目录

1)Deciding what to try next

2)Evaluating a hypothesis

3)Model selection and training/validation/test sets

4)Diagnosing bias vs. variance

5)Regularization and bias/variance

6)Learning curves

7)Deciding what to try next


1)Deciding what to try next

我们对之前的线性回归预测房价的算法进行了正则化,但是当我们预测新房子房价时,我们会发现意想不到的误差,此时我们应该怎么做呢?

这就是我们接下来介绍的机器学习诊断算法:虽然会需要一点时间,但是会为我们开发学习算法节省大量时间。

2)Evaluating a hypothesis

下图是一个过拟合的模型,对于新的数据集它的预测能力很差:

对于过拟合检验:常做的是分割数据集,分为训练集和测试集。

对于线性回归和逻辑回归,我们计算它们的代价函数和误分类比率。

3)Model selection and training/validation/test sets

这种方法是我们现在经常使用的,把数据集分成:训练集,交叉验证集,测试集。

接下来,我们分别计算不同模型对应的训练误差,交叉验证误差,测试误差。选择测试误差最小的模型。

4)Diagnosing bias vs. variance

这一部分我们通过判断高偏差或高方差来判断模型是欠拟合还是过拟合。

我们通过将训练集误差和验证集误差绘制在一张图上来判断偏差和方差:

  • 当训练集误差和交叉验证集误差近似时,高偏差/欠拟合。
  • 当训练集误差远小于交叉验证集误差时,高方差/过拟合。

5)Regularization and bias/variance

这一部分主要介绍正则化程度对模型误差的影响。

我们同样把训练集误差和交叉验证集误差与正则化参数绘制在一张图上:

  • 较小时,训练集误差较小(过拟合),而交叉验证集误差大;
  • 随着增大,训练集误差不断增加(欠拟合),而交叉验证集先减小后增大;

6)Learning curves

学习曲线有助于我们判断偏差还是方差问题,它是关于训练集数量的曲线。

先看高偏差问题:增加训练集数量对于高偏差问题没什么帮助。

高方差问题:增加数据集数量有一定帮助。

7)Deciding what to try next

再来回顾我们第一讲介绍的方法:看看他们的效果:

神经网络模型可以如下考虑:

机器学习笔记(九):应用机器学习的建议相关推荐

  1. 吴恩达机器学习笔记(九)——大规模机器学习

    大规模机器学习 1 大规模机器学习可行性 由之前机器学补充里的知识可知,有的时候并不是数据越多对算法越好,当方差偏小的时候,说明此时的拟合度会比较大,数据缺乏泛性,这个时候使用更大的数据集可能会对算法 ...

  2. 机器学习笔记——数据挖掘与机器学习区别以及课程内容

    机器学习笔记 慕课|蒋良孝|中国地质大学 机器学习的定义 机器学习:利用经验改善计算机系统自身的性能 数据挖掘的定义 数据挖掘:识别出巨量数据中有效的.新颖的.潜在有用的.最终可理解的模式的非平凡的过 ...

  3. [机器学习笔记]Note8--机器学习应用建议

    继续是机器学习课程的笔记,本节课的内容主要是一些机器学习应用的建议,包括对假设的评估,如何处理过拟合和欠拟合等. 觉得下一步做什么 到目前为止,我们已经学习了线性回归,逻辑回归以及神经网络,梯度下降等 ...

  4. 机器学习笔记10——应用机器学习算法的建议

    目前,我们对机器学习的算法也有了一定的了解,这一节将会给大家一些建议,关于如何有效的使用机器学习算法.对于相同的算法,不同的人会使其发挥不同的效果,所以,这一节的主题就是教大家如何用机器学习算法解决具 ...

  5. 机器学习笔记(九)聚类

    9.聚类 有必要回顾下前文所涉及的机器学习主流分类,有监督学习中根据预测结果离散和连续属性分为分类和回归两大类,常见的算法有:线性模型.决策树.神经网络.支持向量机.贝叶斯分类器以及集成学习. 本文开 ...

  6. 机器学习笔记九——线性模型原理以及python实现案例

    线性模型 1.线性模型概述 2 .广义线性模型 3.用于回归的线性模型 3.1 线性回归(又名普通最小二乘法) 3.1.1 单变量线性回归 3.1.2 多变量线性回归 3.2 岭回归(ridge re ...

  7. 机器学习笔记九之支持向量机

    本节目录: 1 优化目标 2 大边界的理解 3 大间距分类器 4 核函数 5 使用支持向量机 1.优化目标 大量数据在应用算法时,表现情况往往依赖于操作水平,比如 算法设计特征量的选择.如何选择正则化 ...

  8. [机器学习笔记]Note15--大规模机器学习

    继续是机器学习课程的笔记,本节内容主要是介绍大规模机器学习的内容. 大型数据集的学习 对于一个过拟合的模型,增加数据集的规模可以帮助避免过拟合,并获得一个更好的结果. 但是对于一个大规模的数据,比如有 ...

  9. 机器学习笔记 一:机器学习思路

    学习目录 一.机器学习派别 二.学习书籍 三.学习视频 四.数学基础 五.学习思路 一.机器学习派别 频率派:统计机器学习 贝叶斯派:概率图模型 二.学习书籍 李航<统计学习方法>: 周志 ...

  10. 吴恩达机器学习笔记 —— 18 大规模机器学习

    http://www.cnblogs.com/xing901022/p/9417633.html 本章讲了梯度下降的几种方式:batch梯度下降.mini-batch梯度下降.随机梯度下降.也讲解了如 ...

最新文章

  1. Fast construction of FM-index for long sequence reads
  2. PowerDesigner设计的数据库 ORA-0092
  3. Jenkins的卸载
  4. usb2.0/3.0/3.1/3.2/4 各版本速率
  5. 肖仰华 | 基于知识图谱的用户理解
  6. OpenCV的工具函数
  7. Ibatis ISqlMapper工厂类案例
  8. 【笔试/面试】—— 数组中第二大的数
  9. 「leetcode」236. 二叉树的最近公共祖先:【递归与回溯】详解
  10. matlab 输入矩形序列,从python调用Matlab函数:“初始值设定项必须是矩形嵌套序列”...
  11. mysql 使用内置函数来进行模糊搜索(locate()等)
  12. 2017 Material design 第三章第四节《字体与排版》
  13. latex毕业论文模板(附源码)
  14. 思科OSPF配置实例(转)
  15. python学生管理系统毕业设计flask_python+flask实现简单的web端学生管理系统
  16. 基于R语言对哺乳动物睡眠时间sleep数据集的分析
  17. html5 logo背景透明度,使用纯洁的CSS实现HTML5的新logo
  18. Git GitHub Gitee使用方法
  19. 童年的精彩(70年代~80年代初),以后的就不要看,会羡慕死你们的!^_^
  20. 文件包含的漏洞、原理、利用

热门文章

  1. 结合JSP与HTML做一个九九乘法表
  2. i9 9900k mysql_i9-9900K和9900KS有什么区别?i9-9900KS和i9-9900K区别对比评测
  3. php配置文件加载顺序,php extension 加载顺序问题
  4. c语言程序定义不知数量的一维数组,c语言程序设计10-第6章 利用数组处理批量数据 6.1 怎样定义和引用一维数组.ppt...
  5. php项目课题,php课题
  6. android 恢复app 到前台,android手机把app disable了,怎么恢复
  7. oracle中exp/imp讲解
  8. WinCE中,环境变量的添加,删除和查询
  9. python内函数名加括号和不加括号的区别,python中 函数名加括号与不加括号
  10. innodb 悲观锁 乐观锁_mysql乐观锁、悲观锁、共享锁、排它锁、行锁、表锁