问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?

当算法在某个数据集当中出现这种情况,可能就出现了过拟合现象。

1、 什么是过拟合与欠拟合

欠拟合

过拟合

分析
第一种情况:因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。
第二种情况:机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。

1.1 定义

过拟合一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)
欠拟合一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)


那么是什么原因导致模型复杂?线性回归进行训练学习的时候变成模型会变得复杂,这里就对应前面再说的线性回归的两种关系,非线性关系的数据,也就是存在很多无用的特征或者现实中的事物特征跟目标值的关系并不是简单的线性关系

2、 原因以及解决办法

欠拟合原因以及解决办法
原因:学习到数据的特征过少
解决办法:增加数据的特征数量

过拟合原因以及解决办法
原因:原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点
解决办法:
正则化
在这里针对回归,我们选择了正则化。但是对于其他机器学习算法如分类算法来说也会出现这样的问题,除了一些算法本身作用之外(决策树、神经网络),我们更多的也是去自己做特征选择,包括之前说的删除、合并一些特征


如何解决?


在学习的时候,数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减少这个特征的影响(甚至删除某个特征的影响),这就是正则化

注:调整时候,算法并不知道某个特征影响,而是去调整参数得出优化的结果

2.1 正则化类别

L2正则化
作用:可以使得其中一些W的都很小,都接近于0,削弱某个特征的影响
优点:越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象
Ridge回归
L1正则化
作用:可以使得其中一些W的值直接为0,删除这个特征的影响
LASSO回归

2.2 拓展-原理(了解)

线性回归的损失函数用最小二乘法,等价于当预测值与真实值的误差满足正态分布时的极大似然估计;岭回归的损失函数,是最小二乘法+L2范数,等价于当预测值与真实值的误差满足正态分布,且权重值也满足正态分布(先验分布)时的最大后验估计;LASSO的损失函数,是最小二乘法+L1范数,等价于等价于当预测值与真实值的误差满足正态分布,且且权重值满足拉普拉斯分布(先验分布)时的最大后验估计

机器学习之欠拟合与过拟合相关推荐

  1. 机器学习概念 — 监督学习、无监督学习、半监督学习、强化学习、欠拟合、过拟合、后向传播、损失和优化函数、计算图、正向传播、反向传播

    1. 监督学习和无监督学习 监督学习 ( Supervised Learning ) 和无监督学习 ( Unsupervised Learning ) 是在机器学习中经常被提及的两个重要的学习方法. ...

  2. python3中多项式创建_机器学习入门之机器学习之路:python 多项式特征生成PolynomialFeatures 欠拟合与过拟合...

    本文主要向大家介绍了机器学习入门之机器学习之路:python 多项式特征生成PolynomialFeatures  欠拟合与过拟合,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助. 分享 ...

  3. 机器学习回归算法—性能评估欠拟合与过拟合

    机器学习中的泛化,泛化即是,模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现.在机器学习领域中,当我们讨论一个机器学习模型学习和泛化的好坏时,我们通常使用术语:过拟合和欠拟合.我们 ...

  4. 机器学习中的数学——学习曲线如何区别欠拟合与过拟合

    通过这篇博客,你将清晰的明白什么是如何区别欠拟合与过拟合.这个专栏名为白话机器学习中数学学习笔记,主要是用来分享一下我在 机器学习中的学习笔记及一些感悟,也希望对你的学习有帮助哦!感兴趣的小伙伴欢迎私 ...

  5. 机器学习1:泛化(过拟合、欠拟合)

    机器学习1:泛化(过拟合.欠拟合) 泛化 理解 判断 过拟合 欠拟合 机器学习中的逼近目标函数过程 统计拟合 机器学习中的过拟合 机器学习中的欠拟合 机器学习中好的拟合 个人理解泛化就是让机器具有举一 ...

  6. 【机器学习】欠拟合 过拟合 正则化

    正则化 拟合效果 拟合效果分析 欠拟合原因 特征量过少 参数太少,模型复杂度过低 过拟合原因 建模样本选取有误 样本噪音干扰过大 假设不成立 参数太多,模型复杂度过高 其他 tree-based模型 ...

  7. 机器学习中的欠拟合与过拟合

    1.偏差与方差 要理解欠拟合与过拟合,先得理解偏差与方差. 假设有一个模型f,f精确地描述了特征X与目标y的关系,但我们不知道f的具体的样子,因此我们通过一定量的训练样本来估计f,.当我们改变训练集( ...

  8. Machine Learning | (11) 回归性能评估与欠拟合、过拟合

    Machine Learning | 机器学习简介 Machine Learning | (1) Scikit-learn与特征工程 Machine Learning | (2) sklearn数据集 ...

  9. 吴恩达《机器学习》学习笔记六——过拟合与正则化

    吴恩达<机器学习>学习笔记六--过拟合与正则化 一. 过拟合问题 1.线性回归过拟合问题 2.逻辑回归过拟合问题 3.过拟合的解决 二. 正则化后的代价函数 1.正则化思想 2.实际使用的 ...

  10. 过拟合解决方法python_欠拟合、过拟合及其解决方法

    在我们机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题,但是,一开始我们的模型往往是欠拟合的,也正是因为如此才有了优化的空间,我们需要不断的调整算法来使得模型的表达能拿更强.但是优 ...

最新文章

  1. 大批量生成假数据,faker.js获得近28k个Star
  2. Web APi之控制器选择Action方法过程(九)
  3. 真心酸,程序员工作了十年,衣服和电脑包破了都没钱买新的
  4. couchbase_使用Couchbase分页
  5. Docker实践:Cannot connect to the Docker daemon.
  6. 用python效率办公_如何用Python提高办公(Excel)效率?
  7. 如何用NANT+FxCop 并生成文档规范检测结果?
  8. NMEA0183标准语句
  9. java来电报名字的软件_读短信来电报姓名
  10. AcWing 187 导弹防御系统
  11. 读取四则运算的字符串(Formula)返回计算结果 c#
  12. 什么是Oracle数据库伪列,ORA-00976: 此处不允许指定的伪列或运算符
  13. 拾贰SparkSQL:数据关联优化
  14. 记一次Maximo移动端app报错的原因
  15. 大数据BI平台建设需注意什么问题
  16. TSMC HPC工艺介绍
  17. WebAssembly:系统编程语言的逆袭
  18. 百度地图和51地图API应用开发
  19. Apache POI简介
  20. 【原创】EJB开发基础——EJB规范

热门文章

  1. 整天做办公室的我们要注意饮食啊
  2. FTP server的使用【原创】
  3. 根文件系统定制【ZT】
  4. java类和对象:封装、继承和多态
  5. 对于GetMemory()函数
  6. 2015计算机类专业课类试卷,2015计算机专业知识试题.doc
  7. 图论算法 最短路程_从网页排序看图论的重要应用
  8. Mybatis if 判断等于一个字符串
  9. oracle出现The Network Adapter could not establish the connection的问题
  10. 【kafka】kerberos client is being asked for a password not available to garner authentication informa