来自:http://blog.csdn.net/fengzhe0411/article/details/7165549

最近几天在看模式识别方面的资料,多次遇到“overfitting”这个概念,最终觉得以下解释比较容易接受,就拿出来分享下。

overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。

百度中关于overfitting的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。

..........................

以下概念由本人摘自《数据挖掘-概念与技术》

P186 过分拟合 即在机器学习期间,它可能并入了训练数据中的某些特殊的异常点,这些异常不在一般数据集中出现。

P212 由于规则可能过分拟合这些数据,因此这种评论是乐观的。也就是说,规则可能在训练数据上行能很好,但是在以后的数据上九不那么好。

............................

补充c4.5算法中的介绍 这个通俗易懂

决策树为什么要剪枝?原因就是避免决策树“过拟合”样本。前面的算法生成的决策树非常的详细而庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都是“纯”的。因此用这个决策树来对训练样本进行分类的话,你会发现对于训练样本而言,这个树表现堪称完美,它可以100%完美正确得对训练样本集中的样本进行分类(因为决策树本身就是100%完美拟合训练样本的产物)。但是,这会带来一个问题,如果训练样本中包含了一些错误,按照前面的算法,这些错误也会100%一点不留得被决策树学习了,这就是“过拟合”。C4.5的缔造者昆兰教授很早就发现了这个问题,他作过一个试验,在某一个数据集中,过拟合的决策树的错误率比一个经过简化了的决策树的错误率要高。那么现在的问题就来了,如何在原生的过拟合决策树的基础上,通过剪枝生成一个简化了的决策树?

最近在看TLD中的2bitBP特征,其中一个就提到了2bitBP能够防止过拟合的特点,除此之外这种特征在跟踪过程中还可以克服光照的影响,而且输出只有4中编码。属于轻量级别的。

随机森林的好处就是计算量很小,并且很精确。

转载于:https://www.cnblogs.com/lxy2017/p/4037368.html

overfitting(过度拟合)的概念相关推荐

  1. 过度拟合_过度拟合和尺寸缩减的过度拟合的最终指南

    过度拟合 Let us consider that we are designing a machine learning model. A model is said to be a good ma ...

  2. Overfitting机器学习中过度拟合问题

    过度拟合:机器从样本数据中过度的学习了太多的局部特征,在测试集中会出现识别率低的情况. 1.过度拟合(从知乎上看到的) (1)对于机器来说,在使用学习算法学习数据的特征的时候,样本数据的特征可以分为局 ...

  3. 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization

    1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...

  4. 如何避免期货程序化交易中的过度拟合现象

    在建立量化交易模型的过程中,很多人都会经历过度拟合的情况.过度拟合其实是机器学习领域和统计学领域的一个概念.一般被用作表示一个模型在测试时表现的非常好,但是在实践过程却成绩却不如预期. 对于传统的机器 ...

  5. 【机器学习】什么是过度拟合?如何解决过度拟合?

    系列文章目录 第九章 Python 机器学习入门之过度拟合问题及解决办法 系列文章目录 文章目录 前言 一. 什么是过拟合 ? 我们可以通过几个例子来了解一下什么是过拟合,​编辑1 线性回归中的过拟合 ...

  6. 量化策略里的过度拟合

    from:https://guorn.com/forum/post/p.3.115068058489034?tag=share 本篇文章试图对量化策略中的过度拟合问题,作一个系统的梳理,给策略研究者一 ...

  7. 大岩量化小白科普:什么是过度拟合?

    过度拟合最初是统计学数据挖掘领域中的概念,如今在机器学习.量化策略领域里有着重要地位. 首先,什么是"拟合"?拟合指在训练集上训练模型,使模型的预测结果和已知数据相符.通俗地讲,拟 ...

  8. 机器学习过度拟合问题一些原因

    这几天在训练一个文本处理的机器学习算法,使用支持向量机和决策树算法在训练集上的数据的准确度特别高,但是在测试集上的数据的准确度确很低,于是陷入过度拟合的烦恼中,查找资料发现一些多度拟合的看法.仔细想想 ...

  9. 机器学习--过度拟合 欠拟合

    过度拟合(overfitting)是指数据模型在训练集里表现非常满意,但是一旦应用到真实业务实践时,效果大打折扣:换成学术化语言描述,就是模型对样本数据拟合非常好,但是对于样本数据外的应用数据,拟合效 ...

最新文章

  1. 限量!“Java成长笔记”Spring Boot/Sentinel/Nacos高并发
  2. 微众WeCross 跨链平台(2)网络拓扑
  3. linux 继续编译,【编译】Linux环境编译traceroute
  4. php mysql int string_mysql查出的 int 型字段都是 string
  5. 源码编译LAMP平台
  6. .Net 中的继承知识点
  7. redis有序集合sorted set详解
  8. 【AI专利】中国成为全球AI专利第二大提交国,微软AI专利数比你论文字数都多...
  9. 转到Visual Studio中的匹配括号吗?
  10. SQL Server 置疑修复
  11. 如何创建一个vue项目(详细步骤)
  12. 局域网打印机共享怎么设置_局域网共享精灵 局域网内便节共享文件和打印机...
  13. Windows RDP的RCE漏洞分析和复现(CVE-2019-0708)
  14. 双循环背景下的全球供应链机遇与挑战
  15. P4379 [USACO18OPEN]Lemonade Line
  16. 【调试技巧】strace神器的使用方法详解与实践
  17. 定时脚本任务列子(crontab)
  18. SkeyeVSS安防视频云解决方案助力解决幼儿园安全系统防护问题
  19. 天梯赛L1级别80道题解
  20. 在GitHub,他们是怎么玩的? (转)

热门文章

  1. 380万赌石(翡翠原石)切出2亿,现在值多少钱了?
  2. 银行流水你真的会看吗?
  3. SDRAM控制器设计
  4. C++ 11 在 Qt 5 中的应用
  5. asp向不同的用户发送信息_【asp.net core 系列】 1 带你了解一下asp.net core
  6. oracle主机名的脚本,一个开启Oracle服务和更改主机名的脚本-Oracle
  7. python 双向链表_Python实现双向链表
  8. c++ 向量的值逆序输出_C++中vector的常用方法
  9. Xcode and Unity missing library ‘lGoogleUtilities‘
  10. 【caffe-Windows】新层添加——LSTM