在机器学习表现不佳的原因要么是过度拟合或欠拟合数据。

  1、机器学习中的逼近目标函数过程

    监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y).

    Y=f(X)Y=f(X)

    这种特性描述可以用于定义分类和预测问题和机器学习算法的领域。

    从训练数据中学习目标函数的过程中,我们必须考虑的问题是模型在预测新数据时的泛化性能。泛化好坏是很重要的,因为我们收集到的数据只是样本,其带有噪音并且是不完全的。

  2、机器学习中的泛化

    在In机器学习中,我们描述从训练数据学习目标函数的学习过程为归纳性的学习。

    归纳与特别的样本中学习到通用的概念有关,而这就是监督式机器学习致力于解决的问题。这与推演不同,其主要是另一种解决问题和寻求从通常的规则中找寻特别的内容。

    泛化即是,机器学习模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现。

    好的机器学习模型的模板目标是从问题领域内的训练数据到任意的数据上泛化性能良好。这让我们可以在未来对模型没有见过的数据进行预测。

    在机器学习领域中,当我们讨论一个机器学习模型学习和泛化的好坏时,我们通常使用术语:过拟合和欠拟合.

    过拟合和欠拟合是机器学习算法表现差的两大原因。

  3、统计拟合

    在统计学中,拟合指的是你逼近目标函数的远近程度。

    这个术语同样可以用于机器学习中,因为监督式机器学习算法的目标也是逼近一个未知的潜在映射函数,其把输入变量映射到输出变量。

    统计学通常通过用于描述函数和目标函数逼近的吻合程度来描述拟合的好坏

    这类理论中的一些在机器学习中也是有用的(例如,计算残差),但是一些技巧假设我们已经知道了我们要逼近的函数。这和机器学习的场景就不同了。

    如果我们已经知道了目标函数的形式,我们将可以直接用它来做预测,而不是从一堆有噪音的数据中把它费力的学习出来。

  4、机器学习中的过拟合

    过拟合指的是referstoa模型对于训练数据拟合程度过当的情况。

    当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。

    而问题就在于这些概念不适用于新的数据,从而导致模型泛化性能的变差。

    过拟合更可能在无参数非线性模型中发生,因为学习目标函数的过程是易变的具有弹性的。同样的,许多的无参数器学习算法也包括限制约束模型学习概念多少的参数或者技巧。

    例如,决策树就是一种无参数机器学习算法,非常有弹性并且容易受过拟合训练数据的影响。这种问题可以通过对学习过后的树进行剪枝来解决,这种方法就是为了移除一些其学习到的细节。

  5、机器学习中的欠拟合

    欠拟合指的是模型在训练和预测时表现都不好的情况。

    一个欠拟合的机器学习模型不是一个良好的模型并且由于在训练数据上表现不好这是显然的。

    欠拟合通常不被讨论,因为给定一个评估模型表现的指标的情况下,欠拟合很容易被发现。矫正方法是继续学习并且试着更换机器学习算法。虽然如此,欠拟合与过拟合形成了鲜明的对照。

  6、机器学习中好的拟合

    理想上,你肯定想选择一个正好介于欠拟合和过拟合之间的模型。

    这就是我们学习的目标,但是实际上很难达到。

    为了理解这个目标,我们可以观察正在学习训练数据机器学习算法的表现。我们可以把这个过程划分为分别是训练过程和测试过程

    随着时间进行,算法不断地学习,模型在训练数据和测试数据上的错误都在不断下降。但是,如果我们学习的时间过长的话,模型在训练数据上的表现将继续下降,这是因为模型已经过拟合并且学习到了

    训练数据中的不恰当的细节以及噪音。同时,测试数据集上的错误率开始上升,也即是模型的泛化能力在下降。

    这个完美的临界点就处于测试集上的错误率开始上升时,此时模型在训练集和测试集上都有良好的表现

    你可以用你自己喜爱的机器学习算法来实践这个实验。而在实践中这通常是无用的,因为在测试数据上运用这个技巧来选择训练停止的时机,这意味着这个测试集对于我们并不是“不可见的

  ”或者单独的衡量标准。数据的一些知识(许多有用的知识)已经泄露到了训练过程。

    通常有两种手段可以帮助你找到这个完美的临界点:重采样方法和验证集方法

  7、如何限制过拟合

    过拟合和欠拟合可以导致很差的模型表现。但是到目前为止大部分机器学习实际应用时的问题都是过拟合。

    过拟合是个问题因为训练数据上的机器学习算法的评价方法与我们最关心的实际上的评价方法,也就是算法在位置数据上的表现是不一样的。

    当评价机器学习算法时我们有两者重要的技巧来限制过拟合:

    使用重采样来评价模型效能

    保留一个验证数据集

    最流行的重采样技术是k折交叉验证。指的是在训练数据的子集上训练和测试模型k次,同时建立对于机器学习模型在未知数据上表现的评估。

    验证集只是训练数据的子集,你把它保留到你进行机器学习算法的最后才使用。在训练数据上选择和调谐机器学习算法之后,我们在验证集上在对于模型进行评估,以便得到一些关于模型在未知数据上的表现的认知。

    对于机器学习,使用交叉验证在未知数据上进行验证模型效能是一种良好的标准。如果你拥有数据,使用验证集也是一种良好的实践。

  进一步阅读

    如果你想学习更多关于机器学习中的泛化、过拟合和欠拟合的知识,本节列举了一些相关的推荐资源。

    维基百科上的泛化

    维基百科上过拟合

    维基百科上的归纳推理

    维基百科上的感应问题

    Quora上的过拟合的直观解释

  总结

    本文中你学习了机器学习就是以感应方法来解决问题。

    你学习了泛化是一种关于模型学习到的知识在未知数据上表现程度的概念描述。最后你学习了机器学习中的术语:泛化中的过拟合与欠拟合:

    过拟合:在训练数据上表现良好,在未知数据上表现差。

    欠拟合:在训练数据和未知数据上表现都很差

    原文链接:Overfitting and Underfitting With Machine Learning Algorithms

机器学习算法中的过拟合与欠拟合(转载)相关推荐

  1. 机器学习中的过拟合与欠拟合

    目录 一.什么是过拟合与欠拟合 二.原因及解决方法 三.正则化类别 四.拓展-原理 问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有 问题呢? 当算法在某个数据集当中出现这种情况,可能就出 ...

  2. 机器学习/算法面试笔记1——损失函数、梯度下降、优化算法、过拟合和欠拟合、正则化与稀疏性、归一化、激活函数

    正值秋招,参考网络资源整理了一些面试笔记,第一篇包括以下7部分. 1.损失函数 2.梯度下降 3.优化算法 4.过拟合和欠拟合 5.正则化与稀疏性 6.归一化 7.激活函数 损失函数 损失函数分为经验 ...

  3. 一文解决机器学习中的过拟合与欠拟合问题(正则化,数据增强,Dropout)

    一文解决机器学习中的过拟合与欠拟合问题(正则化,数据增强,Dropout,提前终止) 生活中的过拟合与欠拟合现象 过拟合与欠拟合的概念 解决过拟合与欠拟合问题的四大金刚 正则化 数据增强 Dropou ...

  4. 机器学习中过拟合、欠拟合与方差、偏差的关系是什么?

    机器学习中过拟合.欠拟合与方差.偏差的关系是什么? 过拟合(overfitting)与欠拟合(underfitting)是统计学中的一组现象.过拟合是在统计模型中,由于使用的参数过多而导致模型对观测数 ...

  5. 过拟合和欠拟合_现代深度学习解决方案中的两大挑战:拟合和欠拟合

    全文共2306字,预计学习时长5分钟 对机器学习模型而言,最糟糕的两种情况无非是构建无用的知识体系,或是从训练数据集中一无所获.在机器学习理论中,这两种现象分别被称为过拟合和欠拟合,是现代深度学习解决 ...

  6. 机器学习基础概念——过拟合和欠拟合

    欢迎关注,敬请点赞! 机器学习基础概念--过拟合和欠拟合 1. 基本概念 1.1 偏差和方差 2. 欠拟合和过拟合 2.1 学习曲线 2.2 复杂程度曲线 2.3 支持向量机的过拟合和欠拟合 2.4 ...

  7. 机器学习之过拟合和欠拟合

    文章目录 前言 什麽是过拟合和欠拟合? 过拟合和欠拟合产生的原因: 欠拟合(underfitting): 过拟合(overfitting): 解决欠拟合(高偏差)的方法 1.模型复杂化 2.增加更多的 ...

  8. 机器学习考点---过拟合与欠拟合、CNN原理......

    2 . 与数据相关的内容:数据的标注来源.规范化.增广.噪声处理怎么处理?数据有噪声好不好? 测试集.验证集.训练集各自的作用: 训练集:参数调优. 验证集:超参.模型的选择,模型评估,正则化 . 为 ...

  9. 机器学习1:泛化(过拟合、欠拟合)

    机器学习1:泛化(过拟合.欠拟合) 泛化 理解 判断 过拟合 欠拟合 机器学习中的逼近目标函数过程 统计拟合 机器学习中的过拟合 机器学习中的欠拟合 机器学习中好的拟合 个人理解泛化就是让机器具有举一 ...

最新文章

  1. 为了云,阿里、腾讯和百度一年花了多少钱?
  2. vmware14/15 安装Ubuntu12.04 图文八步法
  3. MySQL 高级 - 索引 - 索引设计原则
  4. 第1节 kafka消息队列:7、kafka的消费模型
  5. QT 调用 DLL 的三种方法
  6. linux的cpu信息怎么理解,理解Linux下的CPU信息:lscpu cpuinfo
  7. springboot系列四、配置模板引擎、配置热部署
  8. msyql开启慢查询以及分析慢查询
  9. latex : 系统找不到指定文件问题解决方案
  10. PTA—求整数段和(C语言)
  11. cs231n作业——softmax
  12. ImportError: cannot import name '_validate_lengths'
  13. Android TV使用gsyVideoPlayer快进操作视频会回退
  14. httpd配置三种虚拟主机带访问控制
  15. 竞赛练一练 第15期:电子学会2021年9月青少年软件编程(图形化)等级考试试卷(三级)...
  16. android 图表实现,Android实现图表绘制和展示
  17. sow工作任务说明书例子
  18. 华为云服务产品之精华问题大集烩(二)
  19. WPS加载项是如何实现调用业务系统JS的 WPS通信原理
  20. 漂亮的Emlog博客网站模板源码+附插件合集

热门文章

  1. linux 下的挂载
  2. C# 解析Excel中的那些事儿
  3. 大三学生独自破解逆天AI模型:我只是把撩妹的时间,都用来研究机器学习了...
  4. ​让AI触类旁通93种语言:Facebook最新多语种句嵌入来了
  5. 吴恩达新书手稿完工,现在开放免费下载 | 资源
  6. 不造AI杀人武器当然好,但牛津学者觉得马斯克们忽略了重点
  7. 问答Goodfellow:没有样例能不能训练机器学习算法?
  8. 面对数据缺失,如何选择合适的机器学习模型?
  9. 洛谷——P1100 高低位交换
  10. 美法院起诉黑客组织成员 为暴雪服务器攻击者