原文链接:https://developers.google.com/machine-learning/crash-course/generalization

泛化是指模型很好地拟合以前未见过的新数据(从用于创建该模型的同一分布中抽取)的能力。

1- 过拟合的风险

机器学习的目标是对从真实概率分布(已隐藏)中抽取的新数据做出良好预测。
过拟合模型在训练过程中产生的损失很低,但在预测新数据方面的表现却非常糟糕。
模型只能从训练数据集中取样,无法查看整体情况。
如果某个模型在拟合当前样本方面表现良好,那么如何相信该模型会对新数据做出良好的预测呢?

奥卡姆剃刀定律:科学家应该优先采用更简单(而非更复杂)的公式或理论。
运用在机器学习中:机器学习模型越简单,良好的实证结果就越有可能不仅仅基于样本的特性。
应用于统计学习理论计算学习理论领域。这些领域已经形成了泛化边界,即统计化描述模型根据以下因素泛化到新数据的能力:

  • 模型的复杂程度
  • 模型在处理训练数据方面的表现

虽然理论分析在理想化假设下可提供正式保证,但在实践中却很难应用。
MLCC侧重于实证评估,以评判模型泛化到新数据的能力。

1.1- 获取新数据

机器学习模型旨在根据以前未见过的新数据做出良好预测。
如何获得以前未见过的数据呢?
一种方法是将您的数据集分成两个子集:

  • 训练集 - 用于训练模型的子集。
  • 测试集 - 用于测试模型的子集。

一般来说,在测试集上表现是否良好是衡量能否在新数据上表现良好的有用指标,前提是:

  • 测试集足够大。
  • 不会反复使用相同的测试集来作假。

1.2- 机器学习细则

以下三项基本假设阐明了泛化:

  • 从分布中随机抽取独立同分布 (i.i.d)的样本。换言之,样本之间不会互相影响。
  • 分布是平稳的;即分布在数据集内不会发生变化。
  • 同一分布的数据划分中抽取样本。

在实践中,有时会违背这些假设。例如:

  • 想象有一个选择要展示的广告的模型。如果该模型在某种程度上根据用户以前看过的广告选择广告,则会违背 i.i.d. 假设。
  • 想象有一个包含一年零售信息的数据集。用户的购买行为会出现季节性变化,这会违反平稳性。

如果违背了上述三项基本假设中的任何一项,那么就必须密切注意指标。

1.3- 总结

  • 如果某个模型尝试紧密拟合训练数据,但却不能很好地泛化到新数据,就会发生过拟合。
  • 如果不符合监督式机器学习的关键假设,那么我们将失去对新数据进行预测这项能力的重要理论保证。

2- 关键词

泛化 (generalization)
指的是模型依据训练时采用的数据,针对以前未见过的新数据做出正确预测的能力。

过拟合 (overfitting)
创建的模型与训练数据过于匹配,以致于模型无法根据新数据做出正确的预测。

预测 (prediction)
模型在收到输入样本后的输出。

平稳性 (stationarity)
数据集中数据的一种属性,表示数据分布在一个或多个维度保持不变。
这种维度最常见的是时间,即表明平稳性的数据不随时间而变化。
例如,从 9 月到 12 月,表明平稳性的数据没有发生变化。

测试集 (test set)
数据集的子集,用于在模型经由验证集的初步验证之后测试模型。
与训练集和验证集相对。

训练集 (training set)
数据集的子集,用于训练模型。
与验证集和测试集相对。

转载于:https://www.cnblogs.com/anliven/p/10264475.html

机器学习入门05 - 泛化 (Generalization)相关推荐

  1. 机器学习入门 01 —— 机器学习概述

    文章目录 系列文章 机器学习概述 1.1.人工智能概述 1 人工智能应用场景 2 人工智能小案例 3 人工智能发展必备三要素 4 人工智能.机器学习和深度学习 5 小结 1.2.人工智能发展历程 1. ...

  2. 泛化,过拟合,欠拟合素材(part2)--机器学习入门之道

    学习笔记,仅供参考,有错必纠 文章目录 机器学习入门之道 过度拟合检出 训练集和测试集 测试集验证结果 基于交叉验证的泛化能力验证 基于数据的过拟合变化 机器学习入门之道 过度拟合检出 训练集和测试集 ...

  3. 机器学习入门系列三(关键词:逻辑回归,正则化)

    机器学习入门系列三(关键词:逻辑回归,正则化) 目录(?)[+] 一逻辑回归 逻辑回归 假设表示 决策边界 代价函数 其他优化方法 多元分类 二正则化 一.逻辑回归 1.逻辑回归 什么是逻辑回归问题, ...

  4. 机器学习入门笔记(一):模型性能评价与选择

    文章目录 一.训练误差与测试误差 1.1 基本概念 1.2 训练误差 1.3 泛化误差(测试误差) 1.4 过拟合 二.模型评估方法 2.1 留出法(hold-out) 2.2 正则化 2.3 交叉验 ...

  5. 机器学习基石05:训练与测试(Training versus Testing)

    上一篇文章介绍了机器学习的可行性.本文将讨论机器学习的核心问题,严格证明为什么机器可以学习. 系列文章 机器学习基石01:机器学习简介 机器学习基石02:感知器算法(Perceptron Algori ...

  6. 机器学习入门一:基础知识

    机器学习入门一:基础知识 前言 机器学习介绍 1.什么是机器学习? 2.机器学习中的常见困难 模型的泛化[^1] (Generalization)能力 3.机器学习中数据集划分 4.机器学习中几种学习 ...

  7. 计算机书籍-机器学习入门之道

    书名:机器学习入门之道 作者:[日]中井悦司 出版社:人民邮电出版社 出版时间:2018年05月 去当当网了解 机器学习商业应用指南 人工智能入门教程 数据科学参考书 代码基于python

  8. 干货丨先搞懂这八大基础概念,再谈机器学习入门

    翻译 | AI科技大本营 参与 | 林椿眄 准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题. 这些机器学习的专业术语能 ...

  9. tensorfllow MNIST机器学习入门

    MNIST机器学习入门 这个教程的目标读者是对机器学习和TensorFlow都不太了解的新手.如果你已经了解MNIST和softmax回归(softmax regression)的相关知识,你可以阅读 ...

最新文章

  1. Docker----在Docker中部署Asp.net core2.1以及修改发布
  2. Ymodem协议学习笔记
  3. mysql取消操作系统_Linux下的MySQL简单操作(服务启动与关闭、启动与关闭、查看版本)...
  4. MyBatis 阶段总结
  5. Caffe学习 五 conv_layer与im2col
  6. 首个教育部印发的人工智能行动计划出炉:规划三步走,大学有三任务
  7. 用c#转换word或excel文档为html文件,C#实现DataSet内数据转化为Excel和Word文件的通用类完整实例...
  8. fatal error: krb5.h: 没有那个文件或目录
  9. java毕业设计_智能出差报销管理系统
  10. Valine-1.4.4新版本尝鲜+个性制定(表情包、qq头像、UI样式)
  11. 周杰 清华大学计算机学院,周杰 -清华大学自动化系
  12. 苹果电脑连接打印机操作
  13. 计算机表格复制粘贴,Excel复制表格保留原格式不会操作?超全技巧教给你!
  14. 章文嵩将离职,曾是阿里开源“赶集人”,投身开源 20 年
  15. 在 Windows 10 中如何查看系统的激活状态?
  16. scroller基础知识点
  17. 【hihoCoder】#1615 : 矩阵游戏II
  18. python01g内存读取10g文件并排序_将大文件逐行读取到Python2.7中时的内存使用
  19. 规则 | 卖家速自查!淘宝网发起专项整治,“品牌不一致”无处藏身
  20. 汽车汽配行业供应链协同管理平台一体化管理,SCM供应链提升企业竞争力

热门文章

  1. 基于 Apache Mahout 构建社会化推荐引擎
  2. WOE(weight of evidence, 证据权重)
  3. Python递归、反射、2分查找、冒泡排序
  4. 启动tomcat时遇到的问题
  5. Servlet 3.0对上传的支持
  6. 【linux】xrander/cvt自定义分辨率
  7. Eratosthenes筛法求素数
  8. 服务器温度检测软件_科技产品—整机柜服务器—产品简介
  9. python购物车代码_python简单商城购物车实例代码
  10. linux定时重启tomcat的脚本,Linux系统中的tomcat定时重启脚本