​机器学习已经成为了人工智能的核心研究领域之一,它的研究动机就是为了让计算机系统具有人的学习能力以便实现人工智能。目前,关于机器学习定义的说法比较多,而被广泛采用的定义是“利用经验来改善计算机系统自身的性能”​。由于“经验”的主要存在形式便是数据,因此机器学习就需要运用机器学习技术对数据进行分析。机器学习技术是机器学习的主要研究对象,包括:线性学习、支持向量机学习、神经网络学习、决策树学习、贝叶斯学习、最近邻学习等等。

机器学习课程包括几个重要部分,例如:模型评估、线性学习、支持向量学习、神经网络学习、决策树学习、贝叶斯学习、最近邻学习、无监督学习、集成学习、代价敏感学习、演化学习、强化学习(以上的顺序便是小猿君学习机器学习课程的顺序,即笔记内容的顺序)。

首先要学习的自然是模型评估,模型评估的主要内容有三部分,分别是评估方法、评估指标和比较检验。本篇笔记便是是评估方法的主要内容。

在学习得到的模型投放使用之前,通常要对其进行性能评估,为此就需要使用一个“测试集”,来测试模型对新样本的泛化能力,然后以测试集上的“测试误差”来作为“泛化误差”的近似。假设测试集是从样本真实分布中独立采样得到的,因此训练集和测试集中的样本要尽量互斥,即两个集合的样本没有交集。

将数据集分成训练集S和测试集T,通常的做法包括留出法、交叉验证法以及自助法。

留出法:

主要特征为:

√ 直接将数据集划分为两个互斥的集合。

√ 训练/测试集划分要尽可能保持数据分布的一致性。

√ 一般为若干次随机划分、重复实验取平均值(目的是减小误差)。

通常训练样本和测试样本的比例为2:1~4:1。

交叉验证法:

将数据集分层采样划分为K个大小相似的互斥子集,每次用K-1个子集的并集作为训练集,余下的子集作为测试集,最终返回K个测试结果的均值,K最常用的取值是10。

10折交叉验证示意图

将数据集D划分为K个子集同样存在多种划分方式,为了减小因样本划分不同而导致的差别,K折交叉验证通常随机使用不同的划分重复P次,最终的评估结果是这P次K折交叉验证结果的均值。

当然,当数据集D包含m个样本,另K=m,得到的便是留一法:

√ 不受随机样本划分方式的影响

√ 结果往往比较准确

√ 当数据集比较大时,计算开销难以忍受

自助法:

以自助采样法为基础,对数据集D有放回采用m次得到训练集D`,DD`用作测试集:

√ 实际模型与预期模型都使用m个训练样本

√ 约有1/3的样本没有在训练集中出现,用作测试集

√ 从初始数据集中产生多个不同的训练集,对集成学习有很大的好处

√ 自助法在数据集较小、难以有效划分训练/测试集时很有用;由于改变了数据集分布,可能引入估计偏差,在数据量足够时,留出法和交叉验证法更常用

以上就是模型评估中评估方法的全部笔记。

机器学习模型 知乎_机器学习:模型评估之评估方法相关推荐

  1. 机器学习模型 知乎_机器学习-模型选择与评价

    交叉验证 首先选择模型最简单的方法就是,利用每一种机器学习算法(逻辑回归.SVM.线性回归等)计算训练集的损失值,然后选择其中损失值最小的模型,但是这样是不合理的,因为当训练集不够.特征过多时容易过拟 ...

  2. 机器学习模型 知乎_机器学习中有哪些模型?

    AI主要的作用就是利用计算机模拟各种生物智能来解决问题,生物智能的多样性造就了计算机模拟智能的多样性,但是不管模拟的智能是什么,整个处理的过程都是相似的,都需要把模拟的智能通过数学建模给抽象出来,找到 ...

  3. 机器学习模型 知乎_知乎CTO李大海:谢邀,来分享下内容社区的AI架构搭建与应用...

    谢邀!知乎 CTO 来分享下内容社区的 AI 架构搭建与应用. 「在信息爆炸的互联网海洋中,有价值的信息仍然是稀缺的」.知乎的诞生源于这样一个非常简单的初心. 而在挖掘真正有价值的信息过程中,知乎很好 ...

  4. 机器学习模型 知乎_算法有没有价值观?知乎内容推荐算法解析

    [IT168 技术]今年,我们已经听到了多家内容平台整改的消息,对于标题党.蹭热点等行为,用户早已经见怪不怪.同样是知识分享平台,知乎倒是躲过了每一次整改,肯定有人会说是幸运,也肯定有人会从理性的角度 ...

  5. 机器学习模型定点化_机器学习模型的超参数优化

    引言 模型优化是机器学习算法实现中最困难的挑战之一.机器学习和深度学习理论的所有分支都致力于模型的优化. 机器学习中的超参数优化旨在寻找使得机器学习算法在验证数据集上表现性能最佳的超参数.超参数与一般 ...

  6. 评估模型如何建立_建立和评估分类ML模型

    评估模型如何建立 There are different types of problems in machine learning. Some might fall under regression ...

  7. saspython知乎_评分模型效用度量指标如何解析?(含Python、R、SAS代码)

    大家好,小编来更新一篇有关评分模型开发后各种衡量模型效用指标的文章,片面之处,欢迎大家来私信指教. 模型分数效用指标 对于训练出来的Score Model,需要一系列指标对Model进行关于稳定性.区 ...

  8. 机器学习线性回归学习心得_机器学习中的线性回归

    机器学习线性回归学习心得 机器学习中的线性回归 (Linear Regression in Machine Learning) There are two types of supervised ma ...

  9. 机器学习解决什么问题_机器学习帮助解决水危机

    机器学习解决什么问题 According to Water.org and Lifewater International, out of 57 million people in Tanzania, ...

最新文章

  1. shell中执行脚本并显示到终端和保存到日志文件中
  2. 【NLP】文本自动摘要任务的心得总结
  3. 理解并演示:思科的netflow功能(200-120新增考点)
  4. Linux 进程管理剖析--转
  5. 高等数学:第十二章 微分方程(2)一阶线性非齐次微分方程、全微分方程、可降阶的微分方程
  6. 同源策略_如何支持跨域
  7. plsql打开sql窗口快捷键_巧用Navicat for MySQL的快捷键
  8. 诗与远方:无题(八十四)- 自己醉了
  9. robust scene text recognition with automatic rectification
  10. meson和pkg-config
  11. 计算机系统与维护专科毕业论文,计算机系统维护毕业设计论文
  12. 学习java数组的练习代码
  13. BUUCTF RSA(二)
  14. Android TextView中 代码字体加粗方法
  15. 马尔科夫链的一个应用实例
  16. Proteus 网络名的添加
  17. 机器学习-线性回归 原理详解
  18. 为什么学会了结构化思维,还是不会沟通?
  19. 我的左脚疼,你的右脚会疼吗?
  20. H5的新特新及API

热门文章

  1. 下载oracle修复补丁下载,Oracle数据库修复工具下载_FROMBYTE Reconstructor for Oracle官方版下载[修复软件]-下载之家...
  2. 设置PLSQ 连接oracle数据库
  3. H5 自动播放背景音频,兼容安卓和苹果手机, ios createInnerAudioContext 无法自动播放解决
  4. 监听UIWebView点击视频播放的事件
  5. 【Android】ActionBar的使用(1)
  6. Spring Boot 2 快速教程:WebFlux 快速入门(二)
  7. 如何利用业余时间提升自己
  8. ES6深拷贝与浅拷贝
  9. 获取BT节点信息bittorrent-discovery
  10. MySQL , MHA , Haproxy 配置