机器学习关键步骤(四)

机器学习有四个关键步骤。

(1) 数据准备,理和准备待分析的数据。
(2) 算法选择,根据需求挑选算法为数据建立模型。
(3) 参数调优,优化模型结果。
(4) 模型评估,根据准确度评价模型选出最好的。

4 评价模型

建好模型之后,必须对它进行评价。经常会使用一些评价指标来比较模型的预测准确度。对于如何定义和惩罚不同类型的预测误差,不同的评价指标各不相同。

接下来,将探讨 3 种常用的评价指标:预测准确率、混淆矩阵和均方根误差。根据学习目标的要求,有时甚至会设计新的评价指标,以便针对特定类型的误差进行惩罚和规避。

4.1 分类指标

关于预测准确率,最简单的定义就是正确的预测所占的比例。回到表的例子,对买鱼与否的预测准确率,可以这样表述:在预测某位顾客是否买鱼时,模型在 90% 的时间里都是对的。虽然预测准确率这个指标很容易理解,但无法通过它得知预测误差是如何产生的。

混淆矩阵可以进一步了解预测模型的优缺点。

从表可知,虽然模型的总体分类准确率是 90%,但相比于对顾客买鱼的预测,它对不买鱼的预测更准确。此外,假正类型和假负类型的预测错误一样多,分别有 5 个错误。

表混淆矩阵揭示了模型在预测买鱼与否时的准确度

在某些情况下,分辨预测错误的类型至关重要。以地震预测为例,假负类型的错误(即预测不会发生地震,实际上却发生了)所付出的代价要远高于假正类型的错误(即预测会发生地震,实际上却未发生)。

4.2 回归指标

由于回归预测使用连续值,因此误差一般被量化成预测值和实际值之差,惩罚随误差大小而不同。均方根误差是一个常用的回归指标,尤其可用于避免较大的误差:因为每个误差都取了平方,所以大误差就被放大了。这使得均方根误差对异常值极其敏感,对这些值的惩罚力度也更大。

4.3 验证

指标并不能完整地体现模型的性能。过拟合模型在面对当前数据时表现良好,但是在面对新数据时可能表现得很糟糕。为了避免出现这种情况,必须使用合适的验证过程对模型进行评价。

验证是指评估模型对新数据的预测准确度。然而,在评估模型时,并不一定非要使用新数据,而是可以把当前的数据集划分成两部分:一部分是训练集,用来生成和调整预测模型;另一部分是测试集,用来充当新数据并评估模型的预测准确度。最好的模型,针对测试集所做的预测一定是最准确的。为了使验证过程行之有效,需要不带偏差地把数据点随机分派到训练集和测试集中。

然而,如果原始数据集很小,可能无法留出足够的数据来形成测试集,因为当用于训练模型的数据较少时,准确度无法得到保障。为了解决这个问题,有人提出了交叉验证这个方法:使用同一个数据集进行训练和测试。

交叉验证最大限度地利用了可用的数据,它把数据集划分成若干组,用来对模型进行反复测试。在单次迭代中,除了某一组以外,其他各组都被用来训练预测模型;然后,留下的那组被用来测试模型。这个过程重复进行,直到每一组都测试过模型,并且只测试过一次,如图所示。

图数据集的交叉验证过程。数据集被划分成 4 组,模型最终的预测准确度是 4 个结果的平均值

由于每次迭代用来做预测的数据各不相同,因此每次得到的预测结果都不同。综合考虑这些差异,就可以对模型的实际预测能力做出更为可靠的评估。对所有评估结果取平均值,即为预测准确度的最终评估值。

如果交叉验证结果表明模型的预测准确度较低,可以重新调整模型的参数或者重新处理数据。

机器学习关键步骤(四)相关推荐

  1. 机器学习关键步骤(一)

    机器学习关键步骤(一) 机器学习有四个关键步骤. (1) 数据准备,理和准备待分析的数据. (2) 算法选择,根据需求挑选算法为数据建立模型. (3) 参数调优,优化模型结果. (4) 模型评估,根据 ...

  2. 机器学习关键步骤(二)

    机器学习关键步骤(二) 机器学习有四个关键步骤. (1) 数据准备,理和准备待分析的数据. (2) 算法选择,根据需求挑选算法为数据建立模型. (3) 参数调优,优化模型结果. (4) 模型评估,根据 ...

  3. ML之回归预测:机器学习中的各种Regression回归算法、关键步骤配图

    ML之回归预测:机器学习中的各种Regression回归算法.关键步骤配图 目录 机器学习中的各种回归算法 1.回归算法代码 2.各种回归算法 3.各种回归算法大PK 机器学习中的各种回归算法 1.回 ...

  4. 线上营销如何提高转化率?做好这四个关键步骤

    如今数字化转型是企业发展的必然趋势,口罩时代带来的多重危机下,不少企业纷纷转向线上,但仍有半数进销存行业以线下市场为主. 例如家具行业.装修行业.美妆行业等.这些行业纷纷转战线上促单. 诚然,如今各行 ...

  5. 机器学习关键的几门课程_互联网上每门机器学习课程,均按您的评论排名

    机器学习关键的几门课程 by David Venturi 大卫·文图里(David Venturi) 互联网上每门机器学习课程,均按您的评论排名 (Every single Machine Learn ...

  6. 一天1个机器学习知识点(四)

    陆陆续续整理的机器学习的知识点,资料大多数来自网上,不做盈利目的,如果侵权请告知即删!如果文章中有错误的地方还请各位同学指正,,一起学习,一起进步! 每天都在更新中,记得收藏,每天进步一点点!! 一天 ...

  7. 6个关键步骤,手把手教你构建图模型

    导读:图模型作为当前流行的信息处理加工技术,自提出以来,迅速在学术界和工业界得到了普及,在智能推荐.决策分析等方面有着广泛的应用. 作者:华为公司数据管理部 来源:大数据DT(ID:hzdashuju ...

  8. 云端迁移需谨遵四大关键步骤

    当越来越多的企业发现,使用云有诸多好处时,他们开始逐步把重要的工作负载大批迁移到云端.尤其在跨云架构推动下,云迁移成为最佳选择. 起初,企业为了确保信息系统拥有足够的安全性和灵活性,都选择购买网络.服 ...

  9. 构建物联网网络的4个关键步骤简介

    在首次构建物联网网络时经常犯的最大错误是低估了物联网网络设计,运营和管理的复杂性 - 并且相信传统网络技术和参与模型将支持大规模物联网部署的要求. 建立物联网网络并不像听起来那么容易,而且当面对大规模 ...

最新文章

  1. Linux 受到开发者偏爱的 9 个理由!
  2. “/”应用程序中的服务器错误
  3. Linux Kernel中断下半部分实现的三种方式
  4. oracle database 12cr2 使用 dbms_stat 采集统计信息
  5. activemq和jms_带有ActiveMQ和Maven的JMS Sender应用程序
  6. [html] 能否做到禁止打印页面?如果可以那要怎么做?
  7. 甲骨文推出新的云服务 协助企业顺利迁移至云端
  8. 重构手册阅读笔记:重构的含义
  9. 计算机未来发展趋势四个字概括,授课教师-世界大学城.doc
  10. 一步步的教你安装UChome (UChome 安装教程)
  11. 调用新浪微博开放平台接口
  12. 说说vector的emplace_back和push_back
  13. 杭电校赛(油菜花王国)
  14. 60903鱼植共生缸
  15. Leetcode典型题解答和分析、归纳和汇总——T101(对称二叉树)
  16. 利用jQuery UI为CMS网站实现拖拽布局效果,秒杀table布局
  17. 上班在群里摸鱼,逮到一个字节10年测试开发,聊过之后羞愧难当...
  18. 用DOS命令关闭端口
  19. 粗读PSIGAN: Joint Probabilistic Segmentation andImage Distribution Matching for UnpairedCross-Modali
  20. 精通正则表达式学习记录 第一章 正则表达式入门

热门文章

  1. mxgraph进阶(三)Web绘图—mxGraph项目实战
  2. 推荐10本程序员必读的书籍!
  3. 请求头(request headers)和响应头(response headers)解析
  4. 一年外包经验入职字节
  5. 【JS】JSON.stringify( )
  6. 系统自带测试软件,Windows7自带软件测试RAID系统
  7. 从零开始的Linux 阿里云ECS服务器搭建、FileZilla和宝塔
  8. php++think命令报错,think命令行
  9. LogiScope100MHZ 16通道逻辑分析仪
  10. C语言计算机二级(考点)