摘要: 在本文中,将通过十个实例介绍在机器学习项目中起关键作用的统计学方法。

统计学和机器学习是两个密切相关的领域。两者的界限有时非常模糊,例如有一些明显属于统计学领域的方法可以很好地处理机器学习项目中的问题。事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。

在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。这将证明,统计学的有效知识对解决预测建模问题是必不可少的。

1、问题框架

在预测建模问题中,影响最大的可能就是问题框架了。它要对问题类型做不同的选择,例如选择回归或分类,以及问题的输入输出的结构和类型。

问题框架并不总是显而易见的。对于该领域的初入门者,需要对领域的观察发现结果进行深入研究。而对于那些总是从传统角度看待问题的领域专家来说,则需要从多角度考虑数据。

在构思问题框架时统计学方法能够帮助探索数据,包括:

·探索性数据分析:通过总结和可视化探索数据的ad hoc视图。

·数据挖掘:自动发现数据中的结构化关系和模式。

2、数据理解

数据理解意味着要对变量的分布和变量之间的关系有一个深入的了解。这些知识有些来自领域的专业知识,或者需要专业知识来解释。然而,不论是领域专家还是新手都是从这个领域的观察资料中获益。

统计方法的两大分支可用于帮助理解数据:

·汇总统计:该方法使用统计量总结变量之间的分布和关系。

·数据可视化:该方法使用可视化方法(如图解、散点图、曲线图)来总结变量之间的分布和关系。

3、数据清理

通过直接观察发现的成果,往往不能作为最原始的数据。因为尽管数据是数字化的,它还是会受到进程的影响损害数据保真度,并且反过来这些数据还会对下游进程或模型造成影响。

一些例子包括:

·数据损坏。

·数据错误。

·数据丢失。

识别和修复数据问题的过程被称为数据清理。

统计学中有些方法可用来进行数据清理,例如:

·异常点检测:识别分布中远离预期值的异常值。

·归责:修复或填充观察结果中的损坏值或缺失值。

4、数据选择

在建模时,并非所有的观察值或所有的变量都是相关的。

将数据范围不断缩小,直到剩余元素对预测结果最有效的过程称为数据选择。

用于数据选择的两种统计方法为:

·数据样本:系统地从较大数据集中创建小的具有代表性的样本。

·特征选择:自动识别与输出结果最相关的变量。

5、数据准备

通常数据是不能直接用于建模的。所以为了匹配已选好的问题框架或学习算法,要对数据进行一些转换来改变数据的形状或结构。

可使用以下统计方法进行数据准备:

·扩展:如标准化、规范化等方法。

·编码:类似整数编码和热编码的方法。

·变换:类似Box-Cox方法那样的功率转换方法。

6、模型评估

预测建模问题的关键是评估学习方法,当在训练模型中对没见过的数据进行预测时,需要对模型的技能进行评估。这种训练和评估预测模型的过程称为实验设计。

·实验设计:该方法能够通过设计系统实验来比较独立变量对输出结果的影响,如机器学习算法的选择对预测精度的影响。

有些实验设计的方法可以重新采样数据集,从而更经济的使用数据来预估模型技能。

·重采样方法:为了训练和评估预测模型,系统地将数据集分成子集的方法。

7、模型配置

一个给定的机器学习算法通常具有一套超参数,通过超参数实现对特定问题量身定制学习方法。超参数的配置本质上是经验性的而不是分析性的,所以需要大量实验来评估不同超参数值对模型技能的影响。

使用统计的两个子领域之一对不同超参数配置之间的结果进行解释和比较,即:

·统计假设检验:该方法能在给定结果的假设或预期的情况下,量化观察结果的可能性。

·估算统计:能够用置信区间量化结果的不确定性。

8、模型选择

众多机器学习算法中的某一个也许刚好适用于给定的预测建模问题。所以,选择一种方法作为解决方案的过程称为模型选择。这可能会涉及到一套标准,不仅要考虑项目利益相关方,还有对问题评估方法预测技巧的要求。

可以使用与模型配置一样的两类统计方法来解释不同模型的估算技能,即:统计假设检验和估算统计方法,从而实现模型选择。

9、模型表示

一旦最终模型得到训练,那它基于真实数据部署后就可以进行实际预测,并呈现出最终结果。

最终,模型表示的一部分包括展示模型的评估技能。

估计统计领域的一些方法可以通过使用容忍区间和置信区间,达到量化机器学习模型评估技能的不确定性。

·估计统计。该方法通过置信区间量化模型技能的不确定性。

10、模型的预测

最后,是时候使用最终模型对我们不知道的真实结果预测新数据了。预测中非常重要的一部分是量化预测的可信度。

我们可以使用与模型表示一样的估计统计方法来量化这种不确定性。

总结

通过本文,你应该了解到了统计方法在整个预测建模项目过程中的重要性。

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《10 Examples of How to Use Statistical Methods in a Machine Learning Project》

作者:Jason Brownlee

译者:奥特曼,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

原文链接

如何在机器学习项目中使用统计方法的示例相关推荐

  1. 机器学习项目中遇到的难题_现代难题:何时使用规则与机器学习

    机器学习项目中遇到的难题 Machine learning is taking the world by storm, and many companies that use rules engine ...

  2. 统计学笔记——大气科学中的统计方法——简介

    好久没更新了,今天来做下读书笔记.看了下"Statistical Methods in the Atmospheric Sciences"(<大气科学中的统计方法>), ...

  3. 机器学习算法中的概率方法

    雷锋网(公众号:雷锋网) AI 科技评论按,本文作者张皓,目前为南京大学计算机系机器学习与数据挖掘所(LAMDA)硕士生,研究方向为计算机视觉和机器学习,特别是视觉识别和深度学习. 个人主页:http ...

  4. Swiper4.5在vue项目中的使用方法

    一. 效果图 · 渐变式 · gif 动画演示: 二.首先,npm 安装 swiper 用swiper,所以要先在框架内npm install --save swiper安装它. 安装完成之后,你会在 ...

  5. 【机器学习基础】在机器学习项目中该如何选择优化器

    作者:Philipp Wirth   编译:ronghuaiyang 导读 几种流行的优化器的介绍以及优缺点分析,并给出了选择优化器的几点指南. 本文概述了计算机视觉.自然语言处理和机器学习中常用的优 ...

  6. 机器学习项目中的数据预处理与数据整理之比较

    要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的 ...

  7. 使用什么优化器_在机器学习项目中该如何选择优化器?

    导读 几种流行的优化器的介绍以及优缺点分析,并给出了选择优化器的几点指南. 本文概述了计算机视觉.自然语言处理和机器学习中常用的优化器.此外,你会找到一个基于三个问题的指导方针,以帮助你的下一个机器学 ...

  8. 凸优化 机器学习 深度学习_我应该在机器学习项目中使用哪个优化程序

    凸优化 机器学习 深度学习 This article provides a summary of popular optimizers used in computer vision, natural ...

  9. UltraWebGrid控件在开发ASP.NET项目中的使用方法和技巧(转)

    摘  要 本文主要阐述了UltraWebGrid 2005控件在实际项目开发中的应用,这里以大庆石化公司炼油厂生产调度系统为例详细描述了UltraWebGrid控件的原理以及它的使用方法和技巧,还特别 ...

最新文章

  1. Go的变量到底在堆还是栈中分配
  2. VirtualBox虚拟机后台运行
  3. Poptset学员之牛奶咖啡糖
  4. 团队行为心理学读书笔记(3)领导力背后的行为心理学
  5. Facts have proved that this is more popular than his article
  6. 测量两台机器的的网络延迟和时间差
  7. CLR VIA C#(一)
  8. linux单网卡配置vlan,三线机房Linux服务器单网卡配多VlanIP
  9. 【COCOS2DX-LUA 脚本开发之十二】Hybrid模式-利用AssetsManager实现在线更新脚本文件lua、js、图片等资源(免去平台审核周期)...
  10. 急需小米笔记本TM1709最新版BIOS Firmware,当前是版:RMRKB5R0P0504 日期:2018/09/04 多谢帮助!
  11. Echarts formatter综合写法
  12. 怎么用PHP实现检测网站文章是否被收录
  13. 论文中sota_CVPR 2020最佳学生论文分享回顾:通过二叉空间分割(BSP)生成紧凑3D网格...
  14. Excel学习日记:L19-定义名称Indirect函数下拉选单设定
  15. 教你快速分辨有什么国际邮箱靠谱,世界十大邮箱排名分享
  16. 最新技术栈Vue3+TS基于唯杰地图开发的CAD云端图纸管理平台案例代码开源了
  17. 每天都在用电脑、玩手机的你,现在的眼睛有多干?
  18. 打开相机拍照或从相册中选择照片
  19. 云南大学 计算机技术 调剂,云南大学调剂信息(全),希望对大家有所帮助!
  20. 电池充放电自动测试系统介绍

热门文章

  1. 转换背景色 html,html – CSS转换:淡化背景颜色,重置后
  2. c语言存储结构的实现,(C语言)栈的链式存储结构的实现
  3. 9切换中文mac_超详细的Mac重装系统教程!让重装系统变得简单起来!
  4. leetcode51 --- solveNQueens
  5. html5画布太极图,canvas实现太极图
  6. 群晖 百度网盘_海康威视联合百度网盘推出NAS私有存储 贡献带宽获积分兑网盘会员...
  7. mysql默认值无效_MySQL开发规范
  8. python编程a的x次方_「Python 面试」第四次更新
  9. 屠呦呦入选《时代周刊》100位最具影响力女性人物榜
  10. 姐妹花考上川大本硕博连读,网红兄弟一起上清华