这将证明统计学知识对于成功解决预测建模问题至关重要。

  1. 问题架构

  2. 数据理解

  3. 数据清洗

  4. 数据选择

  5. 数据准备

  6. 模型评估

  7. 模型配置

  8. 模型选择

  9. 模型表达

  10. 模型预测

1. 问题架构

也许预测模型问题中最困难的一点就是问题的架构。

这包括了问题类型的选择,例如是回归还是分类,也许还有这个问题的输入和输出的结构及类型。

问题的架构并不是一直都很清晰,对于某个领域的新手,可能需要对这个领域中的观察值进行一些深入探索。

而对于这个领域的专家,他们可能会以墨守成规的角度去看问题,从而受困其中,他们也需要从多角度去思考数据,才能有所收获。

统计方法在问题的架构阶段有助于对数据的探索,其中包括:

  • 探索性的数据分析。为了从数据中探索到特别的观点,从而进行的汇总和可视化。

  • 数据挖掘。自动探索数据间的结构关系和模式。

2. 数据理解

数据理解意思是对变量的分布和变量之间的关系有一个更详细的理解。

这些知识其中一部分来自于这个领域的专业知识,或者需要专业知识去解释。然而,专家和新手都会从处理领域内的真实观察值中获益。

用在理解数据的统计学模型的两类主流分支是:

  • 汇总统计。使用统计数值来汇总变量间的分布和关系的方法。

  • 数据可视化。总结变量间的分布和关系的方法需要用到可视化的方法,例如:图表,绘图和图形。

3. 数据清洗

一个领域中的观察值往往存在些瑕疵。

虽然数据是数字化的,但存在一些过程会降低数据的精确性,反过来,后续用到数据的过程及模型也会受其影响。

例如:

  • 数据破坏。

  • 数据错误。

  • 数据损失。

识别和修复这些问题数据的过程也叫做数据清洗。

统计方法应用于数据清洗中例子有:

  • 异常点检测。在数据分布中识别出离期望值很远的观察值的方法。

  • 数据填补。修复或填补观察值中损坏或缺失数据的方法。

4. 数据选择

在建模时,不是所有观察值或所有变量都是相关的。

减小这些元素的数据范围的操作对于做出预测值是很有用的,这个过程叫做数据选择。

应用在数据选择的两种统计学方法:

  • 数据采样。从较大的数据集中系统化创建较小的代表性样本的方法。

  • 特征选择。自动识别与结果变量更有相关性的变量的方法。

5. 数据准备

数据一般不会直接拿来建模。

为了改变数据的形状或结构,使它更适用于选定的问题架构或学习算法,需要对数据进行必要的转化。

数据准备也会用到统计模型,例如:

  • 缩放。例如标准化和规范化。

  • 编码。例如整数编码和独热编码。

  • 变换。例如 Box-Cox 变换那样的次方转换。

6. 模型评估

预测模型问题的一个重要部分是对学习方法进行评估。

对模型的能力的评估主要是对未经过训练的数据进行预测。

通常,训练过程和评估预测模型的规划过程叫作实验设计,这是统计方法的一个子领域。

  • 实验设计。设计系统化的实验来比较独立的变量对结果影响的方法,比如对比预测的精度来选择机器学习算法。

作为实现实验设计的一部分,为了对可利用的数据做最合理的利用同时也为了评估模型的能力,统计学方法被用来重采样一个数据集。这两个目的代表了统计模型的子领域。

  • 重采样方法。为了训练和评估预测模型而将数据集系统化分出子集的方法。

7. 模型配置

给定的机器学习算法通常有一套使学习方法能够适应特定问题的超参数。

超参数的配置通常是经验性的,而不是由分析得出的。这需要大量的实验,以评估不同超参数值对模型性能的影响。

两种统计学的子领域的方法可以用于对不同超参数配置产生的结果进行解释和比较,它们是:

  • 统计假设检验。根据对结果的假设或期望值,对观察到的结果出现概率进行量化的方法。(提出使用临界值和 p 值)

  • 估计统计。使用置信区间去量化一个结果的不确定性的方法。

8. 模型选择

给定一个预测建模问题,在众多机器学习算法中可能有一个算法最适合该问题。

选择一种方法作为解决方案的过程称为模型选择。

这可能涉及到项目参与者的自身条件以及用于评估问题的方法的估计技能能否对其给出详细解释。

与模型配置一样,可以使用两类统计方法来解释不同模型的估计技能,并用于模型选择。他们是:

  • 统计假设检验。根据对结果的假设或期望值,对观察到的结果出现概率进行量化的方法。(提出使用临界值和 p 值)

  • 估计统计。使用置信区间去量化一个结果的不确定性的方法。

9. 模型表示

一旦最终模型训练完成,可以在部署其对真实数据进行预测前先展示给相关人员查看。

展示最终模型的一个环节包括展示模型的估计技能。

估计统计领域中的方法可以通过容忍区间和置信区间对机器学习模型的评估能力的不确定性进行量化。

  • 估计统计。使用置信区间去量化一个结果的不确定性的方法。

10. 模型预测

最后,我们可以使用最终的模型来对我们不知道其输出的新数据进行预测。

作为预测的一部分,量化预测的置信度非常重要。

就像模型表示的过程一样,我们可以使用估计统计领域的方法来量化这种不确定性,例如置信区间和预测区间。

  • 估计统计。使用置信区间去量化一个结果的不确定性的方法。

总结

在本教程中,你已经了解了统计方法在整个预测建模项目过程中的重要性。

具体来讲你学到了:

  • 探索性的数据分析、数据归纳和数据可视化有助于构建预测模型以及更好地理解数据。

  • 统计学方法可以用来清洗和准备建模要用的数据。

  • 统计假设检验和估计统计可以帮助进行模型选择,并展示最终模型的技能和预测结果。

原文链接:https://machinelearningmastery.com/statistical-methods-in-an-applied-machine-learning-project/

机器学习项目中使用统计学方法的十个例子相关推荐

  1. 如何在机器学习项目中使用统计方法的示例

    摘要: 在本文中,将通过十个实例介绍在机器学习项目中起关键作用的统计学方法. 统计学和机器学习是两个密切相关的领域.两者的界限有时非常模糊,例如有一些明显属于统计学领域的方法可以很好地处理机器学习项目 ...

  2. 机器学习算法中的概率方法

    雷锋网(公众号:雷锋网) AI 科技评论按,本文作者张皓,目前为南京大学计算机系机器学习与数据挖掘所(LAMDA)硕士生,研究方向为计算机视觉和机器学习,特别是视觉识别和深度学习. 个人主页:http ...

  3. 机器学习项目中遇到的难题_现代难题:何时使用规则与机器学习

    机器学习项目中遇到的难题 Machine learning is taking the world by storm, and many companies that use rules engine ...

  4. Swiper4.5在vue项目中的使用方法

    一. 效果图 · 渐变式 · gif 动画演示: 二.首先,npm 安装 swiper 用swiper,所以要先在框架内npm install --save swiper安装它. 安装完成之后,你会在 ...

  5. 【机器学习基础】在机器学习项目中该如何选择优化器

    作者:Philipp Wirth   编译:ronghuaiyang 导读 几种流行的优化器的介绍以及优缺点分析,并给出了选择优化器的几点指南. 本文概述了计算机视觉.自然语言处理和机器学习中常用的优 ...

  6. 使用什么优化器_在机器学习项目中该如何选择优化器?

    导读 几种流行的优化器的介绍以及优缺点分析,并给出了选择优化器的几点指南. 本文概述了计算机视觉.自然语言处理和机器学习中常用的优化器.此外,你会找到一个基于三个问题的指导方针,以帮助你的下一个机器学 ...

  7. 机器学习项目中的数据预处理与数据整理之比较

    要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的 ...

  8. 凸优化 机器学习 深度学习_我应该在机器学习项目中使用哪个优化程序

    凸优化 机器学习 深度学习 This article provides a summary of popular optimizers used in computer vision, natural ...

  9. UltraWebGrid控件在开发ASP.NET项目中的使用方法和技巧(转)

    摘  要 本文主要阐述了UltraWebGrid 2005控件在实际项目开发中的应用,这里以大庆石化公司炼油厂生产调度系统为例详细描述了UltraWebGrid控件的原理以及它的使用方法和技巧,还特别 ...

  10. SpringBoot项目中使用set方法后,自动保存问题

    问题: 在springboot项目中,例如:meal表存放套餐,里面有id和name两个字段,数据有id:1 name:A套餐 id:2 name:B套餐.person表中存放人,里面有两个字段,na ...

最新文章

  1. 【Android 应用开发】Android 组件 位置坐标 属性 ( 组件位置属性 | 父容器坐标系坐标 | 窗口坐标系坐标 | 屏幕坐标系坐标 | 触摸坐标 )
  2. 神奇的bibtex插件:你的论文文献小助手
  3. NYOJ题目10505C?5S?
  4. Cache-Control常用类型
  5. SAP Spartacus 如何借助env-cmd 实现 B2B 和 B2C 功能启动的无缝切换
  6. 网络布线工程师科普铜缆光纤损耗那点事!
  7. 用python爬取东方财富网网页信息_爬取东方财富网数据的网页分析
  8. Bailian2797 最短前缀【字典树】
  9. 清理C盘内存有用的办法
  10. 安卓按键命令库教程(紫猫版)
  11. 柳传志给杨元庆的信件 (zt)
  12. [管理]ERP专业术语
  13. Java工具类 - 根据左上角坐标和右下角坐标裁剪图片
  14. 汉堡造型的动态导航菜单,非常有意思
  15. web服务器的选择 讨论
  16. java kdj macd_MACD、BOLL、KDJ 三大组合精准把握趋势与买卖!
  17. echarts 关系图graph
  18. 【机器学习】马克一个机器学习的博客
  19. [转]Unsafe at any speed: Memcpy() banished in Redmond
  20. java 烟花_Java 美丽的烟花

热门文章

  1. java横向分割面板后怎么加标签_java面板,标签,布局问题代码执行
  2. 运输层详解(二)(TCP)
  3. 简便方法搭建Harbor镜像仓库
  4. Android的TextView设置padding无效
  5. Flutter之跨组件共享状态Provider原理剖析
  6. wamp mysql中文_解决wampServer 中MySQL插入中文乱码问题
  7. Apache Flink 在蔚来汽车的应用
  8. 在你公司Code Review是一种形式,还是一种开发文化?
  9. unity创建一个简单对象的开销_SpringBoot第一篇:创建一个简单的SpringBoot
  10. java中怎么创建单列模式,java中的3种方式创建的单例模式