目录

  • 一、前言
  • 二、五数概括法
    • 补充知识点
  • 三、简单案例
  • 四、意义

一、前言

在数据挖掘中,离不开数据集的问题

数据预处理我们会找到数据集中的孤立点

然后抛弃

那么怎么找到这些孤立点呢?

二、五数概括法

根据方法名称

就知道会有五个有关参数

  1. 最小值
  2. Q1(前25%的数据)
  3. Q2(即中位数,前50%的数据)
  4. Q3(前75%的数据)
  5. 最大值

大家应该还记得统计学中的正太分布吗?

就是下面这样图

正态分布代表了自然界中的太多规律

数据集中的数据分布也是如此

如果数据集中的数据越靠近中心位置

那么该数据集用于研究的效果更好

补充知识点

这里我们介绍四分位距(IQR,我更喜欢叫做四分位数差)

即IQR = Q3 - Q1

IQR的值越大表明数据集中的数据越分散

IQR的值越小表明数据集中的数据越靠近中位数

因为Q3与Q1与极值点(极大极小值)无关

所以更具有准确性。

三、简单案例

假如一项面对年轻人的产品被提出来

总得经过市场调研

最基本的就是调查问卷

年龄20岁的回答应该比50岁的回答更加有意义

所以我们有以下年龄的数据集

{13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70}

n = 27个数,那么哪些数据没有参考意义呢?

首先列出五数:

  1. min = 13
  2. 先确定位置:(n + 1)* (1 / 4) = 7
    所以Q1 = 20
  3. 先确定位置:(n + 1)* (2 / 4) = 14
    所以Q2 = 25
  4. 先确定位置:(n + 1)* (3/ 4) = 21
    所以Q3 = 35
  5. max = 70

所以IQR = Q3 - Q1 = 15

除了中间50%的数据可以用

那么还有哪些数据可以用呢?

就可以IQR来求数据中的

上边缘:

Q3 + 1.5 * IQR = 57.5

下边缘:

Q1 - 1.5 * IQR = -2.5 < 0,取0

所以数据中有效部分为[0,57.5]

对比数据集中的数据发现’70’是孤立点

即去除

四、意义

数据集中的数据肯定是存在孤立点的(噪声的)

那么我们就需要在预处理的时候去掉它

五数概括法是很简单很容易上手的一个方法

使用五数概括法来确定数据集中的孤立点相关推荐

  1. matlab五数概括与box图讲解含绘制

    在统计应用中,常用样本数据的最小值.最大值和四位数来反映变量分布的信息.称为五数概括,而盒装图则是五数概括的图形化. 盒装图基本理论讲解 上面的图形是个盒装图的一隅,从box图可以看出样本的如下特征, ...

  2. 基于STM32F407四旋翼无人机 --- 姿态解算讲解(四元数)(叉积法融合陀螺仪数据和加速度数据)(五)

    基于STM32F407四旋翼无人机 --- 姿态解算讲解(五) 姿态解算 姿态解算定义 欧拉角 四元数 四元数性质 方向余弦矩阵 四元数方向余弦矩阵 叉积法融合陀螺仪数据和加速度数据 叉积运算 一阶龙 ...

  3. 袋鼠云数据中台专栏(五):数栈,企业级一站式数据中台PaaS

    本文作者:江枫 袋鼠云CTO,花名江枫,本名宁海元. 2007年加入淘宝,曾是双十一大促技术指挥部成员,"去IOE"数据库负责人. 打造过千亿级实时日志平台.手机淘宝日志分析创始人 ...

  4. shell取得文件行数6法

    总结了一下有六种方法: 现在有一个a文件,共有32行 第一种: # awk '{print NR}' a|tail -n1 32 第二种: # awk 'END{print NR}' a 32 第三种 ...

  5. [XJTUSE 算法设计与分析] 第五章 回溯法

    第五章 回溯法 填空题会有代码填空,大题会手动回溯 学习要点 理解回溯法的深度优先搜索策略. 掌握用回溯法解题的算法框架 (1)递归回溯 (2)迭代回溯 (3)子集树算法框架 (4)排列树算法框架 5 ...

  6. 数造未来——探索大数据的应用价值

    文章讲的是数造未来--探索大数据的应用价值,当全世界都还在热议大数据甚至有些质疑大数据的时候,早有一批大数据的先驱已经开始通过实际行动去证明,大数据的应用价值.甚至我们开始畅想,大数据会营造出一个怎样 ...

  7. 产品经理高质量产物的五步思维法

    产品经理高质量产物的五步思维法 职场中经常会遇到以下场景: 领导安排工作 跨部门会议 技术探讨需求问题 你遇到这些场景后,接下来会有哪些行为呢? 其实,每个场景的本质,都是解决一个或多个问题,找到最合 ...

  8. 企业五年后卓越或者死亡,数据战略是关键!

    一.企业清晰的数据战略已经刻不容缓 上个月,欧盟委员会于2020年2月19日发布欧盟数据战略,积极推进数字化转型工作,打造欧盟单一数据市场,目的是强化技术主权,提升企业竞争力. 2020年3月,中共中 ...

  9. 主成分分析法案例_机器学习理论(五)主成分分析法

    (小小:机器学习的经典算法与应用) (小小:机器学习理论(一)KNN-k近邻算法) (小小:机器学习理论(二)简单线性回归) (小小:机器学习理论(三)多元线性回归) (小小:机器学习理论(四)线性回 ...

最新文章

  1. 用 Python 动态可视化,看看比特币这几年
  2. 打patch p0 p1区别
  3. Sql2000命名中的’_’好象会引发问题
  4. api 微信小程序组件库colorui_2020最全微信小程序UI组件库合集
  5. Canvas绘制星球轨迹移动
  6. 指定的文件不是虚拟磁盘 没有快照_vmware workstaiton 15 虚拟机克隆(4)
  7. php smarty分页原理,SMARTY分页详解
  8. JavaFX加载界面报错:fxcontroller can only be applied to root element?
  9. 获取Kubernetes容器上下文环境
  10. 动态绑定dropdownlist --开始拣.NET
  11. 购买云服务器时如何选择适合的数据库?
  12. iOS 开发中 通过AVAssetWriter将录像视频写到指定文件
  13. 程序设计c语言作业章春芳,C语言说课PPT
  14. dell perch330_使用Perch CMS构建快速,可扩展的网站
  15. C/C++中的五个预定义的宏名
  16. 计算机夏令营英语面试,2016北航计算机夏令营的经验
  17. 国外 PhD 多读几年有哪些利弊?
  18. [PPTX解析] 图片效果算法篇:设置透明色
  19. windows搭建go语言环境eclipse+go
  20. unity简单复刻无敌破坏王

热门文章

  1. linux python2升级到python3(源码编译安装)
  2. 《机器学习 公式推导与代码实现》随书PPT示例
  3. 获取股票历史数据——数据采集(1)
  4. 有人知道要怎么用c++提取出文本里面的信息吗,例如把这个表格里的所有住户账号,密码提取出来
  5. 【C语言】扫雷游戏(递归实现展开一片)8000字详细教学
  6. 万历名士袁宏道的自在人生——独抒性灵,不拘格套
  7. 使用fetch上传文件失败的解决方案
  8. 从Watson看AI平台的架构设计
  9. IEEE检验格式出现字体嵌入问题
  10. 如何开好项目启动大会