箱线图(Boxplot)也称箱须图(Box-whisker Plot),箱形图等,1977年由美国著名统计学家约翰·图基(John Tukey)发明,是一种用作显示一组数据分散情况资料的统计图,利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和两个四分位数;然后, 连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。(来自百度百科和维基百科的理解)

箱线图在数据异常值检测中应用的好处:

异常值是每一个数据科学家关注的对象,每个数据科学家都在分析异常值产生的原因,剔除异常值。
         箱形图就为我们提供了识别异常值的一个标准:异常值通常被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。这个定义来源于经验的判断,当然,可以根据数据情况进行调整。
         众所周知,基于正态分布的3σ法则或z分数方法是以假定数据服从正态分布为前提的,但实际数据往往并不严格服从正态分布。它们判断异常值的标准是以计算数据批的均值和标准差为基础的,而均值和标准差的耐抗性极小,异常值本身会对它们产生较大影响,这样产生的异常值个数不会多于总数0.7%。显然,应用这种方法于非正态分布数据中判断异常值,其有效性是有限的。

箱形图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;另一方面,箱形图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱形图识别异常值的结果比较客观。

五个统计量:

首先,需要将一组值从小到大排列。

1.最小值

就是排在第一位的值

2.第一四分位数

第一四分位数(Q1)又称为“较小四分位数”,把一组值从小到大排列并分成四等分,处于三个分割点位置的得分就是四分位数,也就是样本所有数值从小到大排列后第25%的数字。

3.中位数

中位数(Q2),又称第二四分位数,等于该样本中所有数值由小到大排列后第50%的数字。

4.第三四分位数

第三四分位数(Q2),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

5.四分位距

四分位距(InterQuartile Range,IQR) ,第三四分位数与第一四分位数的差距。

计算实例:

实例1:刚好整除

数据:8、3、15、12、14、56、40、36、27、10、11  一共11个数值

由小到大的排列结果:3、8、10、11、12、14、15、27、36、40、56

Q1的位置=(11+1)/4=3     Q1=10

Q2的位置=(11+1)/2=6     Q2=14

Q3的位置=3*(11+1)/4=9 Q3=36

实例2:不整除:

数据:8、3、15、12、14、56  一共6个数值

由小到大的排列结果:3、8、12、14、15、46

第一种计算方式不容易出错,建议用第一种

Q1的位置=(6+1)/4=1.75     Q1=3+(8-3)*(1.75-1)=6.75或者 Q1=0.25×3+0.75×8=6.75

Q2的位置=(6+1)/2=3.5       Q2=12+(14-12)*(3.5-3)=13或者 Q2=0.5×12+0.5×14=13

Q3的位置=3*(6+1)/4=5.25 Q3=15+(46-15)*(5.25-5)=22.75 或者 Q3=0.75×15+0.25×46=22.75

上下限:

1.上限

上限是非异常范围内的最大值。

四分位距IQR=Q3-Q1,上限=Q3+1.5IQR

2.下限

下限是非异常范围内的最小值。

下限=Q1-1.5IQR

箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。

上个图,直观感受下:

以上就是对箱线图的介绍,之后小白会在博文中Po出做的异常值检测的案例,欢迎大家指教~

箱线图(Boxplot)相关推荐

  1. 箱线图怎么判断异常值_原创【六西格玛工具解读】02——箱线图(Boxplot)

    为方便从事质量工作的小伙伴系统了解相关管理工具,小编整理出六西格玛工具系列的应用解读.旨在相关爱好者交流探讨,也可供报考六西格玛黄带.绿带或黑带的朋友参考.因个人水平有限,难免存在疏忽和错误,还请各位 ...

  2. 【MATLAB】进阶绘图 ( Boxplot 箱线图 | boxplot 函数 | Error Bar 误差条线图 | errorbar 函数 )

    文章目录 一.Boxplot 箱线图 1.boxplot 函数 2.代码示例 二.Error Bar 误差条线图 1.errorbar 函数 2.代码示例 一.Boxplot 箱线图 1.boxplo ...

  3. java boxplot_箱线图(boxplot)简介与举例

    直观地识别数据集中的异常值(查看离群点). 判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度). 实例: 12位商学院毕业生月起薪的样本在这里按升序重复如下. 2710 ...

  4. 箱线图boxplot

    1 主要函数 1.1 boxplot pyplot中绘制箱线图的函数为boxplot,其语法格式如下. matplotlib.pyplot.boxplot(x,notch=None,sym=None, ...

  5. matlab 画箱线图boxplot简单用法

    代码示例: data1=rand(5,1);%列向量 data2=rand(5,1);%列向量 data3=rand(5,1);%列向量 data=[data1,data2,data3]; boxpl ...

  6. Matlab箱线图Boxplot横坐标x轴设置

    修改横坐标 数组 X (6列) 1. 修改横坐标标签 boxplot(X, 'Labels', {'40 R-L', '40 L-R', '50 R-L', '50 L-R', '60 R-L', ' ...

  7. matlab横坐标轴设置,Matlab箱线图Boxplot横坐标x轴设置

    修改横坐标 数组 X (6列) 1. 修改横坐标标签 boxplot(X, 'Labels', {'40 R-L', '40 L-R', '50 R-L', '50 L-R', '60 R-L', ' ...

  8. 箱线图(Boxplot)也称箱须图(Box-whisker Plot)

    简述: 箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值.第一四分位数.中位数.第三四分位数与最大值来描述数据的一种方法.它也可以粗略地看出数据 ...

  9. python boxplot 多组_Matlab boxplot for Multiple Groups(多组数据的箱线图)

    由于matlab具有强大的计算功能,用其统计数据功能优点显而易见,这里分享使用matlab中的boxplot的一些技巧,供大家参考. 命令 格式如下 :产生矩阵X的每一列的盒图和"须&quo ...

  10. r语言echarts画箱线图_echarts学习笔记之箱线图的分析与绘制详解

    一.箱线图 box-plot 箱线图(boxplot)也称箱须图(box-whisker plot),它是用一组数据中的最小值.第一四分位数.中位数.第三四分位数和最大值来反映数据分布的中心位置和散布 ...

最新文章

  1. Bhaskar Chowdhury: Kernel build failed ...SPHINX extension error
  2. linux 安装gcc4.2,Linux操作系统下安装gcc4.2.*的方法
  3. Awk by Example--转载
  4. Tomcat实现session的代码逻辑分析
  5. python3 ftp模块_python3利用pyftpdlib模块启动ftp服务
  6. 电脑技巧:盘点常用的Win组合快捷键
  7. oracle索引分类与区分,深入理解Oracle表(6):堆组织表(HOT)和索引组织表(IOT)的区别...
  8. 【java机器学习】贝叶斯分类
  9. matlab窗函数 响应,matlab窗函数设计方案.doc
  10. 等差数列末项计算(信息学奥赛一本通-T1035)
  11. mysql cmd 删除表_MySQL查看表和清空表的常用命令总结
  12. 【Oracle】DG中物理备库、快照备库的相互转换
  13. python 中的堆栈 用列表实现
  14. EMNLP2021 | 标签推理的细粒度实体识别
  15. 数据对比,四个角度看中国公募基金的未来
  16. .NetCore对接各大财务软件凭证API——金蝶系列(2)
  17. 数据库:增删改查操作
  18. gmx-MMPBSA — error while loading shared libraries: libgfortran.so.3: cannot open shared object file
  19. MySQL具体解释(5)-----------函数超全总结
  20. 【开发日志-已归档】2020-09

热门文章

  1. ROS机器人建模与仿真(一)--URDF机器人建模
  2. 读取手机内存和SD卡的空间大小
  3. 蜗牛星际修改82583V网卡MAC地址
  4. 安卓,Android,Scanner Gun,Barcode Scanner,条码,扫描枪,二维码,键盘模式
  5. mos管h桥电机驱动电路与设计原理图-KIA MOS管 (kiaic.com)
  6. 7-2 符号配对 (20 分) c语言版
  7. 微信小程序 — tag标签设置选中效果和未选样式
  8. 【华为认证】HCIA-DATACOM技术分享-VRP系统基本操作-入门级手册(一)
  9. sFlow-RT 3.0使用
  10. Java现在好找工作吗?