目录

一、箱形图的介绍

二、六大因数

三、Box plot的应用

四、箱形图的优劣势

五、图形拓展

一、箱形图的介绍

箱形图又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理,快速识别异常值。箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。箱形图不受异常值的影响,这很重要。

箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。

John Tukey先生1915年出生于美国麻省的新贝德福德。他22岁的时候在布朗大学获得了硕士学位,之后又在普林斯顿大学拿到了化学博士。有趣的是,他并没有直接开始让他青史留名的统计学工作,而是在二战期间进入了火控研究室,在那里,大量武器相关的研究最终都转而需要先解决统计学问题。从此,Tukey改变了自己的人生方向,一代统计学大师即将出现。

二、六大因数

我们以一组序列数为例:12,15,17,19,20,23,25,28,30,33,34,35,36,37 (共14个)讲解这六大因“数

1、下四分位数Q1

等于该样本中所有数值由小到大排列后第25%的数字。

确定四分位数的位置。Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的项数。

根据位置,计算相应的四分位数(以数组为例)。

Q1所在的位置=(14+1)/4=3.75,

Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5;

2、中位数(第二个四分位数)Q2

中位数,等于该样本中所有数值由小到大排列后第50%的数字。

Q2所在的位置=2(14+1)/4=7.5,

Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5;

3、上四分位数Q3

等于该样本中所有数值由小到大排列后第75%的数字

计算方法同下分位数。

Q3所在的位置=3(14+1)/4=11.25,

Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25;

4、上限

上限是非异常范围内的最大值。

首先要知道什么是四分位距如何计算的?

四分位距(interquartile range, IQR),又称四分差。

四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR

5、下限

下限是非异常范围内的最小值。

下限=Q1-1.5IQR

6、异常值

在内限与外限之间的异常值为温和的异常值(mild outliers)

在外限以外的为极端的异常值(extreme outliers)

三、Box plot的应用

下图是不同地区某工程师的薪酬统计情况:

图中的红线显然是各个城市中游水平的工程师能够获得的薪资标准,上边的蓝线区间为中上游,下边的蓝线区间为中下游,以此类推。简而言之,样本人群被四等分了。

上海、北京、深圳的工程师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数(Q2)的位置更高。西安、长沙、天津则不利于工程师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制

四、箱形图的优劣势

1.直观明了地识别数据批中的异常值

上文讲了很久的识别异常值,其实箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。

2.利用箱线图判断数据批的偏态和尾重

对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数);

而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。

3.利用箱线图比较几批数据的形状

同一数轴上,几批数据的箱线图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便昭然若揭。如上图,可直观得看出第三季度各分公司的销售额大体都在下降。

但箱形图也有他的局限性,比如:不能精确地衡量数据分布的偏态和尾重程度;对于批量比较大的数据,反映的信息更加模糊以及用中位数代表总体评价水平有一定的局限性。

五、图形拓展

一些柱状图中作者会添加误差线来给数值增加误差范围,看起来和箱线图有点相似。箱子虽好,别分不清!误差线可以用标准差(平均偏差)或标准误差,一般通用的是这两个

K 线图,原名蜡烛图,又称阴阳图、棒线、红黑线或蜡烛线,常用于展示股票交易数据。虽然和箱形图长得有点像,但二者几乎是完全不同的图表。

数据分析的法宝---箱形图(Box Plot)相关推荐

  1. 箱形图box plot 和 小提琴图violin plot

    一.箱形图box plot 1)箱型图概念 箱形图(Box-plot)又称为盒须图.盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图.因形状如箱子而得名. 箱形图于1977年由美国著名统计学 ...

  2. R语言ggplot2可视化交互作用图(Interaction Plot):可视化不同分组(分类变量1)在不同剂量下(分类变量2)的箱图(box plot)、均值计算并连接成线图(line plot)

    R语言ggplot2可视化交互作用图(Interaction Plot):可视化不同分组(分类变量1)在不同剂量下(分类变量2)的箱图(box plot).均值计算并连接成线图(line plot) ...

  3. ggplot2箱式图两两比较_ggplot2 - 箱线图(Box - plot)

    简介 箱线图,顾明思义,是形状像箱子并展示一组或多组数据分布的统计图,被认为是一个优于柱形图的数据可视化方案,文章中指出了很多箱线图的优点. 在ggplot2 中做箱线图的图形变换是geom_boxp ...

  4. jmp怎么做合并的箱线图_如何在JMP中给箱线图(Box Plot)快速着色

    箱线图(Box-plot),是大家耳熟能详的一种显示数据分散情况的统计图.通过箱线图,我们可以很容易地比较几组数据的形状,识别数据中的异常值,锁定那些需要我们关注的异常值信息,发现解决问题的机会. 箱 ...

  5. Python使用matplotlib可视化箱图、seaborn中的boxplot函数可视化分组箱图、在箱图中添加抖动数据点(Dot + Box Plot)

    Python使用matplotlib可视化箱图.seaborn中的boxplot函数可视化分组箱图.在箱图中添加抖动数据点(Dot + Box Plot) 目录

  6. R语言ggplot2可视化:可视化箱图、在箱图中添加抖动数据点(Dot + Box Plot)、自定义抖动数据点的大小、颜色、数据点分布在箱图中间、添加主标题、副标题、题注信息

    R语言ggplot2可视化:可视化箱图.在箱图中添加抖动数据点(Dot + Box Plot).自定义抖动数据点的大小.颜色.数据点分布在箱图中间.添加主标题.副标题.题注信息 目录

  7. seaborn箱图(box plot)可视化、并且在箱图中使用三角形标注均值的位置(showmeans=True)

    seaborn箱图(box plot)可视化.并且在箱图中使用三角形标注均值的位置(showmeans=True) 目录

  8. seaborn箱图(box plot)可视化、并且使用matplotlib的meanprops函数在箱图中自定义均值标签、标签形状、标签大小、标签填充色彩、标签边缘颜色

    seaborn箱图(box plot)可视化.并且使用matplotlib的meanprops函数在箱图中自定义均值标签.标签形状.标签大小.标签填充色彩.标签边缘颜色 目录

  9. R语言ggplot2可视化:可视化分组的小提琴图(violin plot)并在分组小提琴内部嵌入箱图(box plot)

    R语言ggplot2可视化:可视化分组的小提琴图(violin plot)并在分组小提琴内部嵌入箱图(box plot) 目录

  10. R语言ggplot2可视化:箱图(box plot)可视化并且在为箱图的异常值(outlier)添加数据标签

    R语言ggplot2可视化:箱图(box plot)可视化并且在为箱图的异常值(outlier)添加数据标签 目录

最新文章

  1. [Android Pro] 有关Broadcast作为内部类时注册的一些问题
  2. 中国商业航天单轮最大融资!星际荣耀B轮获投11.925亿
  3. win7 mysql8.0.11安装教程_Win7系统安装 MySQL 8.0.11
  4. 在二维离散傅里叶变换中进行频谱平移(MATLAB::fft2shift)的作用
  5. 在循环中删除list中的元素
  6. poj 2892---Tunnel Warfare(线段树单点更新、区间合并)
  7. ACM Doing Homework again
  8. Java GUI 基础知识
  9. 华硕笔记本r414u怎么安装键盘_华硕笔记本键盘灯怎么开
  10. 前端程序员 学习书籍推荐
  11. 三菱plc 毕设_PLC入门难?怎么快速学好PLC?
  12. 查看oracle建表语句
  13. iPhone相机参数设置,苹果原相机也能拍出大片感
  14. 手机号邮箱怎么注册?邮箱登陆163登录入口
  15. pdfbox pdf转图片中的字体问题
  16. 触摸屏计算机技术参数,触摸屏硬件安装—— 触摸屏参数设置
  17. matlab调用dyna,matlab调用ansysdyna及prepost
  18. 实现图片跟随鼠标移动
  19. html div背景图片路径,css如何设置背景图片位置?
  20. 修改ubuntu命令行前面的用户名

热门文章

  1. MYSQL中的TCL语言
  2. 北大青鸟汉字注释机内码_delphi取汉字的机内码、UniCode码
  3. 微波射频学习笔记2--------传输线理论
  4. 爬虫福利二之妹子图网批量下载MM
  5. 成都双流计算机大专学校,成都双流有哪些好的职业学校?
  6. 教你轻松又简单的绘制地铁线路图
  7. 网络---协议(TCP/IP五层模型)
  8. Apache Kafka SAP
  9. Smart3D飞控地方坐标系
  10. 苹果笔记本下载视频剪辑软件pr cc 2019 for mac