学习笔记

目录

箱形图

价值

局限性

Python画图


箱形图

如下灰色框里的就是箱形图(英文:Box plot):又称为盒须图盒式图盒状图箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。

箱形图最大的优点就是不受异常值的影响,可以以一种相对稳定的方式描述数据的离散分布情况。

五数概括法:即用下面的五个数来概括数据(最小值;第1四分位数(Q1);中位数(Q2);第3四分位数(Q3);最大值),箱形图与之类似。

举个栗子:num=[1,2,3,4,5,6,7,8]

中位数Q2=4.5

下四分分位数Q1=2.75:是怎么计算出来的呢?首先序列长度n=8,(1+n)/4=2.25,说明上四分位数在第2.25个位置数,实际上这个数是不存在的,但我们知道这个位置是在第2个数与第3个数之间的。假设从第2个数到第3个数之间是均匀分布的。那么第2.25个数就是第二个数*0.25+第三个数*0.75,即2*0.25+3*0.75=0.5+2.25=2.75。 
下四分位数Q3=6.25:这个下四分位数所在位置计算方法同上,只不过是(1+n)/4*3=6.75,这个是个介于第六个位置与第七个位置之间的地方。对应的具体的值是0.75*6+0.25*7=6.25。

四分位距IQR=Q3-Q1,上限=(Q3+1.5IQR,max)取最小,下限=(Q1-1.5IQR ,min)取最大。

异常值:比如num=[1,2,3,4,5,6,7,8,20],20会被识别为异常值。

价值

序号 价值 备注
1 直观明了地识别数据批中的异常值 箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。
2 利用箱线图判断数据批的偏态和尾重

对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数);

而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。

3 利用箱线图比较几批数据的形状

同一数轴上,几批数据的箱线图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便昭然若揭。如上图,可直观得看出第三季度各分公司的销售额大体都在下降。

import numpy as np
import pandas as pd
import matplotlib.pyplot as pltdata = {'China': [1000, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2500],'America': [1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100],'Britain': [1000, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000],"Russia": [800, 1000, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900]
}df = pd.DataFrame(data)df.plot.box(title="Consumer spending in each country")
plt.grid(linestyle="--", alpha=0.3)
plt.show()

各国的消费(代码来源于https://www.cnblogs.com/wwxbi/p/9032248.html)

局限性

不能精确地衡量数据分布的偏态和尾重程度;对于批量比较大的数据,反映的信息更加模糊以及用中位数代表总体评价水平有一定的局限性

Python画图

在pyton命令行直接运行就OK

import numpy as np
import pandas as pd
import matplotlib.pyplot as pltdata = [1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100]df = pd.DataFrame(data)
df.plot.box(title="hua tu")
plt.grid(linestyle="--", alpha=0.3)
plt.show()

箱形图描述数据

五数概括法:描述数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as pltdata = [1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100]
df = pd.DataFrame(data)
print(df.describe())
count    10.000000    # 条数
mean   1650.000000    # 均值
std     302.765035    # 标准差
min    1200.000000    # 最小值
25%    1425.000000    # 下四分位
50%    1650.000000    # 中位数
75%    1875.000000    # 上四分位
max    2100.000000    # 最大值

箱形图(python画箱线图)相关推荐

  1. matlab怎么画箱线图群,[转载]Matlab如何画箱线图群组

    data = rand(20,24) month = repmat({'jan' 'feb' 'mar' 'apr' 'may' 'jun' 'jul' 'aug' 'sep' 'oct' 'nov' ...

  2. matlab能给图像编组么,Matlab如何画箱线图群组

    data = rand(20,24) month = repmat({'jan' 'feb' 'mar' 'apr' 'may' 'jun' 'jul' 'aug' 'sep' 'oct' 'nov' ...

  3. 【数据处理】python matplotlib 画箱线图;箱线图介绍;如何画箱线图

    一.箱线图介绍 假设一组数据有n个数,将它们从小到大排列,分为四等分.位于第25%(n+1)位置的数字是第一四分位数Q1.位于第50%(n+1)位置的数字是第二四分位数Q2,也是中位数.位于第75%( ...

  4. 用python画小花_如何用python制作箱线图

    hi,我小花花又来了 箱线图,一种被广泛应用在数据可视化上的图表,它可以用来反映一组或多组连续型定量数据分布的中心位置和散布范围,因形状如箱子而得名.它最大的优点是可以不受异常值的影响,能够准确稳定地 ...

  5. 箱线图入门,一文看懂箱线图,matplotlib画箱线图

    什么是箱线图? 我们画箱线图的目的其实是去查看数据分布的离散程度. 上图将箱线图的重要部分都标出来了.对于箱线图来说,图中会有的要素有: 最大值 Q3(大于75%数据的位点) 中位数 Q1(大于25% ...

  6. python画k线图_python画k线图

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! import datetime import pandas_datareader ...

  7. boxplot用法 python,[Python画图笔记]利用Python画箱型图boxplot

    [Python画图笔记]利用Python画箱型图boxplot [Python画图笔记]利用Python画箱型图boxplot 最近在学习使用Python画图,想用subplot画两幅箱型图,分别用来 ...

  8. 画箱线图_箱线图的N种画法

    图中标示了箱线图中每条线和点表示的含义,其中应用到了分位数的概念 线的主要包含五个数据节点,将一组数据从大到小排列,分别计算出他的上边缘(Maximum),上四分位数(Q3),中位数(Median), ...

  9. MATLAB boxplot 修改箱子线型、设置箱子颜色、不同长度数据画箱线图、中位线改成黑色、箱线图虚线改实线

    效果图:1.train和test样本数据数量不一样:2.上下端横线去掉,中心线变为实线:3.分组修改颜色:4.指定每个箱子.每个组的位置 网上介绍 boxplot的文章已经很多了,自己试了一天总结出来 ...

  10. Python数据分析箱线图

    [小白从小学Python.C.Java] [Python-计算机等级考试二级] [Python-数据分析] Python数据分析箱线图 [太阳]选择题 箱线图不可以展现以下哪一项. A选项:最小值 B ...

最新文章

  1. 由“递归遍历二叉树”引发的思考
  2. LiveVideoStack线上交流分享 ( 四 ) —— 面向QoE的感知视频编码
  3. 研究生计划-心得征程
  4. Java堆溢出,虚拟机栈和本地方法栈溢出
  5. Ubuntu 11.10搭建和配置Nagios
  6. 第二阶段团队冲刺第九天
  7. 数码相机与计算机接口,数码相机怎么连接电脑
  8. python创意实用案例-9个 Python 实用案例分享
  9. 在Seismic.NET下用最少的语句写出一个剖面显示程序
  10. JavaScript 学习笔记4
  11. 基于Arduino的双向交通灯系统
  12. 天正电气lisp是什么文件_天正电气——那些隐蔽却好用的功能
  13. springboot实现word转pdf
  14. 当文件夹访问被拒绝,需要权限来执行此操作怎么办?
  15. 嵌入式了解 以及学习路线
  16. JavaWeb项目实战 - SpringBoot日记本系统(第一期)
  17. 短视频入门,第一步应该如何做?超详细,3分钟学会轻松上手
  18. 通俗理解拉普拉斯算子(Laplace)
  19. 关于使用PyQt5时报错This application failed to start because no Qt platform plugin could be initialized及后续问题
  20. ActiveSync与设备连接

热门文章

  1. 读易[12]·如何做好职业规划(乾卦)
  2. 缘分,有时就在一刹那
  3. 第三章 原位正三和弦的连接
  4. linux grep,sed和awk常用操作
  5. dhtmlx-Gantt(甘特图) 学习开发手册--第一章
  6. java和ssm开发的医院体检预约系统有论文
  7. [软件测试] - No.1 Fault Error Failure 区别
  8. 多目标进化算法详细讲解及代码实现(样例:MOEA/D、NSGA-Ⅱ求解多目标(柔性)作业车间调度问题)
  9. IFM分量包络解调分析MATLAB,[原创]数据包络分析(DEA)简介
  10. ipad和iphone切图_如何在iPhone和iPad上使用触控板模式选择文本