内容导入:

大家好,这里是每天分析一点点。本期给大家介绍的是数据分析基础系列,主要给大家介绍的是四分位数的原理与应用,四分位数的计算方式,并基于四分位数,画出箱体图,简要介绍如何通过箱体图来检测数据离群值。结合学习成绩与收入的案例分析,内容深入浅出,案例贴合实际,文章内容适合数据分析小白。下期给大家介绍集中趋势的应用。欢迎大家关注。

概念介绍:

四分位数是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值和处在75%位置上的数值。

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距(IQR)。

如下图所示为一个示意箱线图,从这个图上我们可以读出以下的信息:

这组数据显示出:

最小值(min)=0.5。

下四分位数(Q1)=7

中位数(Med)=8.5 (一段数据从小到大排序后,处于中间位置的数)

上四分位数(Q3)=9

最大值(max)=10

平均值=8

四分位间距(interquartile range)=Q3-Q1=2

计算方式:

第一步:确定四分位数的位置。

四分位数是将数列等分成四个部分的数,一个数列有三个四分位数,设下四分位数、中位数和上四分位数分别为Q1、Q2、Q3,则:Q1、Q2、Q3的位置可由下述公式确定:

式中n表示资料的项数

第二步:根据第一步所确定的四分位数的位置,确定其相应的四分位数。

例如:某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4、15.7公斤,则三个四分位数的位置分别为: (计算四分位数需要先对数据排序)

即变量数列中的第三个、第六个、第九个工人的某种产品产量分别为下四分位数、中位数和上四分位数。即:

Q1 = 13.8公斤、Q2 = 14.6公斤、Q3 = 15.2公斤

如果没有看懂,可以关注我们的微信公众号观看视频,视频里引用大家熟悉的工资数据,来告诉大家四分位数如何计算。

具体应用:

应用一:告诉各位家长们从名次角度判定成绩好坏

现在,学校的成绩都应该已经出来了,通常,人们判定成绩的好还使用的是成绩的绝对数,也就是大家所说的成绩高低。然后按照惯例,比如60以下不合格,60-70分合格,70-80中,80-90良,90以上为优秀。但是这种方式有缺点,如果试题很难,那么优秀的人会很少,相反,如果试题简单,大多数人考的很好,优秀就没有参考价值。

今天介绍一种以相对值划分成绩的方式,首先对成绩进行排序,将其用四分位数进行划分,那我们得到的数据就是前25%,后百分之25%等的分类,当然这个分类可以通过八分位数更加细化。这种方式,避免了试题难易程度对评价的影响,也切合目前招考的风格,因为高考各校是以报考名次划线的,因此成绩的相对数要高于成绩的绝对数。

不知大家懂了没有,我们在微信公众号上传了精美小视频,帮助大家进行理解。大家感兴趣的可以关注我们微信公众号观看视频。

应用二:使用四分位数画箱体图,并判定离群值

箱体图有区分正常值与离群值的作用,与大家经常听说的3sigma原则作用相似,区别在于,3sigma原则的应用,数据必须符合正态分布,但是箱体图离群值却适用于所有分布类型的数据离群值测算。

箱体图的组成由下图所示,上边缘,是上四分位数加上1.5倍的箱体;下边缘是下四分位数减去1.5倍的箱体;上箱体为上四分位数;下箱体为下四分位数;箱体长度为上四分位数减去下四分位数。数据在上边缘以上或者下边缘以下,就称为离群值。

文字不够直观,我们在微信公众号上传了视频,详细介绍如何画箱体图进行离群值的检测。为方便大家进行代码学习,我们同时为大家准备了离群值相关案例的python代码,作为小礼物送给大家。大家感兴趣的可以关注我们微信公众号观看视频、获取资料。

想获取更多内容,请关注海数据公众号。

本期分享到这里,我们会每天更新内容,咱们下期再见,期待您的再次光临。有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

四分位数的应用——基于收入实例的箱体图与离群值规则相关推荐

  1. 【基础教程】基于Matlab画花式箱体图

    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信.

  2. 开源3d模型格式转换_将您的开源业务转换为基于收入的模型时应考虑的因素

    开源3d模型格式转换 是否可以通过一组简单的正式语言转换规则将SQL作为一种语言集成并标准化到Java中? 是的,它可以. 当总部位于瑞士苏黎世的开源公司启动名为jOOQ的新数据库抽象软件项目时, D ...

  3. 【SAP-PS笔记】结果分析方法01 基于收入的结果分析方式(Result Analysis Method)

    前言 PS中工程项目等客户型项目一般都会采用结果分析的方式结算项目的收入成本,事实上SAP提供了多达17种的结果分析方法,对应不同的业务场景与业务需求,并且绝大部分的能够被PS所使用.本文主要介绍选择 ...

  4. java克鲁斯卡尔算法_Java语言基于无向有权图实现克鲁斯卡尔算法代码示例

    所谓有权图,就是图中的每一条边上都会有相应的一个或一组值.通常情况下,这个值只是一个数字 如:在交通运输网中,边上的权值可能表示的是路程,也可能表示的是运输费用(显然二者都是数字).不过,边上的权值也 ...

  5. 基于华为云对话机器人技能平台的规则模板概述

    华为云对话机器人服务中的技能平台,向机器人服务提供了一系列即插即用的技能,可为对话机器人增加了用户配置机器人的灵活度. 在邀测的过程中,我们总结了在技能平台上使用的规则配置上的一些功能和想法,与大家分 ...

  6. R语言绘制箱体图举例图文版

    熊荣川 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 箱体图,或箱形图是科学研究.统计分析中常 ...

  7. python画厢式图_用matplotlib画箱体图(boxplot)

    画boxplot的接口为 matplotlib.pyplot.boxplot,不过在画之前,我需要好好理解一下箱体图所代表的含义和计算方法. 用一个实际的例子来说明如何画boxplot,这个例子来自w ...

  8. 箱体图如何排除异常点

    箱形图可以用来观察数据整体的分布情况,利用中位数,25/%分位数,75/%分位数,上边界,下边界等统计量来来描述数据的整体分布情况.通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在 ...

  9. 基于metpy库画T-LnP图(国内主流形式,并非斜温)

    基于metpy库画T-LnP图(国内主流形式,并非斜温) 时隔多日再次更帖,主要原因是一直在画T-LnP,想画一个好的,这一版是为接下来的下一帖给小白们打一下基础. 本帖的知识点为: 1.利用metp ...

最新文章

  1. Bio+IT 爱好者社区,欢迎你!
  2. docker与虚拟机的对比
  3. 2022年全球及中国智慧消防栓行业与十四五投资建议与竞争策略研究报告
  4. 客户跟进节奏(转至索菲外贸日记)
  5. 【MM模块】 Blanket PO 框架订单
  6. Maven基础知识--Maven资源库详述
  7. sql intersect mysql_SQL INTERSECT子句
  8. CVPR 2019轨迹预测竞赛冠军方法总结
  9. 牛客多校第五场B generator1(十进制矩阵快速幂)题解
  10. android 原理 组合控件_Android自定义控件之组合控件
  11. Windows tablet数位板数位屏开发出现的问题
  12. SQL数据库-第一次试验-表与视图的基本操作
  13. Entrust Datacard新一代再转印证卡打印机系列喜获蓝盾杯创新奖
  14. (学习笔记)OrCAD进行DRC时报错以及解决办法
  15. excel切片器_利用切片器制作动态交互图表
  16. 2019西电复试计科,软件机试真题
  17. 【c++】string类的模拟实现(下)
  18. 美丽天天秒系统开发模式与美丽天天秒系统源码分享
  19. 英语语法---限定词详解
  20. NFT 游戏含义:游戏中的 NFT 是什么?

热门文章

  1. 股市顶尖高手超短秘诀
  2. 删除“此电脑中”和“另存为中”的3D对象等七个文件夹
  3. python26.dll下载_python26.dll,下载,简介,描述,修复,等相关问题一站搞定_DLL之家
  4. Win10 UEFI安装
  5. 从私有云到云的私有部署,重新定义后云时代的企业IT
  6. Barrier与多线程
  7. linux下discus/apache服务器,局域网内无法访问--解决办法
  8. onenote使用记录(1):新建与删除笔记本
  9. 优惠加油系统定制开发卡密
  10. 洛谷 P2842 LJJ算数