各种“距”和“差”

上一章中我们学习了平均数,但是它有自己的有限性。为了得到更多的信息,我们开始学习各种“距”和“差”。

情境:现在我们想要招募一名球员,他们的历史得分分别如下:

可以看到,他们的得分均值、中位数和众数都是10分,他们是以不同的方式获得这些成绩的。他们在稳定发挥方面存在差异,平均数无法量度这一差异。

极差(全距)

通过计算极差(等同于全距),我们可以轻易获知数据分散情况。极差指出数据的扩展范围,有点儿像测量数据的宽度。它是量度数据分散程度的既简单又方便的方法。

极差的计算方法是:用数据集中的最大数减去数据集中的最小数。

比如“7 8 9 9 10 10 11 12 13”的极差为13-7=6

全距:全距也叫极差,是用于量度数据集分散程度的一种方法。其算法为:上界-下界

其中上界为最大值,下界为最小值

但是极差也有局限的地方,比如“8 9 9 10 10 10 11 11 12”和“8 10 10 10 10 10 10 10 10 12”。它们的极差都是4。原因是:第二个数据集中含有异常值(极大值12和极小值8)。极差仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态。

如果数据中包含异常值,使用极差描述数据的分散情况会极具误导性,因为它很容易受异常值影响。

举个例子,下图在没有10的时候,它的极差是4。然而在出现了异常值之后,它的极差就会增加到9。区区一个值就能将极差变化的这么大。

可以看到极差有一些局限性,极差只是对数据分布情况极其基本的描述,它的值就是“极大值-极小值”得出来的,不能指出数据的真实心态以及数据知否包含异常值。

四分位距

为了消除异常值的影响,我们可以使用四分位数

四分位数:四分位数是这样一些数值:它们将数据一分为四,最小的四分位数称为下四分位数,最大的四分位数称为上四分位数,中间的四分位数即中位数。

首先按升序排列数据,将这些数据分成四个相等的数据块,每个数据块包含四分之一原有数据。我们可以用介于两条外分割线之间的数值构建一个距。

上面,将数据一分为四的几个数值就是所谓的四分位数。

  • Q1:最小的四分位数,称为下四分位数或第一四分位数
  • Q2:中间的四分位数,称为中位数
  • Q3:最大的四分位数,称为上四分位数或第三四分位数

四分位距(interquartile range, IQR) = 上四分位数 - 下四分位数

四分位距为我们提供了一种用于量度数据分散程度的标准的、可重复使用的方法(实际上功能上和极差一样,但是它能剔除异常值)。

四分位距能较少受到异常值的影响。因为上和下四分位数之外都还有25%的数据。而异常值通常都是极大值或极小值,根据它的计算方法,它能忽略这些异常值。我们仅仅考虑了中间50%的数值,这样就把异常值排除在外了。

在计算四分位距之前,要先会算四分位数,请看下面。

四分位数的计算

与求中位数的过程非常相似,我们复习一下中位数的求值过程:先将所有数值按升序排列。如果有n个数,如果(n+1)/2位于两个数字之间,则取它们的平均值;如果(n+1)/2刚好是整数,那这个位置的值就是中位数。

接下来我们求下和上四分位数的位置。

求下四分位数的位置

  1. 计算n/4
  2. 如果为整数,则下四分位数位于“n/4”这个位置和下一个位置的中间,取它们位置的数值的平均值
  3. 如果不是整数,则向上取整(不管四舍五入的规则,只要后面有小数前面的整数就加1),这个位置的数值即下四分位数

例子,如果有6个数,6/4=1.5,向上取整得到2,下四分位数的位置为2。

求上四分位数的位置

  1. 计算3n/4
  2. 如果为整数,则上四分位数位于“3n/4”这个位置和下一个位置的中间,取它们位置的数值的平均值
  3. 如果不是整数,则向上取整,这个位置的数值即上四分位数

书上有一道例题,老样子,希望先写出自己的解答再对答案。

百分位数

全距和四分位距可以量度一批数据的数值分散情况。全卷是最大值和最小值之间的差值,而四分位距则关注数据中间部位的50%数值。除了这些距,我们可以使用别的距。打个比方,将数据分成十份。

在上例中,我们的数据被分成10份,因此起分割作用的数值被称为十分位数。同理,如果将一批数据按百分比进行分割,则起分割作用的数值被称为百分位数。我们可以用百分位数构建一个新的距,百分位距

百分位数:第k百分位数即位于数据范围k%处的数值,记为:PkP_kPk​

百分位数是将数据一分为百的数值。每个百分位数按照它所分割出来的数据的百分比进行命名,因此,第十百分位数就是位于数据范围10%处的数值。

百分位数在划分名词、排行中很有用。你可以通过百分位数确定某个数值相对于其他数值的高低。例如,假定你听说自己在统计学测验中得了50分,仅看这个数字本身,你无法知道自己和别人相比是好是坏。可如果有人告诉你这次的测验的第90百分数是50分,那么你就知道,你的分数高于或等于其他90%的人的分数。

求百分位数

与求四分位数的方法相似。

  1. 首先将所有数值按升序排序
  2. 为了求出n个数字的第k百分位数的位置,先计算k(n100)k(\frac{n}{100})k(100n​)
  3. 如果结果是整数,则百分位数位于第k(n100)k(\frac{n}{100})k(100n​)位和下一位数之间。取这两个位置上的数字的平均值,得出百分位数
  4. 如果结果不是整数,则将其向上取整,结果即百分位数的位置

例如,如果你有125个数,要求十分位数,则先计算10*125/100=12.5。将此结果向上取整,得13,即十分位数为处于第13位的数值。

箱线图

上述的各种距,可以利用箱线图来展示,它也叫箱型图。箱线图显示数据的全距(极差)、四分位距以及中位数。在同一张箱线图上可以比较几批数据,它可以帮助比较多个不同数据集。

我们先看看一个箱线图例子。

“箱子”的左右两边分别代表下四分位数和上四分位数;箱子中间的一条线表示中位数;通过箱子可以看出四分位距的宽度;随后,箱子两边画出“线”,显示出全距(极差)的上界、下界以及宽度。

如果数据有异常值,则全距会更宽。可以通过观察箱线图上的线,就能了解数据的偏斜程度。如果箱线图是对称的,表示基础数据很可能也相当对称。

这是一道利用“箱线图”做出决策的例题,大家可以参考。

注意:球员A的中位数和四分位数都高于球员B。

【读书笔记->统计学】03-01 各种“距”和“差”-极差(全距)、四分位距(数)、百分位数、箱线图概念简介相关推荐

  1. r语言echarts画箱线图_echarts学习笔记之箱线图的分析与绘制详解

    一.箱线图 box-plot 箱线图(boxplot)也称箱须图(box-whisker plot),它是用一组数据中的最小值.第一四分位数.中位数.第三四分位数和最大值来反映数据分布的中心位置和散布 ...

  2. 箱线图怎么判断异常值_极简统计学---箱线图[2]

    全文大概1400字,阅读全文大概需要4.5分钟. 上一篇讲了箱线图基本组成,其中涉及到: 5大要数: 最大值,最小值,第一四分位数(Q1),第二四分位数(中位数Median),第三四分位数(Q3) , ...

  3. Python学习笔记——绘图设置(三)箱线图

    箱线图也称箱须图,是利用数据中的五个统计量:最小值.第一四分位数(25%).中位数.第三四分位数(75%).最大值来描述数据的一种方法,粗略的看出数据是否有对称性.分布的分散程度等信息,可以用来比较多 ...

  4. excel基础图形笔记(柱状图、条形图、折线图、饼图、散点图、箱线图、漏斗图)

    excel画图小记: 1. 高:10 :宽:16.17:(符合0.618黄金比例) 具体操作:选中图表->右键->设置图标区域格式->大小与属性: 2.看销量排名,一般用条形图(横放 ...

  5. matlab笔记——绘图篇——折线图+散点图+饼图+直方图+柱状图+箱线图+三维图+地图

    今天早上刚讲完课,一个小时的培训准备起来也很不容易呐,但是讲完还是挺开心的啦. 现在来把绘图篇更新一下. 这篇主要就讲matlab数据可视化,介绍一下matlab基本图形绘制. 绘图篇 数据导入 给大 ...

  6. 统计学 箱线图、离差平方和、方差、标准差和变异系数

    目录 基本概念 python 计算分位数 扩展与参考链接 基本概念 箱线图是描述数据分布情况一种图形,需要知道以下几个概念: 首先将数据串从小到大排序: 上界,上四分位数(Q3),中位数(Q2),下四 ...

  7. 【读书笔记->统计学】09-02 将正态分布运用到其他概率分布-用正态分布近似代替二项分布、泊松分布概念简介

    用正态分布近似代替二项分布 假设一个情境:有40道题,每一道你都不知道答案,答对概率为1/4.求答对30题及以上的概率. 这个是典型的二项分布,具体介绍见:[读书笔记->统计学]07-02 离散 ...

  8. kindel读书笔记——2017.03.22-04.21

    1. 恶意 [2017/03/29, ¥  17.98] 白夜行的对偶篇,告诉你从小长大的伙伴不一定与你共生,也可以处心积虑地要毁掉你的一切. 2. 解忧杂货店 [2017/04/20, ¥ 11.8 ...

  9. Javascript DOM 编程艺术读书笔记16/04/01

    愚人节快乐 开始用webstorm了,随着学习深入,代码越来越长,因为不借助ide还真是挺难的 今天发现了一个严重的误区,text和textNode是完全不同的两个概念,之前没有特别注意,写代码很容易 ...

最新文章

  1. 2021-08-29概率论—第四章随机变量的数字特征
  2. 200万注册开发者,13亿全景图片,90%数据生产AI化,百度地图如何造生态?
  3. 操作系统开发系列—2.进入32位保护模式
  4. 使用hibernate和struts2实现分页功能
  5. 知道路程时间求加速度_凸轮分割器的出力轴加速度是怎么算的
  6. iloc,ix和loc有何不同?
  7. Asp.net AJAX JavaScript 基本类型扩展(7)——String 类型及其扩展
  8. python生成器_Python生成器
  9. 校准 Linux 服务器的时间
  10. 爬取东方财富的利润表数据记录
  11. mcafee完全彻底卸载方法
  12. QQ魔法卡片辅助工具外挂silverlight版
  13. 木瓜移动SaaS平台——木瓜大橙直击当下跨境电商企业出海六大痛点
  14. Python mechanize 的一点说明
  15. 使用Vivado生成ADI的ADC例程(以AD9680为例)
  16. 今天我在CSDN开通我的技术博客,与非技术博客分开
  17. 2007-01-22 日志——让泪化作相思雨
  18. endnote导出格式下载地址
  19. Linux查看实时网速
  20. 头脑风暴 指导与管理项目工作 问题日志 项目管理信息系统 变更请求 习题

热门文章

  1. 我在达芬奇的笔记本里,找到了用户画像的起源
  2. 9.3. debug ip igrp
  3. 人生励志语录 排比句
  4. C# (1)点击菜单跳出新窗体,(2)在主窗体中切换子窗体(pannel控件的使用)
  5. 问题 G: 奇数阶幻方
  6. 路由token验证和路由守卫~~狂徒李四
  7. 小白入门之HTML--第三章 CSS样式基础
  8. 计算机常用单词 pdf,关于计算机的常用词汇.pdf
  9. nodejs 结合 wechaty 实现你的微信群聊机器人二(iPad 协议)
  10. 小白学java_day1