最近读了一篇paper,文中这么说:has small quartile errors.初次看到很是懵逼,不知道这个是什么东西,后来查了很多资料,没有发现很好讲解这个东东的。

Quartile error:其实就是我们百度的四分位差,百度百科上也叫quartile deviation,我觉得就是一个意思。

了解这个先复习一下,标准差,方差,协方差的概念。 部分内容来自点击打开链接

很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

协方差就是:from baidu

协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
其实很好理解:我们之前学的方差,标准差基本上都是针对一维数据的,也就是看一维数据的离散程度,一般我们现实生活中,常常会有多维的情况,那么就不能很好的用方差和标准差去衡量了,所以现在我们使用另外一个metric来衡量,就是协方差。

直白话理解,就是衡量两个变量之间的相关性大小。计算公式如下所示:

如果出现多维不是两维的,那就是一个协方差矩阵了。

协方差矩阵,正对角线是方差,副对角线就是协方差,衡量变量之间的相关性。

说了那么多,那啥是四分位差呢?

直面理解:四分?啥意思?就是一组数据,我们按照一共100%等分,我们平均把其分为四个等分,也就是每个等分占25%。

四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。

计算公式为:Q = Q3-Q1(先记住以下,后面有例子)

四分位差反映了 中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但不适合分类数据。

四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。

计算方法:

1.未分组数据
首先对数据进行排序,求出QlQ3所在的位置;其次根据位置确定其对应的标志值即QlQ3;最后计算二者差额的一半,即就是四分位差。
Ql的位置= (n + 1) / 4
Q3的位置= 3*(n + 1) / 4

例子:

例1:由7人组成的旅游小团队年龄分别为:17、19、22、24、25、28、34,求其年龄的四分位差。计算步骤为:
①计算Q1,与Q3的位置。
Q1的位置= (n + 1) / 4 = (7 + 1) / 4 = 2
Q3的位置= 3*(n + 1) / 4 = 3*(7 + 1) / 4 = 6
Q1与Q3的位置分别为第2位和第6位。
②确定Q1与Q3的数值。
Q1=19(岁)
Q3=28(岁)
即第2位和第6位对应年龄分别为19岁和28岁。
③计算四分位差。
Q.D.=Q3 − Q1=28-19=9(岁)
④含义。说明该旅游小团队有50%的人年龄集中在19~28岁之间,最大差异为9岁。
还有另外两种计算方式:参照点击打开链接
但是在我们读的paper中 会出现这样的图:

这样的图我们依然可以计算出四分位差:

这组数据显示出:
  • 最小值(minimum)=5
  • 下四分位数(Q1)=7
  • 中位数(Med--也就是Q2)=8.5
  • 上四分位数(Q3)=9
  • 最大值(maximum)=10
  • 平均值=8
  • 四分位间距(interquartile range)={\displaystyle Q3-Q1}=2 (即ΔQ)
在区间 Q3+1.5ΔQ, Q1-1.5ΔQ 之外的值被视为应忽略(farout)。
  • farout: 在图上不予显示,仅标注一个符号∇。
  • 最大值区间: Q3+1.5ΔQ
  • 最小值区间: Q1-1.5ΔQ
最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.
  • mild outlier = 3.5
  • extreme outlier = 0.5

看中位线误差,如果中位值误差很小,说明很多的数据点(50%)误差都集中在中位值下面,则误差比较小,有很好的的效果。

方差、协方差、四分位差笔记相关推荐

  1. 数据的离散程度度量:极差、四分位差、平均差、方差、标准差、异众比率、离散系数

    数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如下: 极差:极差为数据样本中的最 ...

  2. 众数、极差、四分位差、方差、标准差、离散系数 Python求解

    数据的离散程度,用来描述一组数据的分散程度.数据离散程度度量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 常见的有几种:平均数.中位数.众数.四分位差.方差.标准差.离散 ...

  3. 数据分析应用统计学之分散性与变异性的测量【极差、四分位差、偏态系数、峰态系数、统计指标】

    文章目录 1.极差与四分位差(R) 2.方差与标准差(西格玛.V) 3.偏态系数与峰态系数(SK.β) 4.统计指标类型 1.极差与四分位差(R) 1)极差:称为全距,极大值减去极小值所得:主要用于衡 ...

  4. 均值、中值、标准差、四分位差(C++)

    均值:Mean.即平均数.表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数. 中值:Median.即中位数.是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列, ...

  5. python_异常值_EllipticEnvelope法和四分位差法

    python_异常值_EllipticEnvelope法和四分位差法 # 加载库 import numpy as np from sklearn.covariance import EllipticE ...

  6. 协方差公式性质证明过程_论文推荐 | 刘志平:等价条件平差模型的方差-协方差分量最小二乘估计方法...

    <测绘学报> 构建与学术的桥梁 拉近与权威的距离 等价条件平差模型的方差-协方差分量最小二乘估计方法 刘志平1, 朱丹彤1, 余航1, 张克非1,2 1. 中国矿业大学环境与测绘学院, 江 ...

  7. python计算样本方差_Python计算库numpy进行方差/标准方差/样本标准方差/协方差的计算...

    使用numpy可以做很多事情,在这篇文章中简单介绍一下如何使用numpy进行方差/标准方差/样本标准方差/协方差的计算. variance: 方差 方差(Variance)是概率论中最基础的概念之一, ...

  8. python 离群值 q1 q3_设第一分位数是Q1,第二分位数是Q2,第三分位数是Q3,那么四分位差(又称内距)则用 _________表示。_学小易找答案...

    [单选题]下列关于元组(tuple)的说法错误的是() [判断题]同一笔经济业务,现金流的方向依分析所处的角度不同而不同. [单选题]以下是命题的语句是_____________. [填空题]网卡的主 ...

  9. 统计学学习日记:L5-离散趋势分析之异众比率与四分位差

    目录 一.离中趋势 二.分类数据:异众比率 三.顺序数据:四分位差 一.离中趋势 1.数据分布的另一个重要特征 2.反映各变量值远离其中心值的程度(离散程度) 3.从另一个侧面说明了集中趋势测度值的代 ...

最新文章

  1. Egret里用矢量挖圆形的洞
  2. 24.二叉树中和为某一值的路径
  3. zend framework2 入门实例代码album模型
  4. 8月3日云栖精选夜读 | 阿里巴巴宣布 Sentinel 开源,进一步完善 Dubbo 生态(附PPT和视频)...
  5. toolchain安装教程支持_树莓派安装ESP8266_SDK开发环境
  6. java 管理员命令模式_java中命令模式详解和使用方法
  7. 考考你,能看出这一段代码是用哪个编程语言写的吗?
  8. ExtJS4.0的数据集 .
  9. CVPR2019目标分割论文推荐(附论文及代码链接)
  10. ubuntu install opencv
  11. 在pycharm/IDEA里编辑latex:TeXiFy-IDEA/Pycharm
  12. 【Java从0到架构师】交错的日志系统、SpringBoot 集成日志框架
  13. Maven运行报错:-Dmaven.multiModuleProjectDirectory system propery is not set.
  14. 数据库事务的特性(ACID)
  15. java小软件_JAVA小应用程序 。。。。。。。。。。。
  16. 架构师如何带领团队“攻城略地”?
  17. html文字冒险游戏,小说新类型介绍之文字冒险游戏
  18. 分布式渲染运行时3D引擎架构在Web端的应用: 秒开3D Web APP
  19. 如何出一道计算机仿真题,计算机仿真试题
  20. 基于Java 生产者消费者模式(详细分析)

热门文章

  1. Android 之路43---手风琴特效ExpandableListView
  2. 香饽饽:腾讯强推的Redis天花板笔记,帮助初学者快速入门和提高(核心笔记+面试高频解析)
  3. 【== 与 equals】
  4. shell练习题(牛客网15道题)
  5. 从未在一起更让人遗憾_更加遗憾的是,从未在一起过
  6. (一)(1)OpenGL入门---Open GL 在 Mac 上的配置
  7. 默哀STAND SILENTLY!
  8. Valid Palindrome
  9. tomcat7配置https
  10. nofollow标签的作用有重大变化