方差、协方差、四分位差笔记
最近读了一篇paper,文中这么说:has small quartile errors.初次看到很是懵逼,不知道这个是什么东西,后来查了很多资料,没有发现很好讲解这个东东的。
Quartile error:其实就是我们百度的四分位差,百度百科上也叫quartile deviation,我觉得就是一个意思。
了解这个先复习一下,标准差,方差,协方差的概念。 部分内容来自点击打开链接
很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。
协方差就是:from baidu
直白话理解,就是衡量两个变量之间的相关性大小。计算公式如下所示:
如果出现多维不是两维的,那就是一个协方差矩阵了。
协方差矩阵,正对角线是方差,副对角线就是协方差,衡量变量之间的相关性。
说了那么多,那啥是四分位差呢?
直面理解:四分?啥意思?就是一组数据,我们按照一共100%等分,我们平均把其分为四个等分,也就是每个等分占25%。
四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。
计算公式为:Q = Q3-Q1(先记住以下,后面有例子)
四分位差反映了 中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但不适合分类数据。
四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。
计算方法:
例子:
这样的图我们依然可以计算出四分位差:
- 最小值(minimum)=5
- 下四分位数(Q1)=7
- 中位数(Med--也就是Q2)=8.5
- 上四分位数(Q3)=9
- 最大值(maximum)=10
- 平均值=8
- 四分位间距(interquartile range)={\displaystyle Q3-Q1}=2 (即ΔQ)
- farout: 在图上不予显示,仅标注一个符号∇。
- 最大值区间: Q3+1.5ΔQ
- 最小值区间: Q1-1.5ΔQ
- mild outlier = 3.5
extreme outlier = 0.5
看中位线误差,如果中位值误差很小,说明很多的数据点(50%)误差都集中在中位值下面,则误差比较小,有很好的的效果。
方差、协方差、四分位差笔记相关推荐
- 数据的离散程度度量:极差、四分位差、平均差、方差、标准差、异众比率、离散系数
数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如下: 极差:极差为数据样本中的最 ...
- 众数、极差、四分位差、方差、标准差、离散系数 Python求解
数据的离散程度,用来描述一组数据的分散程度.数据离散程度度量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 常见的有几种:平均数.中位数.众数.四分位差.方差.标准差.离散 ...
- 数据分析应用统计学之分散性与变异性的测量【极差、四分位差、偏态系数、峰态系数、统计指标】
文章目录 1.极差与四分位差(R) 2.方差与标准差(西格玛.V) 3.偏态系数与峰态系数(SK.β) 4.统计指标类型 1.极差与四分位差(R) 1)极差:称为全距,极大值减去极小值所得:主要用于衡 ...
- 均值、中值、标准差、四分位差(C++)
均值:Mean.即平均数.表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数. 中值:Median.即中位数.是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列, ...
- python_异常值_EllipticEnvelope法和四分位差法
python_异常值_EllipticEnvelope法和四分位差法 # 加载库 import numpy as np from sklearn.covariance import EllipticE ...
- 协方差公式性质证明过程_论文推荐 | 刘志平:等价条件平差模型的方差-协方差分量最小二乘估计方法...
<测绘学报> 构建与学术的桥梁 拉近与权威的距离 等价条件平差模型的方差-协方差分量最小二乘估计方法 刘志平1, 朱丹彤1, 余航1, 张克非1,2 1. 中国矿业大学环境与测绘学院, 江 ...
- python计算样本方差_Python计算库numpy进行方差/标准方差/样本标准方差/协方差的计算...
使用numpy可以做很多事情,在这篇文章中简单介绍一下如何使用numpy进行方差/标准方差/样本标准方差/协方差的计算. variance: 方差 方差(Variance)是概率论中最基础的概念之一, ...
- python 离群值 q1 q3_设第一分位数是Q1,第二分位数是Q2,第三分位数是Q3,那么四分位差(又称内距)则用 _________表示。_学小易找答案...
[单选题]下列关于元组(tuple)的说法错误的是() [判断题]同一笔经济业务,现金流的方向依分析所处的角度不同而不同. [单选题]以下是命题的语句是_____________. [填空题]网卡的主 ...
- 统计学学习日记:L5-离散趋势分析之异众比率与四分位差
目录 一.离中趋势 二.分类数据:异众比率 三.顺序数据:四分位差 一.离中趋势 1.数据分布的另一个重要特征 2.反映各变量值远离其中心值的程度(离散程度) 3.从另一个侧面说明了集中趋势测度值的代 ...
最新文章
- Egret里用矢量挖圆形的洞
- 24.二叉树中和为某一值的路径
- zend framework2 入门实例代码album模型
- 8月3日云栖精选夜读 | 阿里巴巴宣布 Sentinel 开源,进一步完善 Dubbo 生态(附PPT和视频)...
- toolchain安装教程支持_树莓派安装ESP8266_SDK开发环境
- java 管理员命令模式_java中命令模式详解和使用方法
- 考考你,能看出这一段代码是用哪个编程语言写的吗?
- ExtJS4.0的数据集 .
- CVPR2019目标分割论文推荐(附论文及代码链接)
- ubuntu install opencv
- 在pycharm/IDEA里编辑latex:TeXiFy-IDEA/Pycharm
- 【Java从0到架构师】交错的日志系统、SpringBoot 集成日志框架
- Maven运行报错:-Dmaven.multiModuleProjectDirectory system propery is not set.
- 数据库事务的特性(ACID)
- java小软件_JAVA小应用程序 。。。。。。。。。。。
- 架构师如何带领团队“攻城略地”?
- html文字冒险游戏,小说新类型介绍之文字冒险游戏
- 分布式渲染运行时3D引擎架构在Web端的应用: 秒开3D Web APP
- 如何出一道计算机仿真题,计算机仿真试题
- 基于Java 生产者消费者模式(详细分析)