数据变异性的度量 - 极差、IQR、方差和标准偏差
来源:DeepHub IMBA
本文约1200字,建议阅读5分钟可变性的最佳衡量标准取决于不同衡量标准和分布水平。
variability被称作变异性或者可变性,它描述了数据点彼此之间以及距分布中心的距离。
可变性有时也称为扩散或者分散。因为它告诉你点是倾向于聚集在中心周围还是更广泛地分散。
低变异性是理想的,因为这意味着可以根据样本数据更好地预测有关总体的信息。高可变性意味着值的一致性较低,因此更难做出预测。在统计学中,我们的目标是测量一组特定数据或一个分布的变异性。简单来说,如果一个分布中的数据值是相同的,那么它没有变异性。
上图中尽管数据服从正态分布,但每个样本都有不同的分布。样品 A 的变异性最大,而样品 C 的变异性最小。
可以使用多种不同的方式对变异度进行度量。
极差(Range)
极差,又称全距,可以显示数据从分布中的最低值到最高值的分布。
例如,考虑以下数字:1、3、4、5、5、6、7、11。对于这组数字,极差是 11-1 或 10。
极差的度量仅使用了 2 个数字因此受异常值影响很大,并且不会提供有关值分布的任何信息。所以它最好与其他方法结合使用。
四分位距(Interquartile range)
四分位距又被称作四分差,可以提供数据分布中间的分布。
对于从低到高排序的任何分布,四分位距包含数据中一半的值。第一个四分位数 (Q1) 包含前 25% 的值,而第四个四分位数 (Q4) 包含最后 25% 的值。
它衡量数据如何围绕均值分布。基本公式为:IQR = Q3 - Q1。
就像极差一样,四分位距在其计算中仅使用 2 个值。但是IQR受异常值的影响较小:这2个值来自数据集的中间一半,所以不太可能是极端数字。
小知识:每个分布都可以使用五个数字摘要进行组织:
最低值
Q1:第 25 个百分位
Q2:中位数
Q3:第 75 个百分位
最高值 (Q4)
方差(Variance)
方差表示数据集的分布范围,但它是一个抽象数字。它反映了数据集中的分散程度。数据越分散,方差与均值的关系就越大。
小方差 - 数据点往往非常接近均值且彼此非常接近
高方差 - 数据点与均值和彼此之间非常分散
零方差——所有数据值都相同
标准差(Standard Deviation)
标准偏差是数据集中的平均变异量。它平均表示每个数据点与平均值相差多远。标准差越大,数据集的可变性越大。
为什么使用 n - 1 作为样本标准差?
当拥有总体数据时可以获得总体标准差的准确值。可以从每个总体成员收集数据,因此标准差反映了分布(总体)中的精确变异量。
但当无法获得所有数据时,就可以对整体数据进行抽样(抽样方式这就不详细介绍)。
抽样的结果就被称作样本,样本的作用是对总体的数据进行统计推断的。当使用样本数据时,样本标准差始终用作总体标准差的估计值。在这个公式中使用 n 往往会给你一个有偏差的估计,它总会低估可变性。
将样本 n 减少到 n - 1 会使标准偏差人为地变大,从而提供对变异性的保守估计。虽然这不是无偏估计,但它是对标准差的偏少估计:高估而不是低估样本的可变性更好。
标准差低 - 数据点往往接近平均值 标准差高 - 数据点分布在大极差的值上。
什么是变异性的最佳衡量标准?
可变性的最佳衡量标准取决于不同衡量标准和分布水平。
对于在序数水平上测量的数据,极差和四分位距是唯一合适的变异性度量。
对于更复杂的区间和比率的数据,标准差和方差也适用。
对于正态分布,可以使用所有度量。但标准差和方差是首选,因为它们考虑了整个数据集,但这也意味着它们很容易受到异常值的影响。
对于偏态分布或具有异常值的数据集,四分位距是最好的度量。它受极值影响最小,因为它侧重于数据集中间的部分。
编辑:于腾凯
数据变异性的度量 - 极差、IQR、方差和标准偏差相关推荐
- 03 ,平均数,极差,方差,标准差 : 数据的离散程度
1 ,数据例子 : 14 个数字 : 1,2,3,3,4,4,4,5,6,10 2 ,极差 : 最大值 - 最小值 10 - 1 = 9 3 ,平均数 : 定义 : 总值 / 总数 如图 : 4 ,方 ...
- R语言与数据的概括性度量
参考书目:<统计学>-贾俊平:<统计学:从数据到结论>-吴喜之: 理论部分:数据的概括性度量 以下例子会用到的数据(这些数据被放在一个叫data5.txt的文件里): 74.3 ...
- python在统计专业的应用_Python统计学一数据的概括性度量详解
一.数据的概括性度量 1.统计学概括: 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.统计学主 ...
- 贾俊平-第四章:数据的概括性度量
贾俊平-第四章:数据的概括性度量 4.1 集中趋势的度量 集中趋势&离散趋势: 集中趋势:低层次数据的集中趋势测度值适用于高层次的测量数据:但反之并不适用. 4.1.1 分类数据:众数M0 只 ...
- 离散度计算公式 python_Python统计学一数据的概括性度量详解
一.数据的概括性度量 1.统计学概括: 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.统计学主 ...
- 数据的距离度量 一、欧式距离,曼哈顿距离,闵氏距离,切比雪夫距离,兰氏距离,马氏距离
数据的距离度量 一.欧式距离,曼哈顿距离,闵氏距离,切比雪夫距离,兰氏距离,马氏距离 前言 欧式距离 标准欧式距离 曼哈顿距离 闵氏距离 切比雪夫距离 兰氏距离 马氏距离 前言 本篇记录一下常用的数据 ...
- 数据的距离度量 二、余弦距离,汉明距离,测地距离,布雷柯蒂斯距离
数据的距离度量 二.余弦距离,汉明距离,测地距离,布雷柯蒂斯距离 前言 余弦距离 汉明距离 测地距离 布雷柯蒂斯距离 前言 本篇记录余弦距离,汉明距离,测地距离,布雷柯蒂斯距离. 余弦距离 又名余弦相 ...
- 数据相似性的度量方法总结
现实中,我们需要处理的数据具有着不同的形式和特征.而对数据相似性的度量又是数据挖掘分析中非常重要的环节.针对这些不同形式的数据,不可能找到一种具备普遍意义的相似性度量算法,甚至可以说,每种类型的数据都 ...
- 数据治理:数据质量的度量维度!
来源:数据专题 全文共 2541 个字,建议阅读 3 分钟 关于数据质量的度量维度,业内还没有一个统一的标准,以下分享几个常见的数据质量度量维度. 1.记录数完整 记录数:正在评估数据集的记录数值. ...
最新文章
- RIP和OSPF双点双向重发布_综合实验
- goland创建一个不限长度的字节切片_Go语言入门必知教程-切片
- oracle exp导出成功终止,成功终止导出
- 20 个使用 Java CompletableFuture的例子
- php中pregmatch,php中preg_match的isU代表什么意思
- 动态规划 —— 状压 DP
- 双向链表中插入结点并输出
- 三星Galaxy S22 Ultra渲染图曝光:有Note系列的味道
- 耿丹16-1第一次作业
- 《测绘程序开发实习》导线网平差 C++上机实验报告 CSU
- 现代操作系统 第十章 UNIX、Linux 和 Android 下
- DSP入门小白学习日记第四篇
- ​网红拉姆之死,这辈子最看不起这种男人!
- Sklearn聚类算法之Affinity Propagation
- UGUI——RectTransform详解
- 浪潮2020年Q1闪存存储领涨,出货量增速跃居中国第一
- c语言 游程编码,简单的行程编码-C语言实现
- 2019年(本命年)个人总结
- simulink电机仿真笔记一
- MySQL日期类型及默认设置