数据的离散程度:
即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择。

1. 常用数据离散度的方式

1.1 极差

极差为数据样本中的最大值与最小值的差值
R = m a x ( i ) − m i n ( i ) R=max(i)-min(i) R=max(i)−min(i),

  • 它反应了数据样本的数值范围,是最基本的衡量数据离散程度的方式,
  • 是所有方式中最为简单的一种, 但受极值影响较大。

如在数学考试中,一个班学生得分的极差为60,放映了学习最好的学生与学习最差的学生得分差距为60.

1.2 四分位差

即数据样本的上四分之一位和下四分之一位的差值
Q d = Q u − Q l Q_{d}=Q_{u}-Q_{l} Qd​=Qu​−Ql​,

  • 反应了数据中间50%部分的离散程度,
  • 其数值越小表明数据越集中,数值越大表明数据越离散,
  • 同时由于中位数位于四分位数之间,故四分位差也放映出中位数对于数据样本的代表程度,越小代表程度越高,越大代表程度越低。

1.3 平均差

  • 各变量值与平均值的差的绝对值之和除以总数n,


M d = ∑ n i = 1 ∣ x n − x ˉ ∣ n , M_{d}=\frac{\sum_{n}^{i=1}\left |x_{n} -\bar{x} \right |}{n}, Md​=n∑ni=1​∣xn​−xˉ∣​,

针对分组数据为:
M d = ∑ n i = 1 ∣ x n − x ˉ ∣ f i n M_{d}=\frac{\sum_{n}^{i=1}\left |x_{n} -\bar{x} \right |f_{i}}{n} Md​=n∑ni=1​∣xn​−xˉ∣fi​​

  • 平均差以平均数为中心,能全面准确的反应一组数据的离散状况,平均差越大,说明数据离散程度越大,反之,离散程度越小。

1.4 方差/标准差

方差是各变量与平均值的差的平方和除以总数n-1,

s 2 = ∑ n i = 1 ( x i − x ˉ ) 2 n − 1 s^{2}=\frac{\sum_{n}^{i=1}(x_{i}-\bar{x})^{2}}{n-1} s2=n−1∑ni=1​(xi​−xˉ)2​

针对分组数据

s 2 = ∑ n i = 1 ( x i − x ˉ ) 2 f i n − 1 s^{2}=\frac{\sum_{n}^{i=1}(x_{i}-\bar{x})^{2}f_{i}}{n-1} s2=n−1∑ni=1​(xi​−xˉ)2fi​​,

方差开根号后为标准差,方差与标准差都能很好的反应数据的离散程度。

1.5 异众比率

众数是一组数据中出现次数最多的值,

例如,在一组数据:1,2,3,3,4,5中,出现次数最多的是 3,所以3就是众数。

而众数则反映的是局部特征——一组样本从整体上来讲,围绕在哪个数值周围, 在哪里最密集。

  • 异众比率,衡量众数对一组数据的代表程度。

是指非众数的次数与全部变量值总次数的比率, 即除去众数之外,另外一部分变量值在总体中的比重。

V r = ∑ f i − f m ∑ f i = 1 − f m ∑ f i V_{r}=\frac{\sum f_{i}-f_{m}}{\sum f_{i}}=1-\frac{f_{m}}{\sum f_{i}} Vr​=∑fi​∑fi​−fm​​=1−∑fi​fm​​,

其中 ∑ f i \sum f_{i} ∑fi​ 为变量值的总频数, f m f_{m} fm​ 为众数组的频数。

  • 异种比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差。

  • 异种比率越小,说明非众数组的频数占总频数的比重越小, 说明众数的代表性越好。

  • 异种比率主要适合度量分类数据的离散程度,当然连续数据可以计算异种比率。

1.6 离散系数

即变异系数,变异系数(Coefficient of Variation):

当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲不同,

直接使用标准差来进行比较不合适,
此时就应当消除测量尺度和量纲的影响,

而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的对比。
V i = s x ˉ V_{i}=\frac{s}{\bar{x}} Vi​=xˉs​ 。

  • CV没有量纲,这样就可以进行客观比较了。事实上,可以认为变异系数和极差,标准差和方差一样,都是反映数据离散程度的绝对值。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。

  • 针对不同数据样本的标准差和方差,因数据衡量单位不同,其结果自然无法直接进行对比.

  • 为出具一个相同的衡量指标,则进行了离散系数的计算。

  • 离散系数为一组数据的标准差与平均数之比

1.7 中位数

将一组数据按照由小到大(或由大到小)的顺序排列,

  • 如果数据的个数是奇数,则处于中间位置的数就是这组数据的中位数(median);

  • 如果数据的个数是偶数,则中间两个数据的平均数就是这组数据的中位数。

当中位数比平均数大时,说明超过半数的数据大于平均值,整体被少数数据拉低了,大部分的数值是比较大的。

当中位数比平均数小时,说明超过一半数据的数值小于平均值,整体被少数数据拉高了,大部分的数值是比较低的。

2. 参考代码

import numpy as np
import stats as sts
scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,32, 34, 43, 41, 21, 23, 26, 26, 34, 42,43, 25, 24, 23, 24, 44, 23, 14, 52,32,42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
#集中趋势的度量
print('求和:',np.sum(scores))
print('个数:',len(scores))
print('平均值:',np.mean(scores))
print('中位数:',np.median(scores))
print('众数:',sts.mode(scores))
print('上四分位数',sts.quantile(scores,p=0.25))
print('下四分位数',sts.quantile(scores,p=0.75))
#离散趋势的度量
print('最大值:',np.max(scores))
print('最小值:',np.min(scores))
print('极差:',np.max(scores)-np.min(scores))
print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))
print('标准差:',np.std(scores))
print('样本标准差:',np.std(scores, ddof=1))
print('方差:',np.var(scores))
print('离散系数:',np.std(scores)/np.mean(scores))
print('众数:',sts.mode(scores)[0][0])
#偏度与峰度的度量
print('偏度:',sts.skewness(scores))
print('峰度:',sts.kurtosis(scores))</span>

数据的离散程度的衡量方式相关推荐

  1. 数据的离散程度度量:极差、四分位差、平均差、方差、标准差、异众比率、离散系数

    数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如下: 极差:极差为数据样本中的最 ...

  2. 求离散数据的突变点_数据的离散程度分析1

    在统计学中,把反映现象总体中各个体的变量值之间差异程度的指标称为离散程度,也称为离中趋势. 描述一组数据离散程度常用极差.四分位差.方差和标准差.变异系数等. 极差 极差(Range)也叫全距,是一组 ...

  3. 转:衡量数据的离散程度

    衡量数据的离散程度 我们通常使用均值.中位数.众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度.常用的可以反 ...

  4. 数据统计分析(4):数据的离散程度描述

    极差 极差又被称为范围差或全距(Range),以R表示,是用来表示统计资料中的变异量数,其最大值与最小值之间的差距,即最大值减最小值后所得之数据. 它是标志值变动的最大范围,它是测定标志变动的最简单的 ...

  5. 数据的离散程度:极差、方差和标准差

    数据的离散程度 如下两组数据: A:1,2,5,8,9 B:3,4,5,6,7 两组数据的均值都是 5,但是 B 组的数据更接近 5. 很多时候有描述集中趋势的统计量是不够的,还要有描述数据的离散程度 ...

  6. 03 ,平均数,极差,方差,标准差 : 数据的离散程度

    1 ,数据例子 : 14 个数字 : 1,2,3,3,4,4,4,5,6,10 2 ,极差 : 最大值 - 最小值 10 - 1 = 9 3 ,平均数 : 定义 : 总值 / 总数 如图 : 4 ,方 ...

  7. 【应用统计学】描述数据的离散程度

    一.极差 极差又称全距(Range),以R表示,用来表示统计数据中的最大值与最小值之间的差距,即最大值减最小值后所得之数据. 二.四分位差 四分位差是上四分位数(Q3,即位于75%)与下四分位数(Q1 ...

  8. 数据挖掘(9-22):数据离散程度+数据清理+三大相关系数+数据库索引(数据库面试常问)+P值含义及理解

    1.衡量数据离散程度的统计量: 数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如 ...

  9. excel离散度图表怎么算_excel离散数据表格-Excel 离散程度分析图表如何做

    EXCEL中数据如何做离散性分析 纠错.离散不是均值抄AVEDEV--=AVEDEV(A1:A100)算出来的是A1:A100的平均数. 离散是指各项目间指标袭的离散均值(各数值的波动情况),数值较低 ...

最新文章

  1. DELL 向左走 向右走?(二)
  2. textarea怎样隐藏滚动条
  3. 资料收集--Subversion与CVS的优势
  4. Java核心(三):代码块的作用
  5. 抓住StackOverFlowError的尾巴
  6. perl 哈希数组的哈希_第一个元素使用哈希在数组中出现K次
  7. [C#]WinFrom中的DataGrid单击选择行
  8. 43岁被裁员,200万年薪泡汤:这4件事你要尽早明白
  9. Lambda表达式 对List集合去重
  10. 20135202闫佳歆——信息安全系统设计基础第九周学习总结
  11. 多副本和raid技术
  12. SL4A_API翻译贴镜像
  13. 核磁共振设备工作过程人体温度监控中应用的光纤温度传感器
  14. 在线学习及作业平台管理系统(ssm,mysql)
  15. mfc , 超简单实现动态背景,
  16. Elasticsearch重建索引
  17. SDUT 操作系统课程 CATS考试工具部分专题代码实现
  18. iOS开发实现资源包增量更新
  19. 基于AGS JS开发自定义贴图图层
  20. repo forall -c命令

热门文章

  1. cas:1628790-40-8|脂溶性Cyanine7-COOH|CY7-Carboxylic Acid
  2. AC、AP无线组网的一些操作
  3. 如何显示Spring Boot加载的所有bean
  4. 百度网盘虚假下载(文件已修改或删除)解决方法
  5. 在讨论单元测试时,“DAMP not DRY”是什么意思?
  6. 利用Openssl自签名证书生成与单双向认证通信
  7. Shazam It! Music Recognition Algorithms, Fingerprinting, and Processing
  8. Java中J.U.C包下锁的基础-AQS分析
  9. Stable Diffusion人工智能图像合成
  10. 3月最新!AIGC公司生态地图;开发者实用ChatGPT工具清单;上手必会的SD绘图教程;字幕组全自动化流程大公开 | ShowMeAI日报