分散性与变异性的度量——全距、四分位距、标准差、标准分
平均数让我们看到一组数据的集中趋势,那么进一步了解数据的分布,也就是分散性与变异性则需要以下这些统计量。
一、全距
1、计算方法
全距=上界-下界
2、含义
全距表示一组数据的宽度,用极大值减去极小值得到。可以简单衡量一组数据的分散程度。
全距越小,数据分散度越小。
3、优缺点
优点:简单易操作。
缺点:极易受到异常值的影响。
二、四分位距
1、计算方法
将一组数从小到大排序,分成四等份。每等份之间的数叫做四分位数
,依次记作Q1、Q2、Q3。
四分位距=Q3-Q1。
2、含义
四分位距表示一组数从小到大,最中间的50%的数的宽度。亦可以简单衡量一组数据的分散程度。
四分位距越小,数据分散度越小。
3、优缺点
优点:改进了全距易受异常值影响的缺陷,可将异常点排除在外。
缺点:不能使用所有数据信息,只用到了部分数据。
4、百分位数
将一组数从小到大排序,分成100等份。每等份之间的数叫做百分位数
,第k百分位数就是处于数据范围k%处的数值,用Pk表示。
三、方差和标准差
1、计算方法
σ2=Σ(x−μ)2n\sigma ^{2}=\frac{\Sigma (x-\mu )^{2}}{n}σ2=nΣ(x−μ)2 或 σ2=Σx2n−μ2\sigma ^{2}=\frac{\Sigma x^{2}}{n}-\mu ^{2}σ2=nΣx2−μ2
2、含义
标准差表示了数据的典型值到均值的距离。
方差为标准差的平方,也就是数据的典型值到均值的距离的平方。
平常使用中常常用标准差,而不是方差,因为标准差与数据的衡量单位是统一的。
标准差(方差)越小,说明数据到均值的分散度越低,稳定性越好。
3、优缺点
优点:完美地使用了所有数据信息,并且衡量了数据的分布情况。
缺点:如果想要比较不同数据集的数据,这些不同数据集的数据有不同的均值、不同的标准差,这个时候就不能将不同数据集的均值、标准差放在一起进行比较,而要进行“归一”。
四、标准分
1、计算方法
z=x−μσz=\frac{x-\mu }{\sigma }z=σx−μ
2、含义
标准分,从计算方法可以看出,它表示距离均值的标准差个数。
标准分将不同的数据集转化为一个新的理论上的通用分布,这个分布的均值为0,标准差为1,这样的通用分布就可以把不同的数据集放在一起进行比较。
3、优点
优点:可以把不同的数据集放在一起进行比较。比如:已知两个球员的历史成绩(投篮命中率的均值和标准差),现在又得到这两个球员在新一场比赛中的投篮命中率,想要比较两个球员相对自己历史成绩在这场比赛中的表现情况。则使用标准分先将两位球员历史成绩的分布进行转化,再比较这次比赛的标准分,哪个大则说明哪个球员的表现好。
分散性与变异性的度量——全距、四分位距、标准差、标准分相关推荐
- 【读书笔记->统计学】03-01 各种“距”和“差”-极差(全距)、四分位距(数)、百分位数、箱线图概念简介
各种"距"和"差" 上一章中我们学习了平均数,但是它有自己的有限性.为了得到更多的信息,我们开始学习各种"距"和"差". ...
- 数据变异性的度量 - 极差、IQR、方差和标准偏差
来源:DeepHub IMBA 本文约1200字,建议阅读5分钟可变性的最佳衡量标准取决于不同衡量标准和分布水平. variability被称作变异性或者可变性,它描述了数据点彼此之间以及距分布中心的 ...
- java 四分位距算法和标准差
import java.math.BigDecimal; import java.util.ArrayList; import java.util.Arrays; import java.util.C ...
- 统计学的Python实现-010:四分位距
作者:长行 时间:2019.03.10 四分位距:四分位距(interquartile range),是一种衡量一组数据离散程度的统计量,用IQR表示.其值为第一四分位数和第三四分位数的差距. 四分位 ...
- 按照老师的方式,将四分位距的统计学异常检测如法炮制
import pandas as pd import numpy as np import matplotlib.pyplot as plt data = pd.read_excel("D: ...
- python numpy求四分位距
import numpy as np ages=[3,3,6,7,7,10,10,10,11,13,30] lower_q=np.quantile(ages,0.25,interpolation='l ...
- 数据分析应用统计学之分散性与变异性的测量【极差、四分位差、偏态系数、峰态系数、统计指标】
文章目录 1.极差与四分位差(R) 2.方差与标准差(西格玛.V) 3.偏态系数与峰态系数(SK.β) 4.统计指标类型 1.极差与四分位差(R) 1)极差:称为全距,极大值减去极小值所得:主要用于衡 ...
- python 教程之如何使用python中的四分位距统计数据查找数据中的异常值
异常值是远离其他数据点的数据点,例如在图像中您会看到异常值. 那么我们如何找到包含异常值的行在这篇文章中,我们在数据的 r_values 列中找到异常值. 因此,要提取异常值,我们需要两个值 第 25 ...
- 深入浅出统计学 第二三章 量度
量度 两类量度: (1) 集中趋势的量度->平均值,中位数,众数 (2) 分散性与变异性的亮度->全距(极值),四分位数(扩展:箱型图),方差与标准差,标准分 获取数据 import pa ...
最新文章
- Android开发工具
- GSM/GPRS/WCDMA/EDGE/HSDPA?
- [python] list元素按关键字相加减
- Django笔记01-基础:一个完美主义的web框架
- python的pyqt5_Pycharm+Python+PyQt5使用详解
- 使用rpm安装mysql_如何使用rpm安装MySQL
- Java 反编译工具哪家强?对比分析瞧一瞧
- java学生管理系统项目实训报告
- 怎么画单极交流放大电路波形图_集成电路的种类
- 2021年中国手游行业发展现状及未来发展趋势分析[图]
- qq微信电脑客户端 for mac v1.0.0.6 官方版
- 离散化-利用计算机求解y=x,离散信号处理(双语)-中国大学mooc-题库零氪
- 单道批-多道批-分时-实时
- android2.3.5中阿拉伯文字符显示顺序不是从右至左显示
- 告别 Google Reader,告别一个时代!
- 二叉树的层序遍历-Java
- ubuntu系统(七):工控机连接手机热点
- 如何使用热风枪焊接特殊的QFN封装的芯片
- 一句话木马 php asp,一句话木马源代码
- 朱有鹏 socket实际编程2(6)