0 集中趋势度量

01 众数

02 中位数

03 平均数

普通加权:xˉ=∑i=1nxin\bar x=\frac {\sum_{i=1}^n x_i}{n}xˉ=n∑i=1n​xi​​
分组加权:xˉ=∑i=1nMifin\bar x=\frac {\sum_{i=1}^n M_if_i}{n}xˉ=n∑i=1n​Mi​fi​​
其中:Mi是分组的组中值,fi是此组的频数M_i是分组的组中值,f_i是此组的频数Mi​是分组的组中值,fi​是此组的频数

1 离散程度度量

一组数据的离散程度是数据分布的重要特征。
定义:离散程度用于衡量各变量值距离其中心值的程度,离散程度越大,则代表用于代表集中趋势的度量值对于这一组数据的代表性也越差。

1.1 分类数据:异众比率

因为分类数据一般采用众数来代表其集中趋势,因此对于分类数据,一般采用异众比率来衡量数据的离散程度。
通俗的解释就是,不是众数的数所占的比例。
数学表达为:
Vr=∑fi−fm∑fiV_r=\frac{\sum f_i-f_m}{\sum f_i}Vr​=∑fi​∑fi​−fm​​
其中∑fi\sum f_i∑fi​为数据集合的总频数;fmf_mfm​为众数组的频数。


1.2 顺序数据:四分位差

四分位差(quartile deviation)是上四分位数和下四分位数之差
Ud=UU−ULU_d=U_U-U_LUd​=UU​−UL​
理解:由于顺序数据一般采用中位数来衡量其集中趋势,因此,四分位差实际上表示的是在顺序上处于25%~75%的这50%的数据的极差。
如果这个差越小,那么说明这中间的数据就越集中。也因此,使用中位数来代表整个数据组的集中趋势是比较恰当的。


1.3 数值型数据:方差与标准差

这是在统计分析中最常使用的两个指标。
(1)方差(variance)
描述:方差等于各个变量值和平均值差的平方之和的平均值。
数学公式:
σ2=∑i=1n(xi−xˉ)2n\sigma ^2=\frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n}σ2=n∑i=1n​(xi​−xˉ)2​
一般在实际使用中,我们求解的是样本方差,那么使用如下公式:
s2=∑i=1n(xi−xˉ)2n−1s^2=\frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n-1}s2=n−1∑i=1n​(xi​−xˉ)2​
其中n-1称为自由度。

如果不想探求其实际的数学意义,可以粗略的理解为,在实际的应用观察中,使用n-1作为样本的方差计算的分母,计算出来的S2S^2S2是σ2\sigma^2σ2的无偏估计。因此这个一个为了更好的使得样本方差近似于总体方差而人为设计的。

若想要探求其具体的数学解释和意义,可以移步:
为什么样本方差(sample variance)的分母是 n-1?

(2)标准差
为了在实际运算中,得到保持和变量的量纲一致的,用于衡量数据离散程度的指标。一般也会采用标准差来进行计算。其值等于方差开方。
s=∑i=1n(xi−xˉ)2n−1s=\sqrt\frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n-1}s=n−1∑i=1n​(xi​−xˉ)2​​


1.4 相对位置度量:Z score

方差和标准差可以帮组我们衡量一组数据其总体的离散程度,但是如果想要考察单个数据其在数据组中的相对位置,我们可以使用Z score来计算。也称为标准分数 Standard score
z score等于变量减去平均值再除以标准差,其值的大小达标测量的变量距离均值有多少个单位的标准差。
例如:z score=-1.5,那么其距离均值低1.5个标准差。
Zi=xi−xˉsZ_i=\frac{x_i-\bar x}{s}Zi​=sxi​−xˉ​

如何理解 Z score(重要)

可以从几何意义上来理解。事实上,通过上述公式,只是对变量值进行了相对位置的变换(或者说将原数据组变成了方差为1,平均数为0的一组数据)而已。


这里也可以随手通过简单的代数变换来证明:
假设现有一组数据x1,x2,....xn{x_1,x_2,....x_n}x1​,x2​,....xn​,其均值为xˉ\bar xxˉ,方差为s,那么单个数据点x1x_1x1​的z score就是
Z1=x1−xˉsZ_1=\frac{x_1-\bar x}{s}Z1​=sx1​−xˉ​
如果将所有的Z1,Z2...ZnZ_1,Z_2...Z_nZ1​,Z2​...Zn​来求均值可以得:
Zˉ=Z1+Z2+...+Znn=x1−xˉs+x2−xˉs+...+xn−xˉsn=x1+x2+...+xn−nxˉns\bar Z=\frac {Z_1+Z_2+...+Z_n}{n}=\frac{\frac{x_1-\bar x}{s}+\frac{x_2-\bar x}{s}+...+\frac{x_n-\bar x}{s}}{n}=\frac{x_1+x_2+...+x_n-n\bar x}{ns}Zˉ=nZ1​+Z2​+...+Zn​​=nsx1​−xˉ​+sx2​−xˉ​+...+sxn​−xˉ​​=nsx1​+x2​+...+xn​−nxˉ​
而又有:
nxˉ=n∗x1+x2+...+xnnn\bar x=n*\frac{x_1+x_2+...+x_n}{n}nxˉ=n∗nx1​+x2​+...+xn​​
因此:
Zˉ=0\bar Z=0Zˉ=0
至于为什么这组数据的方差为1,读者可以自己再试着证明一下。
如果懒得证明,可以移步这篇文章查看详细推导过程。
【统计学】关于Z score 的一切(如何由一组数据转变为 平均值为0;方差为1的一组数据)


如果读者有学习过正态分布相关概念,也会很敏锐的察觉到,这就是一个标准正态分布。因此有这样的分布规律

  • 大约68%的数据在平均数一个标准差范围内
  • 大约95%的数据在平均数两个标准差范围内
  • 大约99%的数据在平均数三个标准差范围内

也因为这样的分布规律,我们可以由此判断单独数据点是否属于离群值。

  • 对于服从这一分布规律的数据组

我们就可以 通过查看数据点的 Z score来判断其是否属于 离群点。例如z score>3,这是在分布上只有1%的概率,也就是距离均值非常非常远的数据。
这种数据一般在数据处理中会剔除。

  • 不服从此分布规律的数据组

使用切比雪夫不等式,对于任何分布形态都适用。

切比雪夫谈论的是“所占比例至少是多少”,其公式为:至少有1−1k21-\frac {1} {k^2}1−k21​的数据落在k个标准差内。

  • k=2时,至少有75%的数据在平均数的两个标准差范围内。
  • k=3时,至少有89%的数据在平均数的三个标准差范围内。

1.5 相对离散程度:离散系数

在一组数据中,我们使用方差和标准差来衡量数据的离散程度,但是如果想要衡量两组数据谁的离散程度高,谁的低,那么可能会遇到问题。
例如:

单位 数据 标准差
m {1,2,3,4,5,6,7,8} 2.29128
cm {100,200,300,400,500,600,700,800} 229.128

因此为了消除类似的影响,比较不同数据组的离散程度。一般使用离散系数(coefficient of variation)也称为“变异系数”,其公式为:
vs=sxˉv_s=\frac {s} {\bar x}vs​=xˉs​

可以认为,离散系数是用于衡量 离散程度 的程度的统计量(套娃)


2 偏态和峰态的度量

数据分布的特点,除了离散程度,集中趋势。通常还会对于分布的形状进行衡量,例如形状是否对称,偏斜的程度,或者分布是否扁平。

2.1 偏态及其测度

偏态 skewness 是对于数据分布对称性的测度
偏态系数 coefficient of skewness 是衡量偏态的统计量

SK=n∑(xi−xˉ)3(n−1)(n−2)s3SK=\frac{n\sum(x_i-\bar x)^3}{(n-1)(n-2)s^3}SK=(n−1)(n−2)s3n∑(xi​−xˉ)3​
指标含义:

SK取值 意义
SK=0 对称分布
|SK|>1 高度偏态分布
0.5<=|SK|<=1 中等偏态分布

SK取正时,表示右偏态分布,SK为负时,分布为左偏态分布。

2.2 峰态及其测度

峰态是对数据分布平峰或尖峰程度的测度。
峰态系数是 测量峰态的统计量,记作K

TIPS:峰态是一个相对概念,通常是对比标准正态分布而言。标准正态分布的峰态系数=0,若一个数据分布的峰态系数不为0,则说明分布比标准正态分布更加尖或者更加平。

K取值 意义
K=0 标准正态分布
K>0 尖峰分布
K<0 平峰分布


其计算公式为:
K=n(n+1)∑(xi−xˉ)−3[∑(xi−xˉ)2]2(n−1)(n−1)(n−2)(n−3)s4K=\frac{n(n+1)\sum(x_i-\bar x)-3[\sum(x_i-\bar x)^2]^2(n-1)}{(n-1)(n-2)(n-3)s^4}K=(n−1)(n−2)(n−3)s4n(n+1)∑(xi​−xˉ)−3[∑(xi​−xˉ)2]2(n−1)​

3 总结

总的来说,我们常用的衡量离散程度的有方差,标准差,用于衡量单个变量的离散程度则会涉及到计算 z score;
如果是在几何上查看数据组的分布特征,我们会使用偏态和峰态来查看。

本文部分图片和数据来自于《统计学》第七版,贾俊平。若有侵权,请联系,立马删除。

【统计学01】概括性描述-集中趋势,离散程度,分布形状度量相关推荐

  1. python数据分析及可视化(二)离散程度、标准化值、分布形态、描述性统计图表

    描述性统计 平均指标 调和平均数 算术平均数的变种,本质跟算术平均数是一致的. 定义:变量值倒数的算术平均值的倒数.表示的符号:HHH 调和平均数(根据未分组数据计算的):H=n1x1+1x2+... ...

  2. python分析集聚程度_统计分析_集中趋势and离散程度

    1.数组的集中趋势-如何定义数组的中心 1.1 常用几下几个指标来描述一个数组的集中趋势 均值-算术平均数 . 中位数-将数组升序或降序排列后,位于中间的数. 众数-数组中出现最多的数. 1.2 指标 ...

  3. 【R】数据统计基础:集中趋势和离散程度及简单R语言代码

    集中趋势: 3种常见统计量:均值.中位数.众数 均值: mean() 中位数:median() 众数:没有默认,要先下载R包:FinAna.之后用 get.mode() 离散程度 常见统计量:极差.四 ...

  4. 【数据统计】— 数据分布、集中趋势、离散程度

    [数据统计]- 数据分布 数据分布基本指标 集中趋势 平均数 简单平均数(simple mean): 算术平均数 加权平均数(weighted mean) 几何平均数(geometirc mean) ...

  5. 统计基础—数据集中趋势、离散程度、偏度与峰度的衡量指标(1)

    文章目录 一.数据的集中趋势描述 1.算数平均值 1.1 简单算术平均值 1.2 加权算术平均值 1.3 使用算术平均值的注意事项 2. 调和平均数 2.1.简单调和平均值算法 2.2.加权调和平均数 ...

  6. 数据统计分析(4):数据的离散程度描述

    极差 极差又被称为范围差或全距(Range),以R表示,是用来表示统计资料中的变异量数,其最大值与最小值之间的差距,即最大值减最小值后所得之数据. 它是标志值变动的最大范围,它是测定标志变动的最简单的 ...

  7. 《人人都会数据分析》笔记:数据离散程度描述

    离散程度描述:可以用来说明事物在发展过程中的均衡性.节奏型和稳定性的问题. 离散程度指标:全距.平均差.方差.标准差.离散系数 全距:数据中最大值与最小值的差值.R=Xmax-Xmin 不足:是一个比 ...

  8. 15 数据的概括性度量——离散程度的度量

    1.离中趋势 2 异众比率 3.四分位差 4 方差和标准差 样本方差和标准差 5 自由度 6 相对位置的度量:标准分数 经验法则 7 相对离散程度:离散系数

  9. 转:衡量数据的离散程度

    衡量数据的离散程度 我们通常使用均值.中位数.众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度.常用的可以反 ...

最新文章

  1. syslog记录history历史记录
  2. 视差图转为深度图_Parallax Mapping视差映射:模拟冰块
  3. pytest测试实战 电子书_电子书丨Selenium 3+Python 3自动化测试项目实战:从菜鸟到高手...
  4. android sdk是灰的,Android Studio 2.3 sdk管理器标签灰显
  5. 【Elasticsearch】es 的配置集合
  6. 不要做浮躁的软件工程师——经典
  7. 基于氢探PowerECU的燃料电池控制系统开发经验
  8. SketchUp 2019 组件库的正确应用
  9. 人工智能区块链智能合约_通过业务规则使您的区块链智能合约更智能
  10. Spoon Kettle 输入之获取文件名(Get file names)
  11. Electron:前端人的最佳跨平台解决方案
  12. 自定义滚动条使用(scrollbar样式设置)
  13. 如果你现在创业,我建议你这样搞
  14. macbook系统和linux区别,Mac OS和Linux有什么区别?
  15. 一元函数微分学和一元函数积分学的应用
  16. FastAdmin ULR取别名,重写名别。
  17. 基于java的qq聊天室项目
  18. 保益悦听:让盲人也能用上智能机
  19. win10系统右下角调节声音的小喇叭不见了解决方法
  20. java azure blobs sas_使用Azure.storage.blobs在。NET Core 3.1中生成SAS过期令牌

热门文章

  1. 2021-2027全球与中国刚性散装集装箱市场现状及未来发展趋势
  2. windows 7 如何关闭 程序崩溃时弹出的windows正在检查该问题的解决方案
  3. 「网络安全」2020年十大最佳开源防火墙保护您的企业网络
  4. 计算机软件技术基础 王海燕,认知案例教学法在“计算机软件技术基础”课程中的探讨与应用.doc...
  5. 马云战略的三板斧:上三斧(使命、愿景、价值观),下三斧(组织、人才、KPI)
  6. Perl中say的使用
  7. vue2.0学习笔记 -- 常用指令
  8. jsp源码审计的积累
  9. libevent库学习(1)
  10. “自主”手机操作系统:如何判定及怎么做