离中趋势

  • 数据分布的另一个重要特征
  • 反映各变量值远离其中心值的程度(离散程度)  从另一个侧面说明了集中趋势测度值的代表程度
  • 不同类型的数据有不同的离散程度测度值

离散程度的度量

  • 分类数据:异众比率
  • 顺序数据:四分位差
  • 数值型数据:方差和标准差
    • 1. 极差 (range)
    • 2. 平均差 (mean deviation)
    • 3. 方差和标准差 (variance and standard deviation)
    • 4. 相对位置的度量
  • 相对离散程度:离散系数

分类数据:异众比率

异众比率 (variation ratio)

  • 对分类数据离散程度的测度
  • 非众数组的频数占总频数的比例
  • 用于衡量众数的代表性

顺序数据:四分位差

四分位差 (quartile deviation)

  • 对顺序数据离散程度的测度
  • 也称为内距或四分间距
  • 上四分位数与下四分位数之差
  • Qd = QU – QL
  • 反映了中间50%数据的离散程度
  • 不受极端值的影响
  • 用于衡量中位数的代表性

数值型数据:方差和标准差

1. 极差 (range)

  • 一组数据的最大值与最小值之差
  • 离散程度的最简单测度值
  • 易受极端值影响
  • 未考虑数据的分布

2. 平均差 (mean deviation)

  • 各变量值与其平均数离差绝对值的平均数
  • 能全面反映一组数据的离散程度
  • 数学性质较差,实际中应用较少

3. 方差和标准差 (variance and standard deviation)

  • 数据离散程度的最常用测度值
  • 反映了各变量值与均值的平均差异
  • 根据总体数据计算的,称为总体方差(标准差);根据样本数据计算的,称为样本方差(标准差),记为s2(s)

4. 相对位置的度量

(1)标准分数(standard score)

  • 也称标准化值
  • 对某一个值在一组数据中相对位置的度量
  • 可用于判断一组数据是否有离群点(outlier)
  • 用于对变量的标准化处理

(2)经验法则

经验法则表明:当一组数据对称分布时

  • 约有68%的数据在平均数加减1个标准差的范围之内
  • 约有95%的数据在平均数加减2个标准差的范围之内
  • 约有99%的数据在平均数加减3个标准差的范围之内

(3)切比雪夫不等式 (Chebyshev’s inequality)

  • 如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用;
  • 切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”
  • 对于任意分布形态的数据,根据切比雪夫不等式,至少有(1-1/(k^2))的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数

对于k=2,3,4,该不等式的含义是

  • 至少有75%的数据落在平均数加减2个标准差的范围之内
  • 至少有89%的数据落在平均数加减3个标准差的范围之内
  • 至少有94%的数据落在平均数加减4个标准差的范围之内

相对离散程度:离散系数

离散系数 (coefficient of variation)

  • 标准差与其相应的均值之比
  • 对数据相对离散程度的测度
  • 消除了数据水平高低和计量单位的影响
  • 用于对不同组别数据离散程度的比较

统计学原理 离散程度的度量相关推荐

  1. 15 数据的概括性度量——离散程度的度量

    1.离中趋势 2 异众比率 3.四分位差 4 方差和标准差 样本方差和标准差 5 自由度 6 相对位置的度量:标准分数 经验法则 7 相对离散程度:离散系数

  2. 数据统计分析(4):数据的离散程度描述

    极差 极差又被称为范围差或全距(Range),以R表示,是用来表示统计资料中的变异量数,其最大值与最小值之间的差距,即最大值减最小值后所得之数据. 它是标志值变动的最大范围,它是测定标志变动的最简单的 ...

  3. 数据的离散程度度量:极差、四分位差、平均差、方差、标准差、异众比率、离散系数

    数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如下: 极差:极差为数据样本中的最 ...

  4. 离散程度度量:平均差、方差、标准差

    数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一加粗样式种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如下: **极差:**极差 ...

  5. 【统计学01】概括性描述-集中趋势,离散程度,分布形状度量

    0 集中趋势度量 01 众数 02 中位数 03 平均数 普通加权:xˉ=∑i=1nxin\bar x=\frac {\sum_{i=1}^n x_i}{n}xˉ=n∑i=1n​xi​​ 分组加权:x ...

  6. 数据分析技能点-离散程度度量

    大家好,我是Mr数据杨.在这灵动的数字世界中,每个人都如同三国演义中的英雄人物,通过操控数据的力量揭示出深层的含义.好比我们的数据特征,就如同对郭嘉.诸葛亮等人才的评估,每一条信息都能揭示其天赋和才情 ...

  7. 转:衡量数据的离散程度

    衡量数据的离散程度 我们通常使用均值.中位数.众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度.常用的可以反 ...

  8. 【信息论基础】离散信息的度量—自信息和互信息

    参考[信息论基础]第2章离散信息的度量-自信息和互信息_哔哩哔哩_bilibili 目录 一.自信息 ◼ 自信息 例题 ◼ 联合自信息 例题 ◼ 条件自信息 例题 例题2 ◼ 自信息,联合自信息和条件 ...

  9. 数据的离散程度的衡量方式

    数据的离散程度: 即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 1. 常用数据离散度的方式 1.1 极差 极差为数据样本中的最大值与最 ...

最新文章

  1. Oracle集合操作
  2. 【深度学习篇】--神经网络中的调优二,防止过拟合
  3. JavaScript中的instanceof运算符是什么?
  4. 十六进制数转换成float类型数据数据的经典代码
  5. TCP/IP分析(一) 协议概述
  6. java面向_java是面向什么的语言?
  7. 神经网络与深度学习——TensorFlow2.0实战(笔记)(二)(开发环境介绍)
  8. 数据结构——图的C语言实现
  9. 使用zabbix监控MongoDB
  10. java开发搭建环境搭建_Java开发环境搭建
  11. 如何自动生成和安装requirements.txt依赖
  12. cannot register datanode 0.0.0.0:1002,because current license expired time is
  13. ubuntu下使用screen用不关闭
  14. Git 拉取开发环境代码,合并到自己分支,提交自己分支
  15. python 封包发包_python中封包建立过程实例
  16. word中鼠标没有反应,可以动但是点哪都没反应
  17. 为什么前端UI设计师给750PX的2倍设计稿?
  18. C++的errorC2039和C2679的解决
  19. RBM-MHC: A Semi-Supervised Machine-LearningMethod for Sample-Specific Prediction of AntigenPresent
  20. 用标签条码打印软件打印发货单标签

热门文章

  1. 杭州保俶塔实验机器人_以沟通促学习 以交流促进步----赴杭州市保俶塔实验学校交流学习...
  2. stm32 usart的BRR寄存器的配置,程序是CMSIS中的,分析它是怎么实现的?(自己设置好波特率,库文件会根据波特率计算BRR的值,和以前STM8不一样,需要自己根据波特率计算BRR值再设置)
  3. HTML-标签-a标签
  4. python的缩进规则具体是什么_python缩进规则叫什么
  5. 2020“东方国信杯”高校大数据开发大赛最终榜第三名思路分享
  6. 阿里云 Aliplayer高级功能介绍(七):多分辨率
  7. PyCharm关闭更新提示
  8. Win 8预览版将上市 首批应用名单出炉
  9. 广告sdk是什么意思?广告SDK分类及用途介绍
  10. 如何给客户进行价值塑造?说一万句话,不如讲一个故事