统计学基础知识之数据离散程度描述

集中趋势指标是数据的一个特征,数据的另一个特征是离散程度指标。在统计分析中,离散程度指标可以说明集中趋势指标的代表性如何,还可在统计推断时用来计算误差的大小。另外,离散程度指标还被用来说明事物在发展变化过程中的均衡性、节奏性和稳定性等问题。例如,有两组数据,第一组是19,20,21,第二组是15,20,25。如果只根据均值(两组的均值都是20)我们将无法区别两组数据有什么不同。但显然两组数据是有区别的。在这种情况下,就需要使用离散程度的指标来描述那一组分散的程度更大一些。下面是yjbys小编为大家带来的关于数据离散程度描述的知识,欢迎阅读。

离散程度指标的种类很多,下面介绍的是常用的几种。

全距(Range)又称极差,是指数据中最大值和最小值的差值。如果用R表示全距,用Xmax,Xmin,分别表示数据的最大值、最小值,则全距公式为:R = Xmax- Xmin。例如,前面提到的两组数据中,第一组数据的全距R = 21 – 19 = 2,第二组数据的全距R = 25 – 15 = 10。通过全距的数值我们可以确定第二组数据的离散程度更大。由此,我们可以记住一个一般性结论:离散指标的数据越小,说明数据的变异程度就越小;数值越大,则说明数据的.变异程度越大。当然,这个结论只有在同类离散指标相比较时才会有意义。

全距指标的应用问题

全距指标的含义容易理解,计算也很简便。因此,在某些场合具有特殊的用途。例如,要说明一个地区的温度情况,没有比用温差说明更好的指标了。在描述一种股票的波动情况时,最高价和最低价的差是常使用的特征值。另外,在成品质量控制方法中,R控制图也是全距的一种应用。但是,全距在计算上只与两个极端值有关,因此它不能反应其他数据的分散情况,就这一点来说,全距只是一个比较粗糙的测度指标。如果需要全面、精确地说明数据离散程度时,就不宜使用全距。

平均差(Mean Absolute Deviation)就是各项数值与其均值之差绝对值之和的平均数。用MAD表示平均差,其公式为:

所谓离散,是个相对概念,需要用一个标准来衡量。因为均值是最重要也是最常用的指标,所以就成为衡量离散程度的一个常用标准。方法就是用各项数据与与均值相减,通常将这个差值称为离差(Deviation)。离差数值的大小就可以说明数据的偏离程度。但是,可以证明

因为相对于均值的正、负偏差之和是相等的。为了解决离差正、负值抵消的问题,统计学家使用了绝对值的方法,如平均差,更多使用的是平方的方法,如方差,然后再用平均的方法,消除掉由于数据项数多少给离差值带来的影响,即从指标的含义来看,平均差的数值代表了所有数据离均值的平均距离,使用该数据说明数据的离散程度,比较容易理解。

平均差的应用问题

虽然平均差简单易懂,但因为使用了绝对值,不便于进一步计算,所以在实际应用中不如其他离散指标应用那样广泛。但在预测领域,还常常使用该指标用于误差的说明。

方差(Variance)就是全部数据离差平方的平均数。总体方差表示,计算公式为:

方差克服了平均差绝对值的问题,成为描述离散程度的一个重要指标。但是,在方差数值含义的解释上却遇到困难。因为方差的单位是数据单位的平方,夸大了数据的离散程度,使人不易直观理解数值意义。因此,通常取方差的算数平方根作为描述离散程度的指标,即标准差(StandardDeviation)。总体标准差的公式表示如下:

如果用上面的数据计算,对于这个数据,我们就很容易理解它的含义了。=方差、标准差的应用问题总体方差表示,总体标准差用

表示,而样本方差用S2表示,样本标准差用S表示,不能混淆。样本方差与标准差的计算公式如下:

可以看到,样本方差及标准差与总体方差和标准差的计算公式略有不同。样本方差和标准差的分母是n-1而不是n。因为样本的方差和标准差在使用中,经常作为总体方差和标准差的估计量,分母除以n-1而不是n,可以得到总体方差和标准差的较好的估计量。

离散系数(Coefficient Of Variation)就是标准差与均值的比值。一般用V表示。总体的离散系数表示:

样本的离散系数表示为:

离散系数的应用问题

离散系数实质上是标准差相对于均值的大小。因此,如果比较均值不相同的两组数据相对离散程度时,使用离散系数,要比使用标准差更准确。例如,假定有甲、乙两个工人,甲平均每小时生产40个零件,标准差是5件。乙平均每小时生产80个零件,标准差为6件。那么那个工人的稳定性比较好呢?根据标准差的定义,标准差越小,离散性就越小,所以甲生产要比乙稳定。但是,我们看到乙的标准差虽然比甲略高,但其生产的能力确实甲的2倍(80/40)。也就是说,6相对于80的变化要小于5相对于40的变化,这个含义就是离散系数。计算过程如下:

由此可见,乙的离散系数小于甲,所以乙的生产要比甲相对稳定。离散系数是个无名数,这是它与其他离散指标的最大区别。全距、平均差还有标准差,它们都是有名数,其单位与原始数据的单位一致。离散系数的这一特点使其不仅可以说明同类事物的相对离散程度,还可以说明不同类事物的相对离散程度。例如,当我们有兴趣比较一群人的身高离散程度大,还是体重离散程度大时,其他离散指标都不能用于比较,因为身高与体重的单位不一致。而离散系数就可以比较,因为它完全消除了单位的影响。

【统计学基础知识之数据离散程度描述】相关文章:

oracle离散度,统计学基础知识之数据离散程度描述相关推荐

  1. 《人人都会数据分析》笔记:数据离散程度描述

    离散程度描述:可以用来说明事物在发展过程中的均衡性.节奏型和稳定性的问题. 离散程度指标:全距.平均差.方差.标准差.离散系数 全距:数据中最大值与最小值的差值.R=Xmax-Xmin 不足:是一个比 ...

  2. 【大数据】大数据基础知识科普--数据分层

    大数据基础知识科普–数据分层 (ETL.ODS.DW.DWD.DWM.DWS.DIM) 零.数据加载层:ETL(Extract-Transform-Load) 一.数据操作层:ODS(Operatio ...

  3. 机器学习基础知识之概率论的Matlab描述概率的图像(一)

    机器学习基础知识之概率论的Matlab描述概率的图像(一) (由于有很多的分布,而且还有一维分布以及多维分布,因此,我们一篇博文写下来的话内容量太大,文章太长,因此,我们分三次写完所有的基本的一维以及 ...

  4. 数据挖掘(9-22):数据离散程度+数据清理+三大相关系数+数据库索引(数据库面试常问)+P值含义及理解

    1.衡量数据离散程度的统计量: 数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如 ...

  5. 数据统计分析(4):数据的离散程度描述

    极差 极差又被称为范围差或全距(Range),以R表示,是用来表示统计资料中的变异量数,其最大值与最小值之间的差距,即最大值减最小值后所得之数据. 它是标志值变动的最大范围,它是测定标志变动的最简单的 ...

  6. 数据离散程度的衡量指标

    有些时候数据的离散程度能够让我们数据分析得出一些其他信息,理想情况下数据越集中那么效果越好.那么有没有指标来衡量?答案是有得,今天主要学习一下数据离散程度的衡量指标.     1.极差 极差就是对一组 ...

  7. 老司机带你玩转面试(1):缓存中间件 Redis 基础知识以及数据持久化

    引言 今天周末,我在家坐着掐指一算,马上又要到一年一度的金九银十招聘季了,国内今年上半年受到 YQ 冲击,金三银四泡汤了,这就直接导致很多今年毕业的同学会和明年毕业的同学一起参加今年下半年的秋招,这个 ...

  8. 基础知识学习-数据结构篇

    糊里糊涂的做了快三年的码农,随着编码的不断增加,越发的觉得自己的基础知识薄弱.从零开始学起,从头开始做起. 本篇为博客园的伊始篇,记录数据结构相关的基础知识. 目录结构 第一篇 数据结构相关概念 第二 ...

  9. SQL Server 索引基础知识(8)--- 数据基本格式补充(转自蝈蝈俊.net)

    我在SQL Server 索引基础知识系列中,第一篇就讲了记录数据的基本格式.那里主要讲解的是,数据库的最小读存单元:数据页.一个数据页是8K大小. 对于数据库来说,它不会每次有一个数据页变化后,就存 ...

  10. 实例讲解统计学基础知识(4):参数估计

    作者:xxw9485 时间:2018/3/20 来源:https://www.jianshu.com/p/7e556f17021a 参数估计 统计学有两大主要分支,分别是描述性统计学和推断统计学.描述 ...

最新文章

  1. VSCode环境下配置ESLint 对Vue单文件的检测
  2. windows cmd post请求_cmd命令集合
  3. 步步为营-77-Ajax简介
  4. react学习(25)---注意接口引入位置
  5. linux心跳包检测代码_OpenSSL心跳包越界读敏感信息泄漏漏洞
  6. 02 掌握变量的定义和使用方法 1214
  7. linux 修改自动联网的配置说明
  8. MySQL主从同步(五)——排错思路
  9. AJAX中get与post区别
  10. Java I/O 全面详解
  11. vissim4.3安装教程
  12. 分享大二时用python写的银行管理系统(超简单版)内附源码
  13. Ubuntu下 VS code安装并配置C/C++模块
  14. Qt播放视频0x8007000e报错 DirectShowPlayerService::doPlay: Unresolved error code 0x8007000e
  15. 描述汇集天地之灵气的上道下器
  16. 网站可行性报告范文_嵩县写可行性研究报告项目报告范文
  17. 中国石油大学《计算机网络课程设计》第三次在线作业
  18. 推荐一个svg转ico的在线网站(非常清晰)
  19. ABBYY FineReader 14之如何选择正确的OCR选项
  20. C++ Qt高仿QQ影音视频播放器 (一)

热门文章

  1. 共同富裕、乡村振兴专题:基尼系数、恩格尔系数、泰尔指数-数据大全整理
  2. SqlServerSQL语句方式--视图创建
  3. imnoise2.m
  4. 使用触发器对学生表操作进行日志记录
  5. C语言 数组指针详解
  6. 代码版本管理软件Git的优势和用法
  7. 在虚拟机安装windows xp时所需要的序列号
  8. 基于Java web的校园滴滴代驾管理系统 毕业设计-附源码260839
  9. 【博文视点送书福利】Java程序员也应该会点产品经理的活!另外还要有小程序哦!
  10. java 抽象工厂 类图_Java设计模式——抽象工厂模式