极差

极差又被称为范围差或全距(Range),以R表示,是用来表示统计资料中的变异量数,其最大值与最小值之间的差距,即最大值减最小值后所得之数据。

它是标志值变动的最大范围,它是测定标志变动的最简单的指标。移动极差是其中一种。极差不能用做比较,单位不同,方差能用做比较,因为都是个比率。

计算公式:

最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。极差=最大标志值—最小标志值 [1]

R=xmax-xmin(其中,xmax为最大值,xmin为最小值)

平均偏差

平均偏差是数列中各项数值与其算术平均数的离差绝对值的算术平均数。平均偏差是用来测定数列中各项数值对其平均数离散程度的一种尺度。平均偏差可以分为简单平均偏差加权平均偏差

在统计中,如果要反映出所有原数据间的差异,就要在各原数据之间进行差异比较,当原数据较多时,进行两两比较就很麻烦,因此需要找到一个共同的比较标准,取每个原数据值与标准值进行比较。这个标准值就是算术平均数。

平均偏差就是每个原数据值与算术平均数之差的绝对值的均值,用符号A.D.(average deviation)表示。平均偏差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须将离差取绝对数来消除正负号。

平均偏差是反映各标志值与算术平均数之间的平均差异。平均偏差越大,表明各标志值与算术平均数的差异程度越大。该算术平均数的代表性就越小;平均偏差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。

平均偏差又有简单平均偏差和加权平均偏差之分。

计算公式:

  • 简单平均偏差

如果原数据未分组,则计算平均偏差的公式为:

该式称为简单平均偏差。

  • 加权平均偏差

在分组情况下,平均偏差的计算公式为:

该式称为加权平均偏差。 [1]

方差和标准差

方差

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。

统计学意义:

当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。 [6]

样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。

方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。方差相应的计算公式为:

标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。

标准差

标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

变异系数

变异系数(Coefficient of Variation):当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的对比。CV没有量纲,这样就可以进行客观比较了。事实上,可以认为变异系数和极差,标准差和方差一样,都是反映数据离散程度的绝对值。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。

定义:

在概率论和统计学中,变异系数,又称“离散系数”(英文:coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比:

变异系数(coefficient of variation)只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率或单位风险。

计算公式:

(标准偏差SD、平均值MN)

优缺点:

  • 优点

比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。

  • 缺陷

当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。

变异系数无法发展出类似于均值的置信区间的工具。

四分位差

四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1, 即位于25%)的差。

计算公式为:Q = Q3-Q1

四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。

四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但不适合分类数据。

数据统计分析(4):数据的离散程度描述相关推荐

  1. 《人人都会数据分析》笔记:数据离散程度描述

    离散程度描述:可以用来说明事物在发展过程中的均衡性.节奏型和稳定性的问题. 离散程度指标:全距.平均差.方差.标准差.离散系数 全距:数据中最大值与最小值的差值.R=Xmax-Xmin 不足:是一个比 ...

  2. 【R】数据统计基础:集中趋势和离散程度及简单R语言代码

    集中趋势: 3种常见统计量:均值.中位数.众数 均值: mean() 中位数:median() 众数:没有默认,要先下载R包:FinAna.之后用 get.mode() 离散程度 常见统计量:极差.四 ...

  3. python分析集聚程度_统计分析_集中趋势and离散程度

    1.数组的集中趋势-如何定义数组的中心 1.1 常用几下几个指标来描述一个数组的集中趋势 均值-算术平均数 . 中位数-将数组升序或降序排列后,位于中间的数. 众数-数组中出现最多的数. 1.2 指标 ...

  4. 【数据统计】— 数据分布、集中趋势、离散程度

    [数据统计]- 数据分布 数据分布基本指标 集中趋势 平均数 简单平均数(simple mean): 算术平均数 加权平均数(weighted mean) 几何平均数(geometirc mean) ...

  5. 数据挖掘(9-22):数据离散程度+数据清理+三大相关系数+数据库索引(数据库面试常问)+P值含义及理解

    1.衡量数据离散程度的统计量: 数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如 ...

  6. 数据的离散程度度量:极差、四分位差、平均差、方差、标准差、异众比率、离散系数

    数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如下: 极差:极差为数据样本中的最 ...

  7. 数据的离散程度的衡量方式

    数据的离散程度: 即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 1. 常用数据离散度的方式 1.1 极差 极差为数据样本中的最大值与最 ...

  8. 数据离散程度的衡量指标

    有些时候数据的离散程度能够让我们数据分析得出一些其他信息,理想情况下数据越集中那么效果越好.那么有没有指标来衡量?答案是有得,今天主要学习一下数据离散程度的衡量指标.     1.极差 极差就是对一组 ...

  9. 基于云服务创建离线数据统计分析服务(一)

    基于云服务创建离线数据统计分析服务 离线数据统计分析 使用数据工厂.数据计算服务产品,可对多源数据(DB,FILE)整合分析,制定周期性的调度任务,提供任务监控及预警.数据统计分析等功能,可对接BI报 ...

最新文章

  1. 法国拟将雷诺与日产合并 代表团抵日进行谈判
  2. h5首页加载慢_H5网站好不好?
  3. MySQL性能优化笔记整理
  4. 允许修改 SharePoint2010 中的电子邮件
  5. 什么是Pro*C/C++,嵌入式SQL,第一个pro*c程序,pro*c++,Makefile,Proc增删改查
  6. 平板电脑硬件如何测试软件,先锋(Pioneer)G71平板电脑软件测试评测-ZOL中关村在线...
  7. Modbus协议栈开发笔记之七:Modbus ASCII Slave开发
  8. javascript函数式_JavaScript中的函数式编程—结合实际示例(第2部分)
  9. 计算机科学申请文书,美国留学:看牛人怎么写申请计算机CS专业的文书
  10. glide首次加载图片时,出现图片变形,重复一下就正常
  11. Python解析ofd文件
  12. 微信小程序mpvue框架
  13. 无锁(Lock-Free)编程简介及漫谈
  14. Nonebot QQ机器人插件七:智能聊天机器人
  15. 什么是存储器?存储器可分为哪三类?
  16. Vo Mic|旧手机不要扔,一招秒变无线麦克风
  17. 工作中那些让人印象深刻的BUG(1)
  18. python程序设计黄锐军_Python程序设计
  19. ip6plus电池测试软件,超雪维修教程(七):iphone6/6 plus更换电池详细图文步骤
  20. 学生成绩管理系统(简易版)

热门文章

  1. 帝国CMS仿《手艺活》DIY手工制作网源码/92kaifa仿手艺活自适应手机版模板
  2. MATLAB算法实战应用案例精讲-【数模应用】多元线性回归(MLR)(附Java、R语言、python和matlab代码实现)
  3. 最短路径-dijkstra/floyd
  4. 星巴克中国啡快在支付宝、淘宝等多平台焕新上线
  5. 星巴克在中国还要卖多贵?
  6. 基于TF-IDF算法,来创建自己的词典库(文本预处理并结合关键词库)
  7. 基于训练符号的频偏估计方法 (SC-FDE/OFDM)
  8. 直播课堂系统06-搭建项目前端环境
  9. 题目:大礼包(深度优先搜索)
  10. 生信初学者必备的基础知识