什么是分布度的度量

Measures of spread describe how similar or varied the set of observed values are for a particular variable (data item). Measures of spread include the range, quartiles and the interquartile range, variance and standard deviation.

分布度度量描述了特定变量(数据项)的观察值集的相似性或变化程度。 分布度的度量包括范围,四分位数和四分位数范围,方差和标准差。

我们什么时候能测量分布度?

The spread of the values can be measured for quantitative data, as the variables are numeric and can be arranged into a logical order with a low end value and a high end value.

为什么我们要测量分布度?

Summarising the dataset can help us understand the data, especially when the dataset is large. As discussed in the Measures of Central Tendency , the mode, median, and mean summarise the data into a single value that is typical or representative of all the values in the dataset, but this is only part of the ‘picture’ that summarises a dataset. Measures of spread summarise the data in a way that shows how scattered the values are and how much they differ from the mean value.

总结数据集可以帮助我们理解数据,尤其是在数据集很大时。例如众数,中位数和平均值将数据汇总为单个值,该值是典型的或代表数据集中所有值的值,但这只是总结了一个数据集的一部分。分布度度量以一种方式汇总数据,该方式显示值的分散程度以及它们与平均值的差异程度。

Used together, the measures of central tendency and measures of spread help us to better understand the data

何如理解每种分布度指标?

  • 范围是数据集中最小值和最大值之间的差值。

    The range is the difference between the smallest value and the largest value in a dataset.

  • 分位数将有序数据集划分为四个相等的部分,并参考四分之间点的值。 数据集也可以分为五分位数(五个相等部分)或十分位数(十个相等部分)。

    Quartiles divide an ordered dataset into four equal parts, and refer to the values of the point between the quarters. A dataset may also be divided into quintiles (five equal parts) or deciles (ten equal parts).

  • 四分位距(IQR)是上(Q3)和下(Q1)四分位数之间的差异,描述了从最低到最高排序时的中间值50%。 IQR通常被视为比range更好的分布度度量,因为它不受异常值的影响。

    The interquartile range (IQR) is the difference between the upper (Q3) and lower (Q1) quartiles, and describes the middle 50% of values when ordered from lowest to highest. The IQR is often seen as a better measure of spread than the range as it is not affected by outliers.

  • 方差和标准差是围绕均值的数据分布度的度量。 他们总结了每个观察到的数据值与平均值的接近程度。

    The variance and the standard deviation are measures of the spread of the data around the mean. They summarise how close each observed data value is to the mean value.

    The standard deviation of a normal distribution enables us to calculate confidence intervals. In a normal distribution, about 68% of the values are within one standard deviation either side of the mean and about 95% of the scores are within two standard deviations of the mean.

    The larger Variance and Standard Deviation demonstrates that a dataset is more dispersed

参考资料

Measures of Spread

数据分布度的度量Measures of Spread相关推荐

  1. 机器学习 - [源码实现决策树小专题]决策树中混杂度数值度量的Python编程实现(信息熵和基尼系数的计算)

    混杂度数值度量的Python编程实现 李俊才 的 CSDN 博客:https://blog.csdn.net/qq_28550263?spm=1001.2101.3001.5343 邮箱 :29114 ...

  2. 数据对象与对象之间相似度与相异度的度量

    为方便起见,我们使用术语邻近度(proximity)表示相似性或相异性.由于两个对象之间的邻近度是两个对象对应属性之间的邻近度的函数. 我们首先介绍如何度量仅包含一个简单属性的对象之间的邻近度,然后考 ...

  3. 如何用余弦定理来进行文本相似度的度量

    在做文本分析的时候,经常会到说将文本转化为对应的向量,之后利用余弦定理来计算文本之间的相似度.但是最近在面试时,重复上面这句话,却被面试官问到:"什么是余弦定理?"当时就比较懵逼, ...

  4. 《统计学习方法》学习笔记(4)--k近邻法及常用的距离(or 相似度)度量

    一.k近邻法基础知识 1. 特征空间中两个实例点的距离反应了两个实例点的相似程度. 2. k近邻模型三要素 = 距离度量(有不同的距离度量所确定的最邻近点不同)+k值的选择(应用中,k值一般取一个比较 ...

  5. 数据结构学习笔记:算法复杂度的度量之“大O记号”

    分析算法复杂度的非常重要的方法:大O记号!! 下面来让我们看一下到底什么是大O记号 举个例子: 用一个直尺去评价算法复杂度,上面的刻度就相当于大O记号,我们不一定要一味的强调刻度的精细程度,没有必要. ...

  6. 面向数据科学家的实用统计学_数据科学家必知的统计数据

    面向数据科学家的实用统计学 Beginners usually ignore most foundational statistical knowledge. To understand differ ...

  7. 统计学小抄:常用术语和基本概念小结

    统计学是涉及数据的收集,组织,分析,解释和呈现的学科. 统计的类型 描述性统计 描述性统计是以数字和图表的形式来理解.分析和总结数据.对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据, ...

  8. 文本相似度-相似度度量

    NLP点滴--文本相似度 目录 前言 字面距离 common lang库 相同字符数 莱文斯坦距离(编辑距离) 定义 实现方式 Jaro距离 定义 实现方式 应用 SimHash 定义 基本流程 相似 ...

  9. (软件工程复习核心重点)第五章详细设计-第五节:程序复杂度的定量度量

    文章目录 一:价值(了解) 二:McCabe方法 (1)流图 A:定义 B:把程序流程图映射为流图 C:PDL翻译为流图 (2)环形复杂度 A:定义 B:计算方法 三:Halstead方法(了解) ( ...

  10. 美可以度量吗?一种用复杂度指标刻画艺术品美感的尝试

    转载自:集智俱乐部(ID:swarma_org) 作者:十三维 本文 7101 字17图 ,建议阅读 18分钟 . 本文作者从熵复杂度的三种度量出发,重新审视了图像欣赏与其统计属性之间的关系,并最终揭 ...

最新文章

  1. 30年间,软件开发行业为何Bug纷飞?
  2. 数组、链表、Hash(转)
  3. netty系列之:Event、Handler和Pipeline
  4. java课程之团队开发第一阶段评论
  5. 微软放弃IE浏览器 应尽快完成国产化替代
  6. 上交所行情文件导入数据库
  7. 计算机应用基础的客观题,计算机应用基础专题库客观题参考答案11
  8. mariadb 和mysql主从_Mariadb/Mysql 主从复制(1)
  9. C语言练习实例——反向输出
  10. linux下libpng库的安装以及使用
  11. 基于java语言的C/S模式网络聊天室软件
  12. java注解生成xml和包含CDATA问题
  13. linux与windows笔记本连线共享wifi
  14. Flask开发实现在线问答系统首页功能
  15. 新手学习电脑知识的一些方法 oldtimeblog
  16. mysql 日志重做,設置MySQL重做日志大小
  17. JavaScript 小案例 弹幕
  18. 28天高效突击大礼包:微服务+分布式+框架,java开发spark视频
  19. Android 一个简单手机响铃功能实现
  20. mysql_affect_array_Mysql代理类 支持Master/Slave 读写分离

热门文章

  1. c 语言可以直接调用max,c语言宏定义函数如何调用
  2. PRIMARY KEY与identity(1,1)的比较
  3. matlab时频工具箱简介,matlab时频工具箱
  4. 雷达图按照权重和排名计算出每项得分,并且按照综合得分排序
  5. 股票估值法研究报告_论述股票的估值方法
  6. SpringBoot框架下使用过滤器Filter
  7. 谨防打黑工丨被“偷走”的实习期
  8. office word ppt 无法打开, 一直处于安全模式,无法解除
  9. 版本控制工具SVN的使用
  10. JAVA--获取当前日期两个月之前的日期