文章目录

  • 一、描述数值的度量
    • 1.1 集中趋势
      • 1.平均数
      • 2.中位数
      • 3.众数
    • 1.2 离散程度
      • 1.全距/极差
      • 2.方差、标准差
      • 3.变异系数
      • 4.Z值
      • 5.分布形状
    • 1.3 总体数据的数值型描述度量
      • 1.经验法则(适用于数据对称)
      • 2.切比雪夫法则(适用于不对称的数据)
    • 1.4 描述两个变量之间的关系的度量
      • 1. 协方差(covariance)
      • 2.相关系数(coefficient of correlation)

一、描述数值的度量

在统计应用中,对数值变量进行总结和描述的时候,通常从三个维度进行分析

1. 集中趋势:所有数据观测值是否在一个典型或中心值周位的范围内
2. 离散程度:观测值与一个中心值散布或分散的量
3. 分布形状:观测值从最低值到最高值分布的模式

1.1 集中趋势

1.平均数

作用: 平均数是用于反映总体数据的一般水平,或分布的集中趋势。

缺点:
a. 平均数容易受到极端值的影响,如果数据中有极大极小值,此时平均数的代表性很差
b. 当一组数据有明显的偏态分布时,平均数的代表性差

2.中位数

作用: 用来代表一组数据的中等水平,是一组数据中间位置上的代表值,不受极端值和偏态分布的影响

缺点: 因为只利用了部分数据来代表一组数据的集中趋势,可靠性较差,不代表整体。

计算公式: (n+1)/2

3.众数

作用: 集中了数据集中发生频数最高的数据值,不易受极端值影响,在一个数据集中,众数可能不存在或存在多个众数。当一组数据中有不少数据多次重复出现时,众数也往往是我们关心的一种集中趋势。它反映了一种最普遍的倾向

缺点: 没有平均数准确

1.2 离散程度

1.全距/极差

全距= 最大值 - 最小值

作用: 全距简单的度量了数据集的总体离散程度

2.方差、标准差

标准差的作用:

描述数据集的波动大小或者说离散程度。
标准差跟平均值有着相同的量纲(单位),所以便于衡量一个数据集的波动程度,
例如:一个球员,每场平均得分22.3分,标准差为3.1,那么可以说他每场得分聚集在22.3分上下浮动3.1分的范围内

公式:

注意: 总体的方差是除以总体样本个数N的,而样本方差是除以样本个数减1的,即(n-1)

3.变异系数

coefficient of variation , 用符号CV表示。

作用: 当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲/单位的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。

公式: CV = 标准差 / 平均数 * 100%

例子: 物流公司打算买新车,要考虑车的容量:体积和载重。从平常的货物中随机取样200个,发现平均重量26磅,标准差3.9磅,平均体积8.8立方英尺,标准差为2.2立方英尺。计算体积的CV为25%,重量的CV为15%。因而,相对于平均数,包裹体积比包裹重量变动更大。

4.Z值

作用: 识别异常值
Z= X - μ / σ
Z值等于:(观测样本值 - 样本平均值) /样本标准差
Z值如果小于-3或大于3,认为该样本是异常值。

5.分布形状

均值<中位数:负偏,或左偏(左边长尾,左边的极小值拉低了平均数)
均值=中位数:对称分布,零偏度
均值>中位数:正偏,或右偏(右边长尾,右边的极大值拉高了平均数)

1.3 总体数据的数值型描述度量

1.1,1.2章节介绍的描述数据主要是针对样本数据的,要注意的是对总体数据的描述,标准差和方差是除以N

1.经验法则(适用于数据对称)

当一组数据是对称分布的时候,可以用经验法则来检验这些分布的特性:

  • 约有68%的数据在平均数±1个标准差的范围内
  • 约有95%的数据在平均数±2个标准差的范围内
  • 约有99%的数据在平均数±3个标准差的范围内

当出现在平均数三个标准差之外的数据,可以当做outlier。

2.切比雪夫法则(适用于不对称的数据)


例题:一种新的心脏手术正在一家医院推广,对于已完成的20例这种手术,平均住院期为14.3天,标准差为2.84天,因为手术复杂,住院期天数的总体不服从正态分布,而是有些正偏,总体标准差未知,求总体均值的90%近似置信区间。

1.4 描述两个变量之间的关系的度量

用来描述两个变量之间的关系,比如说,年龄跟身高这两个变量间有没关系

1. 协方差(covariance)

作用: 度量两个数值变量X和Y之间的线性关系强度。如果协方差大于0,则两个变量正相关,反之同理,等于0则不相关。

缺点: 协方差只是个值,不能够确定两个变量之间关系的相对强度。因此需要计算相关系数来判定。换句话说,协方差只是为了计算相关系数,的中间产物。

样本协方差计算公式:

2.相关系数(coefficient of correlation)

作用: 衡量两个数值变量间的线性关系的相对强度。

取值范围: 【-1,1】

计算公式:

化简

相关性:
当 |r| >=0.8时,有强相关性
当0.5<|r|<0.8时,有较强相关性
当0.3<|r|<0.5时,有弱相关性
当 |r| <0.3时,无相关性

注意点: 存在较强的相关性并不意味着因果关系!!!仅仅意味着数据有如此倾向。

商务统计分析(第3章 数据描述)相关推荐

  1. 第二章-数据描述(初级统计)

    一.图表展示定性数据 定性数据包括分类数据和顺序数据(通常用频数分布表和图形描述). 饼图.直方图.环形图来描述的是单变量的数据. (一)频数分布表 频数分布表中落在某一特定类别的数据个数称为次数或频 ...

  2. 《应用商务统计分析》第一章 线性回归(报告)

    说明:本报告仅供学习参考,不代表任何投资建议.同时欢迎各位大佬指点交流~ 报告地址:因为博客里面的编辑界面不太友好(本人懒),所以将报告上传至了github:

  3. 什么是数据描述统计分析指标?

    数据描述统计分析 无序数据 均值 均值(mean)和平均值(average)的区别 中位数(中值) 众数 极差 方差(离均差平方) 标准差(标准偏差.实验标准差.均方差) 协方差 标准分 四分位数 实 ...

  4. 第2章 数据认知与预处理

    <大数据挖掘及应用>学习笔记. 第2章 数据认知与预处理 2.1 数据分析的定义和流程 数据分析(data analysis)是指用适当的统计分析方法对收集来的大量数据进行分析和解释,提取 ...

  5. 【转】第5章 数据的描述性分析

    文章来源于:炼数成金:摘自<数据分析:R语言实战> 第5章 数据的描述性分析 通过前面两章的学习,我们知道,数据收集是取得统计数据的过程,数据预处理是将数据中的问题清理干净,那么接下来的步 ...

  6. 《计算传播学导论》读书笔记:第七章 数据新闻

    目录 第七章 数据新闻 第一节 产生背景 第二节 理论源流 一.计算驱动的新闻报道 二.可视化驱动的新闻报道 三.制作流程 第三节 实战练习 一.维基解密阿富汗战争日志 二.奥运会数据分析和EChar ...

  7. 多元统计分析何晓群_多元统计分析第四章作业

    关注公众号,更多资源分享 回复关键词:多元统计分析 即可获取更多详细其他章节答案 <多元统计分析>课后答案||何晓群版(第二章) <多元统计分析>第一章课后答案(何晓群编第五版 ...

  8. Python金融大数据分析——第五章数据可视化(1)二维绘图

    目录 第五章 数据可视化 5.1 二维绘图 5.1.1 一维数据集 5.1.2 二维数据集 5.1.3绘制其他图表 5.1.3.1绘制散点图 5.1.3.2 直方图 5.1.3.3 箱型图 第五章 数 ...

  9. 《编写高质量代码:改善c程序代码的125个建议》——第1章 数据,程序设计之根本建议1:认识ANSI C...

    本节书摘来自华章计算机<编写高质量代码:改善c程序代码的125个建议>一书中的第1章,建议1,作者:马 伟 更多章节内容可以访问云栖社区"华章计算机"公众号查看. 第1 ...

  10. PP团队圣经巨著《Application Architecture Guide2.0》14章-数据访问层

    第十四章 数据访问层指导 概览 这一章主要描述设计数据访问层时要注意的主要原则.它们覆盖了设计数据访问层遇到的通常问题及错误.下面的图表展示了数据层怎样嵌入一个通用的应用架构. (cnblog我的图片 ...

最新文章

  1. python入门教程共四本书籍-关于 Python 的经典入门书籍有哪些?
  2. 面试关于ISO七层模型你应该知道的东西
  3. fun python_Python(一)
  4. Java web 初入
  5. Java黑皮书课后题第5章:*5.31(金融应用:计算CD价值)假设你用10 000美元投资一张CD,年利率为5.75%。编写程序,提示由用户输入一个金额数、年获利率、月份数,然后显示一个表格
  6. cstring判断是否包含子串_leetcode76. 最小覆盖子串
  7. Hadoop配置文件参数详解
  8. spring aop组件_安全性中的Spring AOP –通过方面控制UI组件的创建
  9. 1.5编程基础之循环控制 38 计算多项式的导函数
  10. python 字节码指令含义_python 字节码指令列表
  11. Arcpy报错及解决——持续补充中
  12. 接口文档生成工具apipost
  13. 中国可擦除可编程只读存储器行业市场供需与战略研究报告
  14. VMWare 虚拟机工作站 + Ubuntu操作系统安装
  15. 第一篇:CUDA 6.0 安装及配置( WIN7 64位 / 英伟达G卡 / VS2010 )
  16. 生鲜蔬菜生产称重管理系统
  17. 计算机维护维修实训报告,计算机维护维修实训报告.doc
  18. python3 value counts函数_Pandas Series.value_counts()实例介绍
  19. linux系统监护工具
  20. BMS总结(未完待续)

热门文章

  1. PolSARpro导入外部极化矩阵数据(以高分三号为例,附格式转化代码)
  2. 简单常用的互联网赚钱工具分享
  3. 新手坐高铁怎么找车厢_新手坐高铁怎么找车厢
  4. janusgraph环境搭建、janusgraph python导入csv顶点、边
  5. 算法图解:像小说一样有趣的算法入门书
  6. 来,同学,坐下,谈谈对Dex文件的认识
  7. 【遥感专题系列】微波遥感(一、基础入门)
  8. M-TOUCH移动端社区论坛类型的网站源码
  9. 华为开启管理员模式_华为设备管理员级别与其对应的权限
  10. 某大厂算法工程师面试题详解,问题+答案