商务统计分析(第3章 数据描述)
文章目录
- 一、描述数值的度量
- 1.1 集中趋势
- 1.平均数
- 2.中位数
- 3.众数
- 1.2 离散程度
- 1.全距/极差
- 2.方差、标准差
- 3.变异系数
- 4.Z值
- 5.分布形状
- 1.3 总体数据的数值型描述度量
- 1.经验法则(适用于数据对称)
- 2.切比雪夫法则(适用于不对称的数据)
- 1.4 描述两个变量之间的关系的度量
- 1. 协方差(covariance)
- 2.相关系数(coefficient of correlation)
一、描述数值的度量
在统计应用中,对数值变量进行总结和描述的时候,通常从三个维度进行分析
1. 集中趋势:所有数据观测值是否在一个典型或中心值周位的范围内
2. 离散程度:观测值与一个中心值散布或分散的量
3. 分布形状:观测值从最低值到最高值分布的模式
1.1 集中趋势
1.平均数
作用: 平均数是用于反映总体数据的一般水平,或分布的集中趋势。
缺点:
a. 平均数容易受到极端值的影响,如果数据中有极大极小值,此时平均数的代表性很差
b. 当一组数据有明显的偏态分布时,平均数的代表性差
2.中位数
作用: 用来代表一组数据的中等水平,是一组数据中间位置上的代表值,不受极端值和偏态分布的影响
缺点: 因为只利用了部分数据来代表一组数据的集中趋势,可靠性较差,不代表整体。
计算公式: (n+1)/2
3.众数
作用: 集中了数据集中发生频数最高的数据值,不易受极端值影响,在一个数据集中,众数可能不存在或存在多个众数。当一组数据中有不少数据多次重复出现时,众数也往往是我们关心的一种集中趋势。它反映了一种最普遍的倾向
缺点: 没有平均数准确
1.2 离散程度
1.全距/极差
全距= 最大值 - 最小值
作用: 全距简单的度量了数据集的总体离散程度
2.方差、标准差
标准差的作用:
描述数据集的波动大小或者说离散程度。
标准差跟平均值有着相同的量纲(单位),所以便于衡量一个数据集的波动程度,
例如:一个球员,每场平均得分22.3分,标准差为3.1,那么可以说他每场得分聚集在22.3分上下浮动3.1分的范围内
公式:
注意: 总体的方差是除以总体样本个数N的,而样本方差是除以样本个数减1的,即(n-1)
3.变异系数
coefficient of variation , 用符号CV表示。
作用: 当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲/单位的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。
公式: CV = 标准差 / 平均数 * 100%
例子: 物流公司打算买新车,要考虑车的容量:体积和载重。从平常的货物中随机取样200个,发现平均重量26磅,标准差3.9磅,平均体积8.8立方英尺,标准差为2.2立方英尺。计算体积的CV为25%,重量的CV为15%。因而,相对于平均数,包裹体积比包裹重量变动更大。
4.Z值
作用: 识别异常值
Z= X - μ / σ
Z值等于:(观测样本值 - 样本平均值) /样本标准差
Z值如果小于-3或大于3,认为该样本是异常值。
5.分布形状
均值<中位数:负偏,或左偏(左边长尾,左边的极小值拉低了平均数)
均值=中位数:对称分布,零偏度
均值>中位数:正偏,或右偏(右边长尾,右边的极大值拉高了平均数)
1.3 总体数据的数值型描述度量
1.1,1.2章节介绍的描述数据主要是针对样本数据的,要注意的是对总体数据的描述,标准差和方差是除以N
1.经验法则(适用于数据对称)
当一组数据是对称分布的时候,可以用经验法则来检验这些分布的特性:
- 约有68%的数据在平均数±1个标准差的范围内
- 约有95%的数据在平均数±2个标准差的范围内
- 约有99%的数据在平均数±3个标准差的范围内
当出现在平均数三个标准差之外的数据,可以当做outlier。
2.切比雪夫法则(适用于不对称的数据)
例题:一种新的心脏手术正在一家医院推广,对于已完成的20例这种手术,平均住院期为14.3天,标准差为2.84天,因为手术复杂,住院期天数的总体不服从正态分布,而是有些正偏,总体标准差未知,求总体均值的90%近似置信区间。
1.4 描述两个变量之间的关系的度量
用来描述两个变量之间的关系,比如说,年龄跟身高这两个变量间有没关系
1. 协方差(covariance)
作用: 度量两个数值变量X和Y之间的线性关系强度。如果协方差大于0,则两个变量正相关,反之同理,等于0则不相关。
缺点: 协方差只是个值,不能够确定两个变量之间关系的相对强度。因此需要计算相关系数来判定。换句话说,协方差只是为了计算相关系数,的中间产物。
样本协方差计算公式:
2.相关系数(coefficient of correlation)
作用: 衡量两个数值变量间的线性关系的相对强度。
取值范围: 【-1,1】
计算公式:
化简
相关性:
当 |r| >=0.8时,有强相关性
当0.5<|r|<0.8时,有较强相关性
当0.3<|r|<0.5时,有弱相关性
当 |r| <0.3时,无相关性
注意点: 存在较强的相关性并不意味着因果关系!!!仅仅意味着数据有如此倾向。
商务统计分析(第3章 数据描述)相关推荐
- 第二章-数据描述(初级统计)
一.图表展示定性数据 定性数据包括分类数据和顺序数据(通常用频数分布表和图形描述). 饼图.直方图.环形图来描述的是单变量的数据. (一)频数分布表 频数分布表中落在某一特定类别的数据个数称为次数或频 ...
- 《应用商务统计分析》第一章 线性回归(报告)
说明:本报告仅供学习参考,不代表任何投资建议.同时欢迎各位大佬指点交流~ 报告地址:因为博客里面的编辑界面不太友好(本人懒),所以将报告上传至了github:
- 什么是数据描述统计分析指标?
数据描述统计分析 无序数据 均值 均值(mean)和平均值(average)的区别 中位数(中值) 众数 极差 方差(离均差平方) 标准差(标准偏差.实验标准差.均方差) 协方差 标准分 四分位数 实 ...
- 第2章 数据认知与预处理
<大数据挖掘及应用>学习笔记. 第2章 数据认知与预处理 2.1 数据分析的定义和流程 数据分析(data analysis)是指用适当的统计分析方法对收集来的大量数据进行分析和解释,提取 ...
- 【转】第5章 数据的描述性分析
文章来源于:炼数成金:摘自<数据分析:R语言实战> 第5章 数据的描述性分析 通过前面两章的学习,我们知道,数据收集是取得统计数据的过程,数据预处理是将数据中的问题清理干净,那么接下来的步 ...
- 《计算传播学导论》读书笔记:第七章 数据新闻
目录 第七章 数据新闻 第一节 产生背景 第二节 理论源流 一.计算驱动的新闻报道 二.可视化驱动的新闻报道 三.制作流程 第三节 实战练习 一.维基解密阿富汗战争日志 二.奥运会数据分析和EChar ...
- 多元统计分析何晓群_多元统计分析第四章作业
关注公众号,更多资源分享 回复关键词:多元统计分析 即可获取更多详细其他章节答案 <多元统计分析>课后答案||何晓群版(第二章) <多元统计分析>第一章课后答案(何晓群编第五版 ...
- Python金融大数据分析——第五章数据可视化(1)二维绘图
目录 第五章 数据可视化 5.1 二维绘图 5.1.1 一维数据集 5.1.2 二维数据集 5.1.3绘制其他图表 5.1.3.1绘制散点图 5.1.3.2 直方图 5.1.3.3 箱型图 第五章 数 ...
- 《编写高质量代码:改善c程序代码的125个建议》——第1章 数据,程序设计之根本建议1:认识ANSI C...
本节书摘来自华章计算机<编写高质量代码:改善c程序代码的125个建议>一书中的第1章,建议1,作者:马 伟 更多章节内容可以访问云栖社区"华章计算机"公众号查看. 第1 ...
- PP团队圣经巨著《Application Architecture Guide2.0》14章-数据访问层
第十四章 数据访问层指导 概览 这一章主要描述设计数据访问层时要注意的主要原则.它们覆盖了设计数据访问层遇到的通常问题及错误.下面的图表展示了数据层怎样嵌入一个通用的应用架构. (cnblog我的图片 ...
最新文章
- python入门教程共四本书籍-关于 Python 的经典入门书籍有哪些?
- 面试关于ISO七层模型你应该知道的东西
- fun python_Python(一)
- Java web 初入
- Java黑皮书课后题第5章:*5.31(金融应用:计算CD价值)假设你用10 000美元投资一张CD,年利率为5.75%。编写程序,提示由用户输入一个金额数、年获利率、月份数,然后显示一个表格
- cstring判断是否包含子串_leetcode76. 最小覆盖子串
- Hadoop配置文件参数详解
- spring aop组件_安全性中的Spring AOP –通过方面控制UI组件的创建
- 1.5编程基础之循环控制 38 计算多项式的导函数
- python 字节码指令含义_python 字节码指令列表
- Arcpy报错及解决——持续补充中
- 接口文档生成工具apipost
- 中国可擦除可编程只读存储器行业市场供需与战略研究报告
- VMWare 虚拟机工作站 + Ubuntu操作系统安装
- 第一篇:CUDA 6.0 安装及配置( WIN7 64位 / 英伟达G卡 / VS2010 )
- 生鲜蔬菜生产称重管理系统
- 计算机维护维修实训报告,计算机维护维修实训报告.doc
- python3 value counts函数_Pandas Series.value_counts()实例介绍
- linux系统监护工具
- BMS总结(未完待续)