数据分析(二)----- 描述性统计分析
一、直方图
直方图可以直观的看到数据的大致情况;一般有频数分布直方图和频率分布直方图两种。
二、数据的计量尺度
数据的计量尺度是指对计量对象量化时采用的具体标准,它分为以下四类:
- 定类尺度:表现为“ 类别 ” ,各类之间无等级大小差别;
- 定序尺度:描述对象的类别,但具有固有的大小和高低顺序;
- 定距尺度:数据间有固定的距离;
- 定比尺度:它还可以作为比较的共同起点或基数;
序号 | 名称 | 逻辑或数学运算 | 常见例子 | 数据类型 |
1 | 定类尺度 | 等于、不等于 | 性别、名族、职业 | 定性数据 |
2 | 定序尺度 | 等于、不等于、大于、小于 | 职称、健康状况、质量等级 | 定性数据 |
3 | 定距尺度 | 等于、不等于、大于、小于、加减法 | 年份、温度、维度 | 定量数据 |
4 | 定比尺度 | 等于、不等于、大于、小于、加减乘除 | 质量、长度、能量 | 定量数据 |
三、数据的集中趋势
集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在;集中趋势测度就是寻找数据水平的代表值或中心值。
3.1 定量数据:平均数
算术平均数:
加权平均数:
几何平均数:
平均数可以描述定量数据的集中趋势,只适用于定量数据,而且受极值的影响较大,容易向极值附近移动。
3.2 顺序数据:中位数和分位数
将数据按大小排序后,处在数据中点位置的数值就是中位数,它将数据一分为二;分位数是特殊的中位数,比如四分位数就是用3个点将有序数据四等分。
中位数主要用于测试顺序数据的集中趋势,也适用于定量数据的集中趋势,但不适用于分类数据。
中位数位于 (n + 1 ) / 2 位置对应的数(n为奇数); n/2 和 n/2 + 1 位置两个数的平均值(n为偶数)。
中位数是一个位置代表值,其特点就是不受极端值影响。
3.2 分类数据:众数
众数是一组数据中出现次数最多的值,它不唯一,可能没有,可能不止一个。众数是描述分类数据的集中趋势,一般只有在数据量较大的情况下才有意义。
四、数据的离中趋势
离中趋势是指一组数据向某一中心值分散的程度,它反映的是数据远离其中心点的程度,表示离中趋势的指标主要有极差、四分位距、平均差、方差、标准差和离散系数。
4.1 极差
极差也叫全距,展示了数据的整体跨度,是一个比较粗糙的离中趋势指标。
极差 = 最大值 - 最小值
4.2 分位距
分位距是对全距的一种改进,它剔除掉了两端的极值区域,常用的有四分位距、八分位距、十分位距等;
四分位距 = (第三个四分位数 - 第一个四分位数)/ 2
4.3 平均差
平均差是数据组中各数据值与其算术平均数离差绝对值的算术平均数;
当变量数列是由没有分组的数组组成或分组后每组的次数相等的数据组成时采用。
由于平均差是根据数列中所有的数值计算出来的,受极端值影响较小,所以对整个统计数列的离中趋势有较充分的代表性。
4.4 方差与标准差
方差是数据组中各数据值与其算术平均数离差平方的算术平均数,用表示。标准差是方差开根号。
标准差
标准差的实质与平均差基本相同,只不过处理方法不一样,平均差用绝对值消除正负差异后取算术平均数;而标准差用平方消除正负差异再取算术平均数后开方;标准差的指标更灵敏,因此它成为各种离中趋势指标中最重要的一种。
经验所得,一般68%(三分之二)的数据在离平均数1个范围内;95%(二十分之十九)的数据在距平均数2个范围内。
4.5 离散系数
极差、平均差、标准差评定的离中趋势与变量平均水平的高低有关,如果要比较数据平均水平不同的两组数据的离中程度的大小,我们需要计算它们的相对离中程度指标,即离散系数。而离散系数中常用的指标是标准差系数。
标准差系数的公式:
总结:一般比较数据的离中趋势时,我么首先计算两组数据的极差和四分位距,看看数据的大致跨度,然后计算算术平均数查看数据的大致中心位置,如果平均数相同,可以计算一下平均差或者标准差来查看,如果平均数不同则可计算标准差系数来查看离中趋势。
五、数据分布的测度
在描述性统计中,处理集中趋势和离中趋势,我们还可以用数据的分布形状来分析,数据分布形态主要以正态分布为标准进行衡量。
5.1 数据偏态及其测定
数据分布的不对称性称作偏态。偏态是指数据分布的偏斜方向和程度。在对称分布的情况下,平均数、中位数和众数是相同的;但在偏态分布的情况下,他们是不同的。如果众数在左边,平均数在右边,这说明数据的极端值在右边,数据分布曲线向右延伸,这称为右向偏态(正向偏态)。
测定偏态的指标是偏态系数(SK),它说明了数据分布的不对称性(偏斜程度)程度。
SK = 0时,分布是对称的;SK < 0时,分布呈负偏态,并且值越小,负偏程度越高;SK > 0时,分布呈正偏态,并且值越大,正偏程度越高。
5.2 数据峰度及其测定
峰度是指数据分布的尖峭程度或峰凸程度。根据变量值的集中与分散程度,峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。但是这种形态的描述都是相对于正态分布曲线的标准峰度而言的。
测定峰度的指标是峰度系数(K)。峰度系数描述的是数据分布曲线上峰的尖峭程度。
K < 0,与正态分布相比该分布一般扁平、瘦尾、肩部较胖;
K > 0,与正态分布相比该分布一般尖峰、肥尾、肩部较瘦。
5.3 数据偏度和峰度的作用
在实际数据分析过程中,偏度和峰度的作用主要表现在以下两个方面:
一是将偏度和峰度结合起来用于检查样本的分布是否属于正态分布,以便判断总体的分布。例如,样本的偏度接近于0而峰度接近于3,可以推测总体分布接近于正态分布。
二是利用资料之间存在的偏度关系,对算术平均数、众数、中位数进行推断。一般情况下,不是正态分布时,他们有如下关系:
右偏:
左偏:
根据经验,一般在偏态适度时,不管是左偏还是右偏,三者的距离有近似的固定关系:中位数与算术平均数的距离约等于众数与算术平均数距离的1/3 。因此,有如下公式:
,这样,知道任意两个,其它的都能推断出来。
六、数据的展示——统计图
6.1 条形图与扇形图
条形图可以清楚的表明各种数量的多少,比较数据之间的差别。
扇形图可以很清楚的表示出各部分数量同总数之间的关系。
条形图和扇形图在描述数据时,一次只能描述一个变量,通常用于较小的数据集分析。
6.2 折线图
折线图不仅可以表示数量的多少,而且还可以反映同一事物在不同的时间里发展变化的情况;主要用于显示时间数列的数据。
6.3 茎叶图
将数的大小基本不变的位作为茎,将变化较多的位作为叶,列在茎的后面,这样就可以清楚的看到每个主干后面的数有多少、是多少。
比如有一组两位数的数据,将十位作为茎,个位作为叶,相同茎共用,叶列在茎后面;
十位(茎) 个位(叶)
1 02446677789
2 124467779
4 22244444799999
6.4 箱线图
箱线图又称盒须图、盒式图或箱形图,用于显示一组数据的分散情况。它需要使用到六个数据节点:上边缘,上四分位数、中位数、下四分位数、下边缘、异常值。
6.5 统计图小结
面对一组数据选择合适的统计图来表明分析的目的,达到想要的效果是数据分析人员必备的能力。
图表名称 | 分析重点 | 适用数据 |
---|---|---|
条形图 | 两组数据的比较 | 定性数据 |
饼图 | 成分数据的分析 | 定性数据 |
折线图 | 时间数列数据或数据的趋势分析 | 定量数据 |
茎叶图 | 数据的集中趋势分析 | 定量数据 |
箱线图 | 极端数据的分析及数据分布形态 | 定量数据 |
直方图 | 数据分布形态 | 定量数据 |
使用统计图的注意事项:
1. 图运用得当,表达效果更明显;
2. 决定使用何种图的不是数据、不是尺寸,而是你想要说明的主题;
3. 图的使用在于精而不在于多;
4. 图很直观,但代替不了书写和讲述,它只能帮你快速传达主题。
要求: 对各概念熟练掌握,各描述值的计算公式,图表的手动绘制、工具绘制以及选取合适的度量值及图来达到分析的目的。
数据分析(二)----- 描述性统计分析相关推荐
- 数据分析方法-描述性统计分析
一.数据分析的分类与作用 二.数据分析方法-描述性统计分析
- CDA Level 1 PART1:数据分析概述 描述性统计分析
数据分析概述 描述性统计分析 CRISP-DM方法论 SEMMA方法 集中趋势与离散趋势指标
- python数据分析之描述性统计分析
目录 一.数据获取(可用数据集): 二.python常用的工具包:(即用即查) 三.简单数据分类: 四.基本的描述性分析 1.数据预览 2.异常值分析--需要对数据进行单变量及整体异常值分析(具体问题 ...
- 【Python数据分析】实践编写篇1:用Python程序完成描述性统计分析需求
目录 一.前言 1.1 关于描述性统计分析 1.2 本篇目的 1.3 提示 二.程序内容的编写 2.1 导入数据与前期处理 2.2 描述性统计分析所要计算的数据 2.3 数据可视化 2.3.1 概述 ...
- 数据分析入门阶段——描述性统计分析和相关分析
数据分析的入门思维,首先要认识数据,然后对数据进行简单的分析,比如描述性统计分析和相关性分析等. 一,认识变量和数据 变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把 ...
- 分析思维 第四篇:数据分析入门阶段——描述性统计分析和相关分析
数据分析的入门思维,首先要认识数据,然后对数据进行简单的分析,比如描述性统计分析和相关性分析等. 一,认识变量和数据 变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把 ...
- 二、描述性统计分析及可视化
目录 描述性统计分析概述 示例 描述统计总结 一个分类变量 一个连续变量 两个分类变量 分类变量和连续变量 汇总表:两个分类变量+一个连续变量 描述性统计分析概述 python原始的数据类型:字符型. ...
- 《从零进阶!数据分析的统计基础》-2.描述性统计分析
目录: 第二章 描述性统计分析 2.1直方图 2.2数据的计量尺度 定类尺度 定序尺度 定距尺度 定比尺度 2.3数据的集中趋势 2.3.1定量数据:平均数 2.3.2顺序数据:中位数和分位数 2.3 ...
- spss数据分析(频数分析、描述性统计分析、探索性分析、连列表分析)
1频数分析 对平均数.四分位数.百分位数.标准差.方差.偏度等统计量进行分析 原始数据 分析-描述统计-频率 输出: 2描述性统计分析 分析-描述统计-描述 输出: 勾选了将标准化得分另存为变量后 ...
- PART 4 描述性统计分析
一.参数估计 1⃣️ 估计 · 分布剖析 有两条法则可以告诉你:大部分数据落在概率分布中的哪个区域. 经验法则--适用于符合正态分布的任何数据集.表明:几乎所有的数据都位于距离均值3个标准差的范围内. ...
最新文章
- 第九届蓝桥杯java B组—第二题方格计数(详细介绍)
- vb的GUID生成算法
- Sql Server 中汉字处理排序规则,全角半角
- python常用函数import_python 常用函数集合
- idea 包拆分_idea springboot项目拆分多模块踩坑记(1)
- encoder, decoder, attention机制理解
- 神策分析1.7重磅上线 三大功能直指精益数据分析
- 【制作】基于51单片机的蓝牙遥控小车方案
- USB有线网卡怎么用
- 微信小程序开发:各种页面特效集合(持续更新)
- Crust “方舟计划”播报# 3|Crust社区杰出贡献节点——20 位“开拓者”诞生
- mysql 双引号转义_mysql replace中含有双引号怎么办,试了转义不行
- matlab计算翼型升力系数,naca0012翼型升力系数
- [Linux] Linux不分区硬盘挂载
- 最出色的员工往往最先离职,却不是因为钱,到底为什么?
- 淘宝/天猫API:item_videolist-按分类搜索淘宝直播接口
- uniapp 搜索关键字高亮显示实现
- php-java-net-python-报修修改计算机毕业设计程序
- vue拿到某个节点的属性_vue实现将某个dom元素或组件挂载到根节点
- 2016河南省第九届ACM程序设计竞赛【正式赛真题】