如何做好描述统计分析?
写在前面
什么是描述性统计分析,这不仅是数据分析面试中最常见的问题,也是我们日常分析中必过的一道关卡。
要把握数据的分布特征,需要从3个方面进行描述:集中趋势、离散程度和分布形状。
1、集中趋势
集中趋势就是指一组数据向某一中心靠拢的程度,通常有以下指标:
众数
对分类数据来说,众数是最适合描述其集中趋势的值,它是指一组数据中出现次数最多的变量,众数不受极端值的影响,但是可能不唯一,且当数据量较多时,才有意义。
中位数
对数据型数据来说,可以用中位数来描述其集中趋势的度量,中位数就是将一组数据排序以后处于中间位置的值,那么如何寻找中间位置呢?
1、 将这组数据按顺序排列
2、 中间数值所在的位置是(n+1)/2,n表示n个数
3、 当n为奇数时,中间位置的数就是中位数,当n为偶数时,中间位置两个数的均值为中位数。
显然这里有两种情况,当n为奇数和偶数两种情况,求下面这组数据的中位数
0 1 2 3 4 5 6 7 8
这里n=9,中位数的位置=(9+1)/2 = 5,那么中位数就是4.
0 1 2 3 4 5 6 7 8 9
当n=10时,中位数的位置是 (10+1)/2 = 5.5,那么中位数就是第5个位置的数和第6个位置的数的平均数,也就是(4+5)/2 = 4.5
知道计算的原理,但其实不用我们自己去算,软件中有相应的函数,如Excel中的median函数可以计算中位数。中位数也不受极值的影响。
四分位数
同样,四分位数也是对数值型数据集中趋势的度量,后面的度量都适用于数值型数据。四分位数就是将数据排序后四等分,处于25%(下四分位数)和75%(上四分位数)位置上的值即四分位数,箱型图可以很好地用来描述四分位数。
Excel中可以用quartile函数来计算四分位数。
平均数
简单平均数:就是算术平均数,所有数值相加再除以总个数。
加权平均数:数据分组后每组有相应的权重。
几何平均数:n个变量乘积的n次方根,主要用于计算平均比率,如增长率的平均值。
Excel中用average函数计算平均数。
如果分布是对称的,那么众数=中位数=平均数,如果数据左偏,那么平均数<中位数<众数,如果数据右偏,那么众数<中位数<平均数,根据数据的分布形态,选择适合的集中趋势度量去描述。
2、离散程度
离散程度就是描述各个变量远离其中心值的程度,通常有以下指标:
异众比率
指非众数组的频数占总频数的比例,较多地用在分类数据中,用来体现众数的代表性。异众比率越大,说明非众数组占比越大,那么众数就不能很好地代表这组数据。
四分位差
对于数值型数据,四分位差可以来描述数据的离散程度,四分位差就是上下四分位数的差。反映了中间50%数据的离散程度,四分位差越小,说明中间的数据越集中,
极差
极差就是最大值与最小值的差,容易受极值的影响。
平均差
各变量与其平均数离差绝对值的平均数,反映了每个数与平均数的差异程度,Excel里用avedev计算平均差。
方差和标准差
对数值型数据,怎么能少得了我们熟知的方差和标准差。方差就是各变量与其平均数离差平方的平均数,方差的平方根就是标准差,方差和标准差是应用最广的描述数据离散程度的度量。Excel里用stdev来计算标准差。
3、分布形状
描述分布形状的度量有偏态和峰态
偏态
数据分布对称性的描述,统计量是偏度,偏度>0,则频数分布的高峰向左偏移,呈右(正)偏态分布;偏度<0,则频数分布的高峰向右偏移,呈左(负)偏态分布;|偏度|>1,呈高度偏态,0.5<|偏度|<1,呈中等偏态,一个记忆方法就是,尾巴在哪边就是哪偏。
对于偏态,在之前的文章 中也有写过。
如何处理偏态数据?
峰态
是描述数据平峰或尖峰程度的度量。统计量是峰度。同偏态一样,峰态也是与标准正态分布来比较的,峰度>0,数据分布更集中,为尖峰分布,峰度<0,数据分布更分散,为平峰分布。
以上提到的各种统计量除了用Excel中的函数来计算外,还可直接用【数据分析】功能中的【描述统计】命令直接得到。
猜你喜欢:
什么是好的数据指标:精益数据分析
泰坦尼克号数据分析
深入浅出数据分析
数据分析都有哪些岗位?
为什么要学统计学:赤裸裸的统计学
成为数据分析师的第三年,我写了10W字
如何做好描述统计分析?相关推荐
- java平均差_如何做好描述统计分析
写在前面 什么是描述性统计分析,这不仅是数据分析面试中最常见的问题,也是我们日常分析中必过的一道关卡. 要把握数据的分布特征,需要从3个方面进行描述:集中趋势.离散程度和分布形状. 1.集中趋势 集中 ...
- 怎么统计是否内宿_第二关:描述统计分析
统计:在我的理解里面,是对各种数字,情况的一个汇总,就像我们每天做的表格一样,汇集了不同种了不同数量不同来源的数据,但这些数据杂乱无章怎么识别,那么就需要一个方法来描述这些数据--描述统计分析,就是让 ...
- sas简单描述统计分析和散点图
简单描述统计分析 一. means过程 (一)例题和语句分析 例题1:某车间有30个人分成4组,求车间工人平均每小时制作的配件个数 data data3_1; input no w n; /*按自由格 ...
- 什么是数据描述统计分析指标?
数据描述统计分析 无序数据 均值 均值(mean)和平均值(average)的区别 中位数(中值) 众数 极差 方差(离均差平方) 标准差(标准偏差.实验标准差.均方差) 协方差 标准分 四分位数 实 ...
- SPSS描述统计分析【003期】
**博主提示:订阅本专栏,可获得此专栏所有案例对应数据及资料** 统计分析的目的是研究总体的数量特征.为了实现上述分析,往往采用两种方式实现:一是数值计算,即计算常用的基本统计量的值,通过数值来准确反 ...
- 4 数据分析 统计学-描述统计分析
数据分析 1 统计学简介 1.1 统计学简介 统计学(Statistics): 收集.处理.分析.解释数据并从数据中得出结论的科学. 统计学主要分为描述统计(Discriptive Statistic ...
- 预训练语言模型中金融情绪分析语料库和描述统计分析概述(图文解释)
一.金融情绪分析语料库 按开放方式不同数据集(datase)可以分为公开数据集和(公开 私有(人)数据集.开数据集一般由研究所比赛举办方公共机构公开发布协算法建模研究用于模型评测结果比较和复现;使用公 ...
- matlab描述统计分析步骤,数据的统计分析与描述matlab
数据的统计分析与描述matlab * 1数据的统计描述和分析实验目的实验内容2.掌握用数学软件包求解统计问题.1.直观了解统计基本内容.1.统计的基本理论.3.实验作业.2.用数学软件包求解统计问题. ...
- 33学习笔记——描述统计分析3--数据的描述统计量
数据的描述统计量 33:<数据分析基础>的复习笔记3 主要涉及用R语言求解 1. 描述水平的统计量 (1)平均数 (2)分位数 ①中位数 ②四分位数 ③百分位数 (3)众数 2.描述差异的 ...
最新文章
- Maven 的41种骨架功能介绍
- 准确率不变 损失率下降_最新斯诺克排名奥沙利文排在第二,丁俊晖排第十,第一保持不变...
- 文巾解题 21. 合并两个有序链表
- 迪杰斯特拉--- 模板(求最短路径/输出路径/所有路径都可以走的做法)
- java加减乘除运算顺序_java 实现加减乘除混合运算
- ArcGIS如何在一个矢量上用不同颜色进行标注
- asp.net core mvc接口,请求响应统一日志管理
- 一片关于Bootstarp4的文章
- 一个类似百度的搜索。。。。。
- css宋体代码_css中宋体怎么设置?
- SaaS的收入模型有哪些?终于有人讲明白了
- sql优化之终极方案
- 中国女篮姐妹花杨舒予、杨力维成为护肤品牌佰草集太极首组代言人
- windows10下使用minGW64 编译krita源码报错
- 如何用TensorFlow图像处理函数裁剪图像?
- DB2-SQLSTATE 消息大全---[IBM官方]
- Python编程100例--身份证号码的校验码
- Poedu_C语言_20160925_打字母游戏
- IntelliJ IDEA怎么创建package包下面的子包
- 「镁客·请讲」YOYOW白菜:区块链泡沫是个好东西,希望持续两三年