本小节介绍什么是描述性统计分析,以及常用的指标

一、什么是描述统计分析(Descriptive Analysis)

概念:使用几个关键数据来描述整体的情况

描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。

Excel里的分析工具库里的数据分析可以实现描述性统计分析的功能。

描述性统计分析即是对数据源最初的认知,包括数据的集中趋势、分散程度以及频数分布等,了解了这些后才能去做进一步的分析。

二、常用指标

均值、中位数、众数体现了数据的集中趋势。
极差、方差、标准差体现了数据的离散程度。
偏度、峰度体现了数据的分布形状。

1、均值。均值容易受极值的影响,当数据集中出现极值时,所得到的的均值结果将会出现较大的偏差。

2、中位数:数据按照从小到大的顺序排列时,最中间的数据即为中位数。当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。中位数不受极值影响,因此对极值缺乏敏感性。

3、众数:数据中出现次数最多的数字,即频数最大的数值。众数可能不止一个,众数不能能用于数值型数据,还可用于非数值型数据,不受极值影响。

4、极差:=最大值-最小值,是描述数据分散程度的量,极差描述了数据的范围,但无法描述其分布状态。且对异常值敏感,异常值的出现使得数据集的极差有很强的误导性。

5、四分位数:数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数,四分位数分为上四分位数(数据从小到大排列排在第75%的数字,即最大的四分位数)、下四分位数(数据从小到大排列排在第25%位置的数字,即最小的四分位数)、中间的四分位数即为中位数。四分位数可以很容易地识别异常值。箱线图就是根据四分位数做的图。

四分位数的计算:

  • 下四分位数的位置:

1、计算n/4

2、如果结果为整数,则下四分位数位于n/4这个位置和下一个位置的中间,取这两个位置上数值的平均值

3、如果结果不为整数,则向上取整,所得结果为下四分位数的位置

  • 上四分位数的位置:

1、计算3n/4,

2、如果结果为整数,则上四分位数位于3n/4这个位置和下一个位置的中间,取这两个位置上数值的平均值

3、如果结果不为整数,则向上取整,所得结果为上四分位数的位置

eg、3 3 6 7 7 10 10 11 13 30

n=11, 11/4=2.75,不为整,向上取整3,则下四分位数是第3个数,即6;

3*11/4=8.25,也不为整,向上取整9,则上四分位是第9个数,即11

箱线图可以用来比较不同组别的数据。箱线图除了上下四分位数,还有上界(除异常点以外的最大值)、下界(除异常点以外的最小值)

6、方差和标准差。方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是方差开方。方差与标准差表示数据集波动的大小,方差小,表示数据集比较集中,波动性小,方差大,表示数据集比较分散,波动性大。由于标准差只能用于统一体系内的数据比较,如果要对不同体系的数据比较,就要引入标准分的概念。

7、标准分z:对数据进行标准化处理,又叫Z标准化,经过Z标准化处理后的数据符合正态分布(即均值为0,标准差为1)。标准分是对不同数据集的数据进行比较的量,可用来表示数据值在所在数据集内的相对排名 。标准分的意义是每个数值距离平均值有多少个标准差。

有数据集x1,x2,x3,其平均值为μ,标准差为σ,则其标准分z为:

8、峰度:描述正态分布中曲线峰顶尖哨程度的指标。峰度系数>0,则两侧极端数据较少,比正太分布更高更瘦,呈尖哨峰分布;峰度系数<0,则两侧极端数据较多,比正太分布更矮更胖,呈平阔峰分布。

9、偏度:以正态分布为标准描述数据对称性的指标。偏度系数=0,则分布对称;偏度系数>0,则频数分布的高峰向左偏移,长尾向右延伸,呈正偏态分布;偏度系数<0,则频数分布的高峰向右偏移,长尾向左延伸,呈负偏态分布。

还有一些其他的量,不仅在描述性统计分析中常见,在数据报告中也很常见,如

10、绝对数

11、相对数:倍数、成数、百分数

12、百分比

13、百分点:1个百分点=1%,是指变动的幅度

14、频数:绝对数,是一组数据中个别数据重复出现的次数

15、频率:相对数,次数与总次数的比。

16、比例:相对数,总体中各部分占全部的比,如:男生的比例是30:50

17、比率:相对数,不同类别的比,如男女比率俄日3:2

18、倍数:相对数,一个数除以另一个数所得的商,如A/B=C,那么A是B的C倍。

19、番数:相对数,指原来数量的2的N次方,如翻一番,意思是原来数量的2倍,翻两番意思是4倍

20、同比:相对数,指历史同时期进行比较,如去年12月与今年12月相比是同比

21、环比:相对数,指与前一个统计期进行比较,如今年5月与今年4月相比是环比

注:本文首发于CSDN,原文见原文链接

@文章属原创,转载请联系作者,微信号:data_cola

@作者:虾壳,在数据分析的道路上努力奔跑

@微信公众号:可乐的数据分析之路

@我的知乎专栏 :可乐的数据分析之路

可乐的数据分析之路​zhuanlan.zhihu.com

往期文章精选:

可乐数据分析之路:用Excel做控制图​zhuanlan.zhihu.com

可乐:用Excel做回归分析​zhuanlan.zhihu.com

可乐:描述性统计分析​zhuanlan.zhihu.com

可乐:用Excel做直方图(1):随机数发生器​zhuanlan.zhihu.com

可乐:用Excel做相关性分析​zhuanlan.zhihu.com

可乐:用Excel做排列图​zhuanlan.zhihu.com

统计正数和负数的个数然后计算这些数的平均值_描述性统计分析相关推荐

  1. 统计正数和负数的个数然后计算这些数的平均值_描述性统计-统计学基础

    前言 所谓"工欲善其事必先利其器",作为一名数据分析师,统计学知识就是手中的"器",亦是数据分析的基础.在日常工作中统计学知识用到最多的就是描述性统计方法,有些 ...

  2. 统计正数和负数的个数然后计算这些数的平均值_人人都是数据分析师之统计分析...

    前面三章介绍了DataFocus可视化视图,本章主要介绍运用视图进行统计分析的几种方法. 7.1节介绍二八法则和帕累托图的运用. 7.2节介绍如何进行平均分析,包括算数平均分析以及加权平均分析. 7. ...

  3. 统计正数和负数的个数然后计算这些数的平均值_计算机中的二进制原来是这样:原码、反码和补码

    我是一个计算机专业大一的萌(lā)新(jī),刚刚开始接触二进制.很多朋友都知道计算机内部的数据通过二进制来储存和计算,但是一个小小二进制非要整一些花里胡哨(bushi)的东西,原码补码反码的一群东西 ...

  4. Java黑皮书课后题第5章:*5.1(统计正数和负数的个数然后计算这些数的平均值)编写程序,读入未指定个数的整数,判断读入的正数有多少个、负数有多少个,然后计算输入值的总和和平均值(不记0,浮点表示)

    *5.1(统计正数和负数的个数然后计算这些数的平均值)编写程序,读入未指定个数的整数,判断读入的正数有多少个.负数有多少个,然后计算输入值的总和和平均值(不记0,平均值使用浮点表示) 题目 题目概述 ...

  5. 统计正数和负数的个数然后计算这些数的平均值(循环、数组解法)

    R7-4 统计正数和负数的个数然后计算这些数的平均值 (15 分) 编写程序,输入未指定个数的整数,判断读入的正数有多少个,读入的负数有多少个,然后计算这些输入值得总和及平均值(不对0计数).当输入为 ...

  6. 6 统计正数和负数的个数然后计算这些数的平均值

    6 统计正数和负数的个数然后计算这些数的平均值 编写程序,输入未指定个数的整数,判断读入的正数有多少个,读入的负数有多少个,然后计算这些输入值得总和及平均值(不对0计数).当输入为0时,表明程序结束. ...

  7. 7-1 统计正数和负数的个数然后计算这些数的平均值 (15 分)-java

    7-1 统计正数和负数的个数然后计算这些数的平均值 (15 分) 编写程序,输入未指定个数的整数,判断读入的正数有多少个,读入的负数有多少个,然后计算这些输入值得总和及平均值(不对0计数).当输入为0 ...

  8. 5.1(统计正数和负数的个数然后计算这些数的平均值)

    编写程序,读入未指定个数的整数,判断的正数有多少个,读入的负数有多少个,然后计算这些输入值的总和及其平均值(不对0计数).当输入为0时,表明程序结束.将平均值以浮点数显示. import java.u ...

  9. 统计正数和负数的个数然后计算这些数的平均值。

    编写程序,读入未知个数的整数,判断读入的正数有多少个,读入的负数有多少个,然后计算这些输入值的总和及平均值.(不对0计数)当输入为零时,表明程序结束.将平均值以浮点数表示. package 学习; i ...

最新文章

  1. 一本可能提升思考水平 10 倍的书
  2. 深入理解padding_idx(nn.Embedding、nn.Embedding.from_pretrained)
  3. java源码-AQS机制
  4. LuoguP4606 [SDOI2018]战略游戏
  5. 攀爬网怎么取消_桂林旅游学院宿舍条件怎么样
  6. java堆排序解决topk问题,利用堆排序来解决topK问题
  7. The Linux Process Principle, PID、PGID、PPID、SID、TID、TTY
  8. 编程机器人哪家好?灵跃模组机器人硬核评测!
  9. 克里金插值c程序_C罗游艇晒太阳,坐下也有六块腹肌,乔治娜骄傲秀无名指上鸽子蛋...
  10. 数据库连接池 C3p0
  11. 《见缝插针》游戏开发记录
  12. 数据结构视频教程 -《吉大刘大有主讲》
  13. Microsoft Remote Desktop 10 - 微软官方免费远程桌面控制 Windows 的软件 APP
  14. 转:MySQL 的 my.cnf 文件(解决 5.7.18 下没有 my-default.cnf )
  15. JS如何实现百度地图
  16. 8000字前端性能优化技巧总结!(全面)
  17. 【华人学者风采】周亚金 浙江大学
  18. 互联网创业公司常见失败原因是什么?
  19. 使用synchronized实现Lock接口的lock和unlock方法
  20. QT 安装 配置过程

热门文章

  1. 如何去除pdf中的烦人水印(打开方式为wps)
  2. 软件测试——0527作业
  3. 【ThinkGame】我对动作游戏的思考,以及一个游戏程序能为动作游戏做什么?
  4. Win Linux Java 项目堆栈信息调试教程
  5. 如何给自己的无刷直流电机选择电源/电源适配器
  6. Maven插件的编写
  7. 泼辣修图教程:如何通过Polarr Photo打造画面的光线感
  8. new Image() 获取图片大小为0的解决方法
  9. 【Vue路由(router)进一步详解】
  10. 如何访问google