写在前面

什么是描述性统计分析,这不仅是数据分析面试中最常见的问题,也是我们日常分析中必过的一道关卡。

要把握数据的分布特征,需要从3个方面进行描述:集中趋势、离散程度和分布形状。

1、集中趋势

集中趋势就是指一组数据向某一中心靠拢的程度,通常有以下指标:

众数

对分类数据来说,众数是最适合描述其集中趋势的值,它是指一组数据中出现次数最多的变量,众数不受极端值的影响,但是可能不唯一,且当数据量较多时,才有意义。

中位数

对数据型数据来说,可以用中位数来描述其集中趋势的度量,中位数就是将一组数据排序以后处于中间位置的值,那么如何寻找中间位置呢?

1、 将这组数据按顺序排列

2、 中间数值所在的位置是(n+1)/2,n表示n个数

3、 当n为奇数时,中间位置的数就是中位数,当n为偶数时,中间位置两个数的均值为中位数。

显然这里有两种情况,当n为奇数和偶数两种情况,求下面这组数据的中位数0 1 2 3 4 5 6 7 8

这里n=9,中位数的位置=(9+1)/2 = 5,那么中位数就是4.0 1 2 3 4 5 6 7 8 9

当n=10时,中位数的位置是 (10+1)/2 = 5.5,那么中位数就是第5个位置的数和第6个位置的数的平均数,也就是(4+5)/2 = 4.5

知道计算的原理,但其实不用我们自己去算,软件中有相应的函数,如Excel中的median函数可以计算中位数。中位数也不受极值的影响。

四分位数

同样,四分位数也是对数值型数据集中趋势的度量,后面的度量都适用于数值型数据。四分位数就是将数据排序后四等分,处于25%(下四分位数)和75%(上四分位数)位置上的值即四分位数,箱型图可以很好地用来描述四分位数。

Excel中可以用quartile函数来计算四分位数。

平均数

简单平均数:就是算术平均数,所有数值相加再除以总个数。

加权平均数:数据分组后每组有相应的权重。

几何平均数:n个变量乘积的n次方根,主要用于计算平均比率,如增长率的平均值。

Excel中用average函数计算平均数。

如果分布是对称的,那么众数=中位数=平均数,如果数据左偏,那么平均数

2、离散程度

离散程度就是描述各个变量远离其中心值的程度,通常有以下指标:

异众比率

指非众数组的频数占总频数的比例,较多地用在分类数据中,用来体现众数的代表性。异众比率越大,说明非众数组占比越大,那么众数就不能很好地代表这组数据。

四分位差

对于数值型数据,四分位差可以来描述数据的离散程度,四分位差就是上下四分位数的差。反映了中间50%数据的离散程度,四分位差越小,说明中间的数据越集中,

极差

极差就是最大值与最小值的差,容易受极值的影响。

平均差

各变量与其平均数离差绝对值的平均数,反映了每个数与平均数的差异程度,Excel里用avedev计算平均差。

方差和标准差

对数值型数据,怎么能少得了我们熟知的方差和标准差。方差就是各变量与其平均数离差平方的平均数,方差的平方根就是标准差,方差和标准差是应用最广的描述数据离散程度的度量。Excel里用stdev来计算标准差。

3、分布形状

描述分布形状的度量有偏态和峰态

偏态

数据分布对称性的描述,统计量是偏度,偏度>0,则频数分布的高峰向左偏移,呈右(正)偏态分布;偏度<0,则频数分布的高峰向右偏移,呈左(负)偏态分布;|偏度|>1,呈高度偏态,0.5

对于偏态,在之前的文章 中也有写过。

如何处理偏态数据?

峰态

是描述数据平峰或尖峰程度的度量。统计量是峰度。同偏态一样,峰态也是与标准正态分布来比较的,峰度>0,数据分布更集中,为尖峰分布,峰度<0,数据分布更分散,为平峰分布。

以上提到的各种统计量除了用Excel中的函数来计算外,还可直接用【数据分析】功能中的【描述统计】命令直接得到。

java平均差_如何做好描述统计分析相关推荐

  1. 如何做好描述统计分析?

    写在前面 什么是描述性统计分析,这不仅是数据分析面试中最常见的问题,也是我们日常分析中必过的一道关卡. 要把握数据的分布特征,需要从3个方面进行描述:集中趋势.离散程度和分布形状. 1.集中趋势 集中 ...

  2. 怎么统计是否内宿_第二关:描述统计分析

    统计:在我的理解里面,是对各种数字,情况的一个汇总,就像我们每天做的表格一样,汇集了不同种了不同数量不同来源的数据,但这些数据杂乱无章怎么识别,那么就需要一个方法来描述这些数据--描述统计分析,就是让 ...

  3. s数据结构替换子表java版_数据结构与算法分析Java语言描述(第3版) PDF和源码免费 下载...

    <数据结构与算法分析Java语言描述(第3版)>PDF和源码免费 下载 免积分下载 用户下载说明: 图书简介: 数据结构:Java语言描述(原书第3版)是国外数据结构与算法分析方面的经典教 ...

  4. JAVA入门_多线程_邮局派发信件

    JAVA入门_多线程_邮局派发信件 Postman package cn.campsg.java.experiment.entity;public class Postman {private Str ...

  5. 复习Java异常处理_异常分类_自定义异常_线程初步了解

    复习Java异常处理_异常分类_自定义异常_线程 主要内容 异常.线程 教学目标 第一章 异常 1.1 异常概念 异常,就是不正常的意思.在生活中:医生说,你的身体某个部位有异常,该部位和正常相比有点 ...

  6. 微信回调 java_详解APP微信支付(java后台_统一下单和回调)

    1.微信配置信息 global.properties 2.方法wxpay用于生成预支付订单信息 方法notifyWeiXinPay用于微信支付成功后的回调, 注意: 在手机端使用微信支付成功后,微信服 ...

  7. java项目-第129期ssh的便利店运营管理系统-java毕业设计_计算机毕业设计

    java项目-第129期ssh的便利店运营管理系统-java毕业设计_计算机毕业设计 [源码请到资源专栏下载] 今天分享的项目是<一款基于SSH架构的便利店运营管理系统>,基本思想是使用数 ...

  8. 第一段Java程序_借助Win控制命令台编译执行 编辑器Notepad++

    第一段Java程序_借助Win控制命令台编译执行 编辑器Notepad++ 准备代码: 第一次编译: 显然需要先配置环境变量: 先找到java.exe和javac.exe所在的文件夹位置: 此电脑-& ...

  9. java 多线程写缓存,Java多线程_缓存对齐

    1.什么是缓存对齐 当前的电脑中,数据存储在磁盘上,可以断电保存,但是读取效率较低.不断电的情况下,数据可以在内存中存储,相对硬盘效率差不多是磁盘的一万倍左右.但是运算时,速度最快的是直接缓存在CPU ...

最新文章

  1. Bruck:一个Web界面布局原型设计框架\n
  2. Apache Tiles 学习(四)、Tiles实战
  3. 使用SpringMVC解决Ajax跨域问题
  4. python封装enclosure
  5. RHEL5.3下手动创建用户
  6. BeanUtils入门
  7. C++ STL学习笔记 : 1. template 模板函数
  8. java vo转map_JAVA Map转换为Bean或VO
  9. 如何免费让别人联网就能看到自己的网页,基于Tomcat,小米球
  10. 如何批量将 jpg 图片转换为 png 格式
  11. html点击热力图还原,网站页面点击热力图的SEO工具说明
  12. MongoDB修改器使用
  13. Python将pdf转为png
  14. Python 樱花树
  15. TCP/IP协议知识梳理
  16. 用python画多啦a梦源码_python 画多啦A梦
  17. 训练孩子思维能力的几种方法
  18. 安装 Node.js
  19. 华为智慧屏和鸿蒙系统对比,华为s55和v55i对比_华为智慧屏s55和v55i哪个好
  20. Ubuntu下常用配置笔记(一)Cuda版本切换

热门文章

  1. 基于Xml 的IOC 容器-分配注册策略
  2. 搜索引擎其实是一个读库
  3. 缓存-分布式锁-Redisson简介整合
  4. 给分类添加缓存并解释StringRedisTemplate
  5. sqoop增量导入hdfs和导出
  6. hystrix服务降级
  7. 数据库设计:pd工程创建数据库表
  8. linux下测试个人主页,一键建站集成软件包,Linux上快速搭建测试个人网站
  9. 采购订单模板_采购必备:如何搭建合规的采购流程
  10. MAC下 IEDA发布tomcat项目的位置