一、描述统计定义

  描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。

  常用的指标有平均值、中位数、四分位数,方差、标准差,标准分等等。数据的集中趋势一般采用平均值、中位数表示。数据的离散程度一般采用方差、标准差表示。

二、数据的频数分析

  对于一个需要研究的问题,收集到数据后,首先要了解数据的分布范围、集中位置以及分布形态等特征。

  • 频率表和频率直方图
  • 集中趋势的描述

  从频率表和频率分布图可看出频数分布的两个重要特性:

  • 集中趋势
  • 离散趋势

  观察值有高有低,但服从一定的分布规律:

  • ①越靠近中央部分,频率越高——集中趋势;
  • ②绝大多数个体值并不与平均水平完全重合,而是不同程度地偏离平均水平——离中趋势

2.1、集中趋势分析

  • 平均数Xˉ\bar XXˉ

  反映一组分布呈对称的观察值在数量上的平均水平,是集中趋势的最主要测度值。(受极端数值的影响)

Xˉ=∑i=1nXin\bar X = \frac{\sum_{i=1}^nX_i}{n}Xˉ=n∑i=1n​Xi​​

  • 中位数MeM_eMe​

  是将一组观察值从小到大按顺序排列, 位次居中的那个观察值, 小于和大于中位数的个体数相等,反映一组观察值的平均位置,不受极端数值的影响。在各变量值差异较大或频数分布为偏态时,中位数比算术平均数更具有代表性;

  • 众数M0M_0M0​

  出现频率最高的观察值,众数可能不唯一。众数也是一种位置平均数,不受极端数值的影响,在实际工作中应用较为普遍,在总体单位数较多,且具有明显的集中趋势时可以用众数表示集中趋势代表值。

可以根据平均数,中位数,众数的差别大小,粗略判断数据的分布类型

  • 平均差

  平均差:指各个变量值同平均数的离差绝对值的算术平均数。平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。

2.2、数据离散程度分析

  • 方差σ2\sigma^2σ2

  个体偏离总体平均水平的程度就是所谓的离均差,而离均差平方可以同等对待正的和负的离中情形。

  总体方差:将离均差平方的平均值作为总体中个体值偏离平均水平的概括性指标。

σ2=∑i=1N(Xi−u)2N\sigma^2=\frac{\sum_{i=1}^N(X_i-u)^2}{N}σ2=N∑i=1N​(Xi​−u)2​

  • 标准差σ\sigmaσ

  标准差又称均方差,具有量纲,与变量值的计量单位一致。

  表示观察值变异程度(离散程度),当两组(或几组)资料均数相近、度量单位相同的条件下,标准差较大,说明观察值的变异程度较大,即各观察值离均数较远,因而均数的代表性较差;反之,标准差较小,均数的代表性较好。

  • 变异系数CV

  变异系数也称离散系数,用CV表示,是标准差与均数之比:

变异系数C⋅V=标准偏差SD平均值Mean∗100%变异系数 C·V =\frac{标准偏差 SD}{平均值Mean}*100\%变异系数C⋅V=平均值Mean标准偏差SD​∗100%

  其中样本标准偏差SD=1N−1∑i=12(Xi−u)2SD = \sqrt{\frac{1}{N-1}\sum_{i=1}^2(X_i -u)^2}SD=N−11​∑i=12​(Xi​−u)2​。

  是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

  • 标准误(Standard Error of Mean)

  标准误,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。标准误不是标准差,是多个样本平均数的标准差。

SEM=SDnSEM = \frac{SD}{\sqrt n}SEM=n​SD​

  标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。

推荐阅读标准误(Standard Error)

  • 异众比率(variation ratio)

  异众比率指非众数组的频数占总频数的比例。异众比率主要适合测度分类数据的离散程度,当然,对于顺序的数据以及数值型数据也可以计算异众比率。

Vm0=N−fm0NV_{m_0}=\frac{N -f_{m_0} }{N}Vm0​​=NN−fm0​​​
  其中,Vm0V_{m_0}Vm0​​表示异众比率,fm0f_{m_0}fm0​​表示众数次数,N表示总体单位总数(即总体次数)。

  它虽然也是一个反映离散程度的相对指标,但是与标准差系数不同。异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

  标准差系数又称均方差系数。反映标志变动程度的相对指标。总体标准差系数的计算公式为:
Vσ=σx.100V_{\sigma}=\frac{\sigma}{x}.100%Vσ​=xσ​.100
  其中:VσV_{\sigma}Vσ​为标准差系数;σ为标准差;x 为平均数。当以样本标准差系数(称变异系数/离散系数)估计总体标准差系数时,Vσ=VSV_{\sigma}=V_{S}Vσ​=VS​,式中:VS为变异系数;S为样本标准差。对于不同水平的总体不宜直接用标准差指标进行对比,标准差系数能更好的反映不同水平总体的标志变动度。

  • 全距(极差)

  极差最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。

R=xmax−xminR=x_{max}-x_{min}R=xmax​−xmin​

  • 四分位数间距

偏度四分位差反映了中间 50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。

  • 25 分位:第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第 25%的数字。
  • 75 分位:第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第 75%的数字。
  • 四分位差(IQR):四分位差(quartile deviation),它是上四分位数(Q3,即位于 75%)与下四分位数(Q1,即位于 25%)的差。

IQR=Q3−Q1IQR = Q_3-Q_1IQR=Q3​−Q1​

推荐阅读如何深刻理解箱线图(boxplot)

  • 峰度、偏度

  • 峰度是分布集中趋势高峰的形状。

  • 偏度是对分布偏斜方向及程度的测度。

  偏度 > 0,右偏;偏度 < 0,左偏;偏度=0,对称;绝对值大于 0,偏态;绝对值大于 1:高度偏态;绝对值 0.5-1 中等偏态。

  峰度 > 3,尖峰;峰度 = 3,正态;峰度 < 3,扁平;​


参考文献
[1]贾俊平.统计学:中国人民大学出版社,2009年:107
[2]蔡忠建. 对描述性统计量的偏度和峰度应用的研究[J]. 北京体育大学学报, 2009, 032(003):75-76.
[3]S.伯恩斯坦, R.伯恩斯坦, 伯恩斯坦,等. 统计学原理:描述性统计学与概率.上册[M]. 科学出版社, 2002.

二:统计基础:描述统计相关推荐

  1. 怎么计算一组数据的波动_数据分析(一):数据描述统计

    一. 数据描述统计 看了一个纪录片 - The Joy Of Stats <统计的乐趣>,这虽然是一个关于数据统计分析的纪录短片,但短片中对于数据统计在实际应用场景中应用的效果还是很值得思 ...

  2. 2021双十二淘宝护肤品销量预测模型

    目录 前言 一.数据说明 二.描述统计 1.词云图 2.因变量 3.对数因变量 3.自变量 1.多分类变量 三.建模分析 1.决策树 2.随机森林 3.梯度提升树 4.支持向量回归 四.结论 前言 化 ...

  3. Machine Learning on Spark——第四节 统计基础(二)

    作者:周志湖 微信号:zhouzhihubeyond 本节主要内容 Correlation 相关性分析 分层采样(Stratified sampling) 随机数据生成(Random data gen ...

  4. Machine Learning on Spark——统计基础(二)

    本节主要内容 Correlation 相关性分析 分层采样(Stratified sampling) 随机数据生成(Random data generation) 1. Correlation 相关性 ...

  5. 正态分布某一点的概率怎么算_统计基础篇之十三:怎么理解正态分布(二)

    本篇着重谈一下正态分布的各种计算. 对于连续数据分布来说,给出的都是概率密度函数,要想计算概率,就要用到积分. 假设一个随机变量服从正态分布N(μ,σ^2)分布,求a<X≤b的概率P.于是有 其 ...

  6. R语言与统计基础 二 频数表与列联表

    分析数据时,需要通过一些工具,把数据转换成,我们能直观理解处理的数据,频数表和列联表比较容易理解: 生成频数表方法 函数 描述 table 使用N个类别型变量(因子)创建一个N维列联表,向量是列变量 ...

  7. [概统]本科二年级 概率论与数理统计 第一讲 古典概型

    [概统]本科二年级 概率论与数理统计 第一讲 古典概型 古典概型 排列组合复习 组合恒等式的例题 古典概型的例题 事件概率的性质 条件概率与独立性 全概率公式与贝叶斯公式 事件概率的例题 打算这两年写 ...

  8. 斯皮尔 皮尔森 肯德尔_一起来学应用统计学(全部)(二)持续更新

    应用统计基本内容(简略版) 描述统计:统计图表,集中趋势(平均数,中数,众数),离散趋势(极差,离均差,平均差,方差,标准差,差异系数,z分数) 数学基础(概率论基础,抽样分布理论) 推断统计:参数估 ...

  9. 如何将多个一维列表转化为二维列表_数据分析2_如何处理一维、二维数据

    吞一块大饼,还不如切成小块吃得香 常见的数据集,要么是数列,要么是表格: 因此,数据分析最首要的是,处理一维.二维数据. 主要知识点可参考如图. 如需要,可点击以下百度网盘链接下载数据分析基础知识图P ...

最新文章

  1. 飞塔安全实验室:2016年物联网将成为新的战场
  2. IDC公布2017年亚太地区数据中心10大预测
  3. Linux / OpenWRT / 目录功能说明
  4. 直播马上开始│走进腾讯云物联网
  5. c语言不定长数组_学习C语言这三块“硬骨头”不搞定学了也是白学
  6. 织梦自定义图片字段和缩略图一样_织梦图片集模型自定义图片字段调用
  7. CSE lab7 RPC 攻略
  8. 重做《机房收费系统》——概要设计(UI)
  9. jq动态拼接html页面及数据
  10. logstash 获取多个kafka_日志工程Logstash日志采集入门篇
  11. 加密狗破解教程-数据抓取工具
  12. 信息安全制度(用户篇)
  13. 《看清你的思维图谱》读书笔记
  14. linux内核移植与开发板,基于uClinux内核移植ARM开发板应用
  15. 硬链接与软连接的区别_(转)
  16. ZeroLogon(CVE-2020-1472) 漏洞的攻击与防御策略(上)
  17. 5G-NR非连续接收DRX参数配置详解
  18. 删除数组中的重复元素
  19. Python的re库和正则表达式
  20. 文章管理系统的系统分析与设

热门文章

  1. 基于自定义gym环境的强化学习
  2. 中国各类医院排行(仅供参考)
  3. 大数据学习路线图(知识体系整理)
  4. Shiro系统权限管理、及原理剖析
  5. Worse is Better
  6. 什么是 Android Jetpack?
  7. 最新大数据可视化展示效果,别误会了,这才是可视化该有的样子
  8. Python(1)自动发送邮件
  9. Platform Builder
  10. 二叉树的先序遍历(源代码)