一、描述性统计分析

1.1 数据的计量尺度

名称	特征	数据类型
定类尺度	只能用来比较相等或不相等	定性数据
定序尺度	可比较是否相等以及大小关系	定性数据
定距尺度	可比较是否相等、大小关系以及进行加减运算	定量数据
定比尺度	可比较是否相等、大小关系以及进行加减、乘除运算	定量数据

1.2 数据的度量指标

1.2.1 数据集中趋势的度量指标

常见的是平均数、中位数、众数等

指标名称	定义	适用的数据类型	备注
平均数	所有数之和除以其个数	定量数据	可以较好的反应数据的集中趋势，但易受极端值的影响
中位数	处于数列中点位置的数值	顺序数据、定量数据	主要用于测试顺序数据的集中趋势，不受极端值的影响
众数	一组数据中出现次数最多的数值	分类数据、顺序数据、定量数据	一般在数据量较大时，才有意义

1.2.2 数据离中趋势的度量指标

常见的是极差、分位矩、平均差、方差、标准差、离散系数等

1、极差

未分组数据：极差 = 最大值 - 最小值
已分组数据：极差 = 最大组的上限 - 最小组的下限
- 用于粗略检查产品质量的稳定性

2、分位矩

四分位距 = 第三个四分位数 - 第一个四分位数
- 反应了数列中间数据的差距

3、平均差

公式： M . D = ∑ ∣ x − x ‾ ∣ n M.D=\frac{\sum|x-\overline x|}{n} M.D=n∑∣x−x∣

对于数据的离中趋势有较充分的代表性

4、方差和标准差

方差用符号 s 2 s^2 s2表示，方差的平方根就是标准差，其公式为： s = ∑ i = 1 n ( x − x ‾ ) 2 n s=\sqrt\frac{\sum_{i=1}^n(x-\overline x)^2}{n} s=n∑i=1n(x−x)2 其中 x ‾ \overline x x为该组数据的平均值。标准差度量了偏离平均值的大小。

5、离散系数

公式为： V s = s x × 100 % V_s=\frac{s}{x}\times100\% Vs=xs×100%

1.2.3 数据分布的测定

数据分布形态的测定主要以正态分布为标准进行衡量，其中测定的指标有偏态和峰度。如果样本的偏度系数接近于0，峰度系数接近于3，则可推断总体分布是接近于正态分布的。

1.3.1 数据偏态

数据分布的不对称性称作偏态。

		名称	特征
众数	平均数	右向偏态，又称正向偏态	数据的极端值在右边，平均数与众数之差为正值
平均数	众数	左向偏态，又称负向偏态	数据的极端值在左边，平均数与众数之差为负值

偏态系数公式为： S K = n ( n − 1 ) ( n − 2 ) Σ ( x i − x ‾ s ) 3 SK={\frac{n}{(n-1)(n-2)}}\Sigma(\frac{x_i-\overline x}{s})^3 SK=(n−1)(n−2)nΣ(sxi−x)3
其中 x ‾ \overline x x代表数据的平均值， x i x_i xi代表每个数值， s s s代表数据的标准差， n n n代表数据的个数。

S K = 0 SK=0 SK=0，分布是对称的；
S K > 0 SK>0 SK>0，分布是正偏，即右向偏态；
S K < 0 SK<0 SK<0，分布是负偏，即左向偏态。

1.3.2 数据峰度

峰度一般可表现为三种形态：尖顶峰度、平顶峰度和标准峰度。当分布曲线比正态分布曲线顶峰更为尖峭，则称为尖顶峰度；当分布曲线比正态分布曲线顶峰更为平缓，则称为平顶峰度。
峰度系数公式为： K = n ( n + 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) Σ ( x i − x ‾ s ) 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) K=\frac{n(n+1)}{(n-1)(n-2)(n-3)}\Sigma(\frac{x_i-\overline x}{s})^4-\frac{3(n-1)^2}{(n-2)(n-3)} K=(n−1)(n−2)(n−3)n(n+1)Σ(sxi−x)4−(n−2)(n−3)3(n−1)2

1.3 数据的展示——统计图

常用的统计图有直方图、条形图、扇形图、折线图、箱线图、茎叶图等

图形名称	数据类型	图形作用	备注
直方图	定量数据	得到数据的大致情况
条形图	分类数据	比较数据之间的差别
扇形图	分类数据	表示各部分数量于总数的关系
折线图	时间序列数据	表示统计数据的增减变化
箱线图	定量数据	显示数据分散的情况	上四分位数 Q 3 Q3 Q3，下四分位数 Q 1 Q1 Q1
茎叶图	定量数据	直观反应数据的集中趋势

箱线图包含六个数据节点：上边缘、上四分位数、中位数、下四分位数、下边缘、异常值。
- 上边缘 = 上边缘= 上边缘=Q3 + 1.5 ( +1.5( +1.5(Q3-Q1 ) ) )，下边缘 = 下边缘= 下边缘=Q1 − 1.5 ( -1.5( −1.5(Q3-Q1 ) ) )
- 极端异常值，即超出四分位数差三倍距离的数据，用“ ∗ * ∗”表示
- 温和异常值，即处于四分位数差三倍距离的之内的数据，用“黑点”表示

二、数理统计基础

2.1 正态分布

2.1.1 分布特征

对称性。以 x = μ x=\mu x=μ为对称轴。
非负性。即密度函数 f ( x ) f(x) f(x)都处于 x x x轴上方。
服从正态分布的随机变量分布由 μ 、 σ \mu、\sigma μ、σ完全决定
- μ \mu μ描述正态分布的集中趋势。 μ \mu μ变化则密度函数曲线沿 x x x轴平行移动，不改变其形状。
- σ \sigma σ描述正态分布的离散程度。 σ \sigma σ越大，曲线越扁平，即数据越分散。反之，数据分布越集中。

2.1.2 标准正态分布

密度函数 ϕ ( x ) = 1 2 π e − x 2 2 \phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} ϕ(x)=2π 1e−2x2
正态分布的标准化。假设 ξ ∼ N ( μ , σ 2 ) \xi\sim N(\mu,\sigma^2) ξ∼N(μ,σ2)以及 η ∼ N ( 0 , 1 ) \eta\sim N(0,1) η∼N(0,1)，则可以通过 η = ξ − μ σ \eta=\frac{\xi-\mu}{\sigma} η=σξ−μ对变量进行标准化。
标准正态分布的 3 σ 3\sigma 3σ原则。对于正态分布 x ∼ N ( μ , σ 2 ) x\sim N(\mu,\sigma^2) x∼N(μ,σ2)在区间 ( μ − σ , μ + σ ) (\mu-\sigma,\mu+\sigma) (μ−σ,μ+σ)、 ( μ − 2 σ , μ + 2 σ ) (\mu-2\sigma,\mu+2\sigma) (μ−2σ,μ+2σ)、 ( μ − 3 σ , μ + 3 σ ) (\mu-3\sigma,\mu+3\sigma) (μ−3σ,μ+3σ)内取值的概率分别为68.3%、95.4%、99.7%。

2.2 基于正态分布的三大分布

2.2.1 χ 2 \chi^2 χ2分布

设随机变量 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn均服从标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1)，则随机变量 χ 2 = ∑ i = 1 n X i 2 \chi^2=\sum_{i=1}^nX_i^2 χ2=∑i=1nXi2的分布称为是自由度为 n n n的 χ 2 \chi^2 χ2分布，记为 χ 2 ∼ χ 2 ( n ) \chi^2\sim\chi^2(n) χ2∼χ2(n)，其分布密度函数为 f ( x ) = { 1 2 n 2 Γ ( n 2 ) x n − 2 2 e − x 2 , x > 0 0 , x ≤ 0 f(x)=\begin{cases} \frac{1}{2^\frac{n}{2} \Gamma(\frac{n}{2})}x^\frac{n-2}{2}e^\frac{-x}{2}, &x>0\\ 0, &x\leq0 \end{cases} f(x)={22nΓ(2n)1x2n−2e2−x,0,x>0x≤0

2.2.2 t t t分布

设随机变量 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1)， Y ∼ χ 2 ( n ) ) Y\sim\chi^2(n)) Y∼χ2(n))，且 X X X与 Y Y Y相互独立，则随机变量为 t = X Y n t=\frac{X}{\sqrt\frac{Y}{n}} t=nY X所服从的分布称为自由度为 n n n的 t t t分布，记为 t ∼ t ( n ) t\sim t(n) t∼t(n)，其分布密度函数为 f ( x ) = Γ ( n + 1 2 ) n π Γ ( n 2 ) ( 1 + x 2 n ) n + 1 − 2 f(x)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{x^2}{n})^\frac{n+1}{-2} f(x)=nπ Γ(2n)Γ(2n+1)(1+nx2)−2n+1

2.2.3 F F F分布

设随机变量 X ∼ χ 2 ( n 1 ) X\sim\chi^2(n_1) X∼χ2(n1)， Y ∼ χ 2 ( n 2 ) Y\sim\chi^2(n_2) Y∼χ2(n2)，且 X X X与 Y Y Y相互独立，则随机变量 F = X n 1 Y n 2 F=\frac{\frac{X}{n_1}}{\frac{Y}{n_2}} F=n2Yn1X所服从的分布称为是自由度为 ( n 1 , n 2 ) (n_1,n_2) (n1,n2)的 F F F分布，记为 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) F∼F(n1,n2)，其分布密度函数为 f ( x ) = { Γ ( n 1 + n 2 2 ) Γ ( n 1 2 ) Γ ( n 2 2 ) ( n 1 n 2 ) ( n 1 n 2 x ) n 1 − 1 2 ( 1 + ( n 1 n 2 x ) ) n 1 + n 2 − 2 , x > 0 0 , x ≤ 0 f(x)=\begin{cases}\frac{\Gamma(\frac{n_1+n_2}{2})}{\Gamma(\frac{n_1}{2})\Gamma(\frac{n_2}{2})}(\frac{n_1}{n_2})(\frac{n_1}{n_2}x)^\frac{n_1-1}{2}(1+(\frac{n_1}{n_2}x))^\frac{n_1+n_2}{-2}, &x>0\\ 0, &x\leq0 \end{cases} f(x)={Γ(2n1)Γ(2n2)Γ(2n1+n2)(n2n1)(n2n1x)2n1−1(1+(n2n1x))−2n1+n2,0,x>0x≤0

2.2.4 三大分布的用途

χ 2 \chi^2 χ2分布：用于分类变量的卡方检验。
F F F分布：多用于方差比例的检验，以及方差分析，回归分析和方差齐性检验。
t t t分布：在信息不足的情况下，一般使用 t t t分布。

2.3 中心极限定理（刻画分布）

在一定条件下，多个相互独立随机变量的平均值服从或近似服从正态分布，即大量的独立随机变量之和具有近似正态的分布。
中心极限定理回答的是，独立或弱相依的随机变量之和的极限分布在什么条件下是正态的。
- 在一定条件下断定随机变量之和的极限分布是正态分布的定理。

2.4 大数定律（说明可估计）

如果随机变量总体存在有限的平均数和方差，则对于充分大的抽样单位数 n n n，可以以几乎趋于1的概率来期望抽样平均数与总体平均数的绝对离差为任意小。即 lim ⁡ n → ∞ P ( ∣ x ‾ − X ‾ ∣ ≤ ϵ ) = 1 \lim_{n \to \infty}{P(|\overline x-\overline X|\leq\epsilon)=1} n→∞limP(∣x−X∣≤ϵ)=1其中 ϵ \epsilon ϵ为任意小的正数。
讨论在什么条件下，随机变量序列的算术平均依概率收敛到其均值的算术平均。

三、抽样估计

3.1 抽样估计的基本概念

3.1.1 总体

总体。需要研究的全部数据的集合。
个体。组成总体的每一个元素。具有如下特征：
- 同质性：具有共同的某个属性
- 大量性：总体元素数量要多
- 差异性：个体之间对于某个属性的取值是不一样的
总体指标(总体参数)。根据总体中个体的观测变量值计算的，反映总体某种属性的综合指标。
- 总体为无限总体，则对应的随机变量为连续性随机变量。
- 总体为有限总体，则对应的随机变量为离散型随机变量。

3.1.2 样本

样本：随机地从总体中抽取一些个体，观测这些个体的属性值，抽取出来的个体被称为样本。
样本个数：在总体中可以抽取的全部次数。
样本容量：一次抽样抽取的个体个数。

总体指标于样本指标的区别于联系

区别：(1)样本指标是一个随机变量，而总体指标是一确定值；(2)总体指标是未知的，而样本指标可以通过抽样调查得知。

联系：(1)运用抽样调查通过样本指标，可对总体指标进行推断估计；(2)当样本个数逐步增大时，样本指标会逐渐接近总体相应指标。

3.1.3 抽样估计

从总体中抽取一部分个体，组成一个样本，然后根据样本的指标取估计总体的指标。
1、抽样估计的样本要求

随机性。总体中每个个体都有相同的机会进入样本。
独立性。从总体中抽取的每个样本对其他样本的抽取无任何影响。

2、抽样方法（随机原则）

重复抽样
不重复抽样

3、抽样估计的理论基础

大数定律
中心极限定理

4、样本统计量

总体指标	样本统计量
总体均值 μ \mu μ	样本均值 x ‾ = ∑ i = 1 n x i n \overline x=\frac{\sum_{i=1}^nx_i}{n} x=n∑i=1nxi
总体成数 π \pi π	样本成数 p = n 1 n p=\frac{n_1}{n} p=nn1
总体方差 σ 2 \sigma^2 σ2	样本方差 s 2 = Σ ( x − x ‾ ) 2 n s^2=\frac{\Sigma (x-\overline x)^2}{n} s2=nΣ(x−x)2
总体标准差 σ \sigma σ	样本标准差 s s s

3.2 抽样估计的方法——点估计

点估计又包括矩估计、最大似然估计、最小二乘估计等。点估计就是在某一次随机抽样过程中，计算得到的样本统计量的值直接作为总体指标。

优良点估计的衡量标准
- 无偏性， E ( θ ^ ) = θ E(\hat \theta)=\theta E(θ^)=θ
- 有效性，样本指标的方差最小
- 一致性，当样本容量增加时，样本指标越来越接近总体指标
当样本容量增大，则点估计的精度也随之增大。
缺点：点估计是以误差存在为前提，且没有表明抽样估计的误差。

3.3 抽样估计的误差

抽样误差是指由于随机抽样的偶然因素使样本各单位的结构对总体各单位结构的代表性差别，而引起的样本统计量与总体指标之间的绝对离差。误差可分为以下三类：

抽样误差。不可避免，但可以控制，又称为可控制误差。
调查误差。由于观测、计算等引起的。
系统偏误。样本代表性不足。
- 后两种误差都是可以防止和避免的。

3.3.1 影响抽样误差的因素

总体单位标志值的差异程度。差异越大，则抽样误差越大。
样本单位数的多少。越多，则抽样误差越小。
抽样方法。一般来说，重复抽样要比不重复抽样的误差大一些。
抽样调查的组织形式。

3.3.2 抽样估计的平均误差

抽样平均误差使抽样平均数的标准差。

	重复抽样	不重复抽样
平均数抽样平均误差	μ x ‾ = σ 2 n \mu_{\overline x}=\sqrt{\frac{\sigma^2}{n}} μx=nσ2	μ x ‾ = σ 2 n ( N − n N − 1 ) \mu_{\overline x}=\sqrt{\frac{\sigma^2}{n}(\frac{N-n}{N-1})} μx=nσ2(N−1N−n)
成数抽样平均误差	μ p = p ( 1 − p ) n \mu_p=\sqrt\frac{p(1-p)}{n} μp=np(1−p)	μ p = p ( 1 − p ) n ( N − n N − 1 ) \mu_p=\sqrt{\frac{p(1-p)}{n}(\frac{N-n}{N-1})} μp=np(1−p)(N−1N−n)

3.3.3 抽样估计的极限误差

在抽样调查中，允许误差的范围。抽样极限误差的实际价值是希望总体平均数 X ‾ \overline X X在抽样平均数 x ‾ ± Δ x \overline x\pm\Delta_x x±Δx的范围内变动。
极限误差 Δ \Delta Δ与平均误差 μ \mu μ的关系为： Δ μ = t \frac{\Delta}{\mu}=t μΔ=t， t t t为概率度。

3.4 抽样估计的方法——区间估计

3.4.1 抽样估计精度

误差率 = Δ x x = ∣ x ‾ − X ‾ ∣ x ‾ =\frac{\Delta_x}{x}=\frac{|\overline x-\overline X|}{\overline x} =xΔx=x∣x−X∣
估计精度=1-误差率

3.4.2 抽样估计置信度

在进行抽样估计时，一方面要考虑抽样误差的允许范围有多大，另一方面还要考虑落到这一范围的概率有多少。前者是估计的准确度问题，后者是估计的可靠性问题。
抽样误差范围 Δ x \Delta_x Δx越小，则估计置信度也越小。

3.4.3 区间估计的方法

区间估计必须同时具备估计值、抽样误差范围和概率保证程度三个要素。

先确定两个数值 θ 1 \theta_1 θ1与 θ 2 \theta_2 θ2，使总体指标 θ \theta θ落在区间 [ θ 1 , θ 2 ] [\theta_1,\theta_2] [θ1,θ2]内的概率 P ( θ 1 ≤ θ ≤ θ 2 ) = 1 − α P(\theta_1\le\theta\le\theta_2)=1-\alpha P(θ1≤θ≤θ2)=1−α，则为区间估计。
- α \alpha α被称为显著性水平
- 1 − α 1-\alpha 1−α称为置信系数
- 区间 [ θ 1 , θ 2 ] [\theta_1,\theta_2] [θ1,θ2]被称为置信区间

区间估计的步骤：
(1)根据已经给定的抽样误差范围，求概率保证程度。

首先，抽取样本，计算抽样指标，作为相应总体的估计值；

其次，计算样本标准差，推算抽样平均误差；

再次，根据给定的抽样误差范围，确定估计总体指标的下限和上限；

最后，将抽样误差除以抽样平均误差，求出概率度 t t t值，再给出相应的置信度，并对总体参数做区间估计。

(2)根据给定的置信度要求，推算出抽取极限误差的可能范围。

给出置信度水平，确定概率度，从而得出总体参数的区间估计。

3.5 抽样的组织形式和抽样数目的确定

常用的抽样调查组织方式有：简单随机抽样、分层抽样、等距抽样、整群抽样和多阶段抽样等。

简单随机抽样，又称为纯随机抽样。方法有直接抽选法、抽签摸球法和随机数表法。
分层抽样，又叫为类型抽样。在分层抽样中有按比例和不按比例分层抽样两种方法。
等距抽样，按固定顺序和间隔来抽取样本的方式。
整群抽样。多用于研究对象较广、总体单位较多的抽样调查。
多阶段抽样。方式：先从总体中随机抽取若干个大群，然后再从这几个大群内抽取几个小群，这样一层层抽下来，直到抽到最基本的抽样元素为止。

参考：《从零进阶！数据分析的统计基础》、《概率论与数理统计教程》

数据分析的统计基础（上）相关推荐

四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记
目录 1.数据分析概述 1.1 什么是数据分析 1.2 数据分析六部曲 1.2.1 明确分析目的和内容 1.2.2 数据收集 1.2.3 数据预处理 1.2.4 数据分析 1.2.5 数据展现 1.2 ...
【学习笔记】产品经理必备技能之数据分析（二）常见数据分析方法（上）
内容来自小破站<黑马程序员-产品经理必备技能之数据分析>复习自用 [学习笔记]产品经理必备技能之数据分析(二)常见数据分析方法(上) 3 常见数据分析方法 3.1 基础数据分析(日常工作) ...
RNA-seq：转录组数据分析处理（上）
RNA-seq:转录组数据分析处理(上) 目录 RNA-seq:转录组数据分析处理(上) 一.流程概括二.准备工作 1. fastq测序文件 2.注释文件和基因组文件的获取三.软件安装四.质量汇 ...
数据分析的统计基础（下）
四.假设检验 4.1 假设检验 4.1.1 概念从对总体的假设出发用样本数据进行检验,实现对总体指标分析的过程.即,对总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布而做出相应的假设. ...
数据分析之历史上的百年奥运
2020东京奥运会已经结束了,才想起来写一篇关于奥运会的数据分析文章,真是前些天都太热衷于追奥运了. 找了一下,网上果然有从1896第一届现代奥运会开始至2016年里约奥运会的全部数据,当然如果你感兴 ...
超全的电商数据指标体系分享，年底数据分析用得上
马上要到年底了,各行各业的数据分析师的工作量猛增,忙着赶年终数据分析报告.要分析哪些关键的数据指标,如何拆解分析思路呢? 老李给大家整了各行业的数据指标体系框架,帮助大家理清分析思路,上次分享了关于线 ...
谈谈我所了解的数据分析行业（上）
作者 | Captain Milo 首先得说,以下内容应算作认知型总结.虽然不拿数据说话是职业大忌,但是我推崇在碎片化阅读场景里,要获取认知感而不是严谨的知识. 另一方面,从最后的结论可以看到,我倾向 ...
数据分析实战——母婴产品上新策略分析
分析目的:本次分析将针对母婴类产品,根据市场销售数据分析需求,确定产品,指导上新. 本文在分析过程中参考了:张蒙:母婴产品上新策略分析(excel+tableau)的分析步骤,使用python进行分析 ...
当航线、就业、保险的数据分析过程遇上可视化
摘要:数据分析在多数人看来是个与数据打交道的枯燥过程,但是,当它遇到可视化的时候,这些数字也能迸发出艺术感和色彩.分析过程可视化图在数据分析中具有广泛的应用. 本文将展示Teradata利用Terad ...

数据分析的统计基础（上）