数据挖掘之数理统计与描述性统计

一、数理统计概念

1.基本概念释义

定义：在数理统计中，称研究对象的全体为总体，通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体 XXX 中随机抽取一部分个体 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn ,称 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 为取自 XXX 的容量为 nnn 的样本。

例如，为了研究某厂生产的一批元件质量的好坏，规定使用寿命低于1千小时的为次品，则该批元件的全体就为总体，每个元件就是个体。实际上，数理统计学中的总体是指与总体相联系的某个(或某几个)数量指标 XXX 取值的全体。比如，该批元件的使用寿命 XXX 的取值全体就是研究对象的总体。显然 XXX 是随机变量，这时，就称 XXX 为总体。

为了判断该批元件的次品率，最精确的办法是取出全部元件，对作元件的寿命试验。然而，寿命试验具有破坏性，即使某些试验是非破坏性的，因此只能从总体中抽取一部分，对nnn 个个体进行试验。试验结果可得组数值集合 x1,x2,...,xn{ x_1,x_2,...,x_n }x1,x2,...,xn ，其中每个 xix_ixi 是第 iii 次抽样观察的结果。由于要根据这些观察结果来对总体进行推断，所以对每次抽样就需要有一定的要求，要求每次抽取必须是随机的、独立的，这样才能较好地反映总体情况。所谓随机的是指每个个体被抽到的机会是均等的，这样抽到的个体才具有代表性。若x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn 相互独立，且每个 xix_ixi 与 XXX 同分布，则称x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn 为简单随机样本，简称样本.通常把 nnn 称为样本容量。

值得注意的是，样本具有两重性，即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量，因为抽样是随机的。一般地，用 X1,X2,...，XnX_1,X_2,...，X_nX1,X2,...，Xn , 表示随机样本，它们取到的值记为 x1,x2,...，xnx_1,x_2,...，x_nx1,x2,...，xn 称为样本观测值。

样本作为随机变量，有一定的概率分布，这个概率分布称为样本分布。显然，样本分布取决于总体的性质和样本的性质。

2.统计量与抽样

数理统计的任务是采集和处理带有随机影响的数据，或者说收集样本并对之进行加工，以此对所研究的问题作出一定的结论，这一过程称为为统计推断。在统计推断中，对样本进行加工整理，实际上就是根据样本计算出一些量，使得这些量能够将所研究问题的信息集中起来。这种根据样本计算出的量就是下面将要定义的统计量，因此，统计量是样本的某种函数。

定义：设 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 是总体 XXX 的一个简单随机样本， T(X1,X2,...,Xn)T(X_1, X_2,...,X_n)T(X1,X2,...,Xn) 为一个 nnn 元连续函数，且 TTT 中不包含任何关于总体的未知参数，则称 T(X1,X2,...,Xn)T(X_1, X_2,...,X_n)T(X1,X2,...,Xn) 是一个统计量，称统计量的分布为抽样分布。

3.常用的统计量

样本均值
设 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 是总体 XXX 的一个简单随机样本，称 X‾=1n∑i=1nXi\overline X = \frac{1} {n} {\sum_{i=1}^{n}X_i} X=n1i=1∑nXi 为样本均值。通常用样本均值来估计总体分布的均值和对有关总体分布均值的假设作检验。
样本方差
设 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 是总体 XXX 的一个简单随机样本，X‾\overline XX 为样本均值，称 S2=1n−1∑i=1n(Xi−X‾)2S^2 = \frac{1} {n-1} {\sum_{i=1}^{n}(X_i-\overline X)^2} S2=n−11i=1∑n(Xi−X)2 为样本方差。通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设作检验。
kkk阶样本原点矩
设 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 是总体 XXX 的一个简单随机样本，称 Ak=1n∑i=1nXikA_k = \frac{1} {n} {\sum_{i=1}^{n}X_i^k} Ak=n1i=1∑nXik 为样本的 kkk 阶原点矩（可以看到 k=1k=1k=1 时，相当于样本均值），通常用样本的无阶原点矩来估计总体分布的 kkk 阶原点矩。
kkk 阶样本中心矩
设 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 是总体 XXX 的一个简单随机样本，X‾\overline XX 为样本均值，称 Mk=1n∑i=1n(Xi−X‾)kM_k = \frac{1} {n} {\sum_{i=1}^{n}(X_i-\overline X)^k} Mk=n1i=1∑n(Xi−X)k 为样本的 kkk 阶中心矩，通常用样本的 kkk 阶中心矩来估计总体分布的 kkk 阶中心矩。

其实当样本量足够大时，1/n1/n1/n 与 1/(n−1)1/(n-1)1/(n−1) 近似于相等。

顺序统计量
设 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 是抽自总体 XXX 的样本，x1,x2,...，xnx_1,x_2,...，x_nx1,x2,...，xn 为样本观测值。将 x1,x2,...，xnx_1,x_2,...，x_nx1,x2,...，xn 按照从小到大的顺序排列为 x（1）<=x（2）<=...<=x（n）x_{（1）}<=x_{（2）}<=...<=x_{（n）} x（1）<=x（2）<=...<=x（n）当样本 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 取值 x1,x2,...，xnx_1,x_2,...，x_nx1,x2,...，xn 时，定义 X(k)X_{(k)}X(k) 取值 X(k)（k=1,2，...,n）X_{(k)}（k=1,2，...,n）X(k)（k=1,2，...,n），称 X（1）,X（2）,...,X（n）X_{（1）},X_{（2）},...,X_{（n）}X（1）,X（2）,...,X（n）为 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 的顺序统计量。

显然，X（1）=minXiX_{（1）} =min {X_i}X（1）=minXi 是样本观察中最小的一个，称为最小顺序统计量。X（n）=maxXiX_{（n）} =max {X_i}X（n）=maxXi 是样本观测值中取值最大的一个，成为最大顺序统计量。称X（r）X_{（r）}X（r）为第 rrr 个顺序统计量。

二、描述性统计

1.数据集中趋势的度量

平均数：
是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。

xˉ=1n∑i=1nxi\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}xˉ=n1i=1∑nxi

中位数：
是指在一组数据，按顺序排列后，居于中间位置的数。中位数描述数据中心位置的数字特征，对于对称分布的数据，均值与中位数比较接近；对于偏态分布的数据，均值与中位数不同。中位数不受异常值的影响，具有稳健性。

me={x(n+12),当 n为奇数时, 12(x(n2)+x(n2+1)),当 n为偶数时. m_{e}=\left\{\begin{array}{ll} x_{\left(\frac{n+1}{2}\right)}, & \text { 当 } n \text { 为奇数时, } \\ \frac{1}{2}\left(x_{\left(\frac{n}{2}\right)}+x_{\left(\frac{n}{2}+1\right)}\right), & \text { 当 } n \text { 为偶数时. } \end{array}\right.me={x(2n+1),21(x(2n)+x(2n+1)), 当 n 为奇数时, 当 n 为偶数时.

举个栗子
如果数字个数为奇数，则为中间那个数字，如果中间位置上有两个数（数字为偶数个），则取两个数的平均数。比如3，7，4，9，2，5，8这组数据的中数为5；而3，7，4，9，2，5这组数据的中数则是（4+5）/2＝4.5。中位数说明的是生活中的中等水平。如“成绩班级中等”

频数：指同一观测值在一组数据中出现的次数（掷骰子中，一共掷了20次，出现数字5的次数）。
众数:就是一组数据中，出现次数最多的那个数（几个数）。

举个栗子
在1，2，3，3，4，5这组数据的众数就是3，因为它出现了两次。众数说明的是生活中的多数情况。诸如“最佳”、“最受欢迎”、“最满意”、“举手表决”等，都与众数有关系，它反映了一种最普遍的倾向。

均值 vs 中位数 vs 众数
优点缺点均值充分利用所有数据, 适用性强容易受极端值影响中位数不受极端值影响缺之敏感性众数不受极端值影响; 当数据具有明显的集中趋势时, 代表性好缺之唯一性 \begin{array}{ccc} & \text { 优点 } & \text { 缺点 } \\ \text { 均值 } & \text { 充分利用所有数据, 适用性强 } & \text { 容易受极端值影响 } \\ \text { 中位数 } & \text { 不受极端值影响 } & \text { 缺之敏感性 } \\ \text { 众数 } & \text { 不受极端值影响; 当数据具有明显的集中趋势时, 代表性好 } & \text { 缺之唯一性 } \end{array} 均值中位数众数优点充分利用所有数据, 适用性强不受极端值影响不受极端值影响; 当数据具有明显的集中趋势时, 代表性好缺点容易受极端值影响缺之敏感性缺之唯一性
百分位数：

百分位数是中位数的推广，将数据按从小到大排列后，对于 0≤p<10 \leq p < 10≤p<1 它的p分位点定义为
mp={x([np]+1),当 np不是整数时, 12(x(np)+x(np+1)),当 np是整数时 ,m_{p}=\left\{\begin{array}{ll} x_{([n p]+1)}, & \text { 当 } n p \text { 不是整数时, } \\ \frac{1}{2}\left(x_{(n p)}+x_{(n p+1)}\right), & \text { 当 } n p \text { 是整数时 }, \end{array}\right.mp={x([np]+1),21(x(np)+x(np+1)), 当 np 不是整数时, 当 np 是整数时 ,

其中，[np]表示np的整数部分。所以，0.5分位数（第50百分位数）就是中位数。

这个百分位数最常见的就是我们说的箱线图了：

这个箱线图可以看到数据的下面几个性质：

中心位置：中位数所在的位置是数据集的中心
散布程度：全部数据落在[Min, Max]之内，在区间[Min⁡,Q1],[Q1,M],[M,Q3],[Q3,Max⁡]\left[\operatorname{Min}, Q_{1}\right], \quad\left[Q_{1}, M\right],\left[\mathrm{M}, Q_{3}\right],\left[Q_{3}, \operatorname{Max}\right][Min,Q1],[Q1,M],[M,Q3],[Q3,Max]的数据个数各占1/4。区间较短时表示落在该区间的点较为集中，反之较为分散。
对称性：若中位数位于箱子的中间位置，则数据分布较为对称。若Min离M的距离较Max离M的距离大，则表示数据分布向左倾斜，反之数据右倾斜，且能看出分布尾部的长短。

箱线图特别适用于比价两个或者两个以上数据集的性质。当然箱线图也可以帮助我们检测是否存在异常值（不寻常的过大或者过小），第一四分位数Q1Q_{1}Q1 和第三四分位数Q3Q_{3}Q3之间的距离记为IQR，也就是四分位数间距，若数据小于Q1−1.5IQRQ_{1}-1.5 I Q RQ1−1.5IQR或者数据大于Q1+1.5IQRQ_{1}+1.5 I Q RQ1+1.5IQR,就疑似异常

举个栗子
假如100个学生，将成绩从低到高排列，假设成绩从最低的1分到最高的100分，那么成绩排在第3的数值（即3分，倒数第三名）就是第3百分位数（P3），而排在第95的数值（即95分，第六名）的就是第95百分位数。

2. python实现

#NumPy系统是Python的一种开源的数值计算扩展。用来存储和处理大型矩阵。
import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean = np.mean(a)  #均值
a_med = np.median(a)  #中位数
print("a的平均数:",a_mean)
print("a的中位数:",a_med)
#------------------------------------------------------------
from scipy import stats
'''
Scipy是一个高级的科学计算库，Scipy一般都是操控Numpy数组来进行科学计算，
Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、
信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。
'''
a_m1 =stats.mode(a)[0][0]
print("a的众数:",a_m)
#-------------------------------------------------------------
import pandas as pd
#将一维数组转成Pandas的Series，然后调用Pandas的mode()方法
ser = pd.Series(a)
a_m2 = ser.mode()
print("a的众数:",a_m)

3.数据离散趋势的度量
表示数据分散（离散，差异）程度的特征量有方差，标准差，极差以及变异系数等。

方差：

用来计算每一个变量（观察值）与总体均数之间的差异。实际工作中，总体均数难以得到时，应用样本统计量代替总体参数，经校正后，样本方差计算公式：
s2=1n−1∑i=1n(xi−xˉ)2s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}s2=n−11i=1∑n(xi−xˉ)2

甲、乙两人同时向目标靶射击10发子弹，甲射击的环数分别是：
甲 4445689101010Z6667777888\begin{array}{ccccccccccc} \text { 甲 } & 4 & 4 & 4 & 5 & 6 & 8 & 9 & 10 & 10 & 10 \\ Z & 6 & 6 & 6 & 7 & 7 & 7 & 7 & 8 & 8 & 8 \end{array} 甲 Z46464657678797108108108

射击结果都为平均7环。因为乙的射击点较集中，射击的稳定性较好，所以乙的射击效果较好。这里的方差的作用就体现了。甲的方差为2.66，乙的方差为0.82；

标准差：

样本方差的开平方成为样本标准差。
s=s2=1n−1∑i=1n(xi−xˉ)2s=\sqrt{s^{2}}=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}s=s2=n−11i=1∑n(xi−xˉ)2

极差：
数据越分散，极差越大。
R=x(n)−x(1)=max⁡(x)−min⁡(x)R=x_{(n)}-x_{(1)}=\max (x)-\min (x)R=x(n)−x(1)=max(x)−min(x)
变异系数：
1、是刻画数据相对分散性的一种度量。变异系数只在平均值不为零时有定义，而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率或单位风险。
2、当需要比较两组数据离散程度大小的时候，如果两组数据的测量尺度相差太大，或者数据量纲的不同，变异系数可以消除测量尺度和量纲的影响。
CV=100×sxˉ(%)\mathrm{CV}=100 \times \frac{s}{\bar{x}}(\%)CV=100×xˉs(%)
四分位差：
样本上、下四分位数之差称为四分位差(或半极差)。 R1=Q3−Q1R_1 = Q_3 - Q_1R1=Q3−Q1 它也是度量样本分散性的重要数字特征，特别对于具有异常值的数据，它作为分散性具有稳健性（见百分位数示意图）。

4.python实现

import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_var = np.var(a)  #方差
a_std1 = np.sqrt(a_var) #标准差
a_std2 = np.std(a) #标准差
a_mean = np.mean(a)  #均值
a_cv =  a_std2 /a_mean #变异系数
print("a的方差:",a_var)
print("a的方差:",a_std1)
print("a的方差:",a_std2)
print("a的变异系数:",a_cv)

5. 分布特征

引言：描述一个随机变量，不仅要说明它能够取那些值，而且还要关心它取这些值的概率（可能性）。

离散变量与连续变量：

离散型随机变量是指其数值只能用自然数或整数单位计算的则为离散变量。例如，班级人数，电脑台数等，只能按计量单位数计数，这种变量的数值一般用计数方法取得。

反之，在一定区间内可以任意取值的变量叫连续变量，其数值是连续不断的，即可取无限个数值。例如，人体测量的身高，体重等。

概率函数就是用函数的形式来表达概率。

（大量重复试验中出现的频率来估计概率，它约等于事件出现的频数除以重复试验的次数）。 Pi=P(X=ai)（i=1,2,3,4,5,6）P_i = P(X=a_i)（i=1,2,3,4,5,6） Pi=P(X=ai)（i=1,2,3,4,5,6） P（X=1）=1/6,这代表用概率函数的形式来表示，当随机变量X取值为1的概率为1/6，一次只能代表一个随机变量的取值。 (抛骰子游戏)
骨子点数 123456总计出现的频数 161716171717100\begin{array}{l|lllllll} \text { 骨子点数 } & 1 & 2 & 3 & 4 & 5 & 6 & \text { 总计 } \\ \hline \text { 出现的频数 } & 16 & 17 & 16 & 17 & 17 & 17 & 100 \end{array} 骨子点数出现的频数 116217316417517617 总计 100

数字1出现的概率（1/6）约等于（16/100）。

连续型随机变量的概率函数就叫做概率密度函数。

分布函数：

设X是一个随机变量，对任意的实数x，令
F(x)=P(X<x)F(x)=P(X<x)F(x)=P(X<x)

则称F(x)是随机变量X的分布函数（概率累积函数）。

密度函数与分布函数关系密度函数与分布函数关系密度函数与分布函数关系

正态分布：
正态分布（normal distribution），也称高斯分布，是一个非常常见的连续概率分布。概率密度函数为
测量误差、商品的重量或尺寸、某年龄人群的身高和体重均付出正态分布。
f(x)=12πσexp⁡{−(x−μ)22σ2},−∞<x<+∞f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left\{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right\}, \quad-\infty<x<+\inftyf(x)=2πσ1exp{−2σ2(x−μ)2},−∞<x<+∞
X服从N(μ,σ2)分布X 服从 N(\mu ,\sigma^2) 分布X服从N(μ,σ2)分布
正态分布的概率密度函数曲线正态分布的概率密度函数曲线正态分布的概率密度函数曲线

标准正态分布和对应区间上积分（面积）的百分比标准正态分布和对应区间上积分（面积）的百分比标准正态分布和对应区间上积分（面积）的百分比

这个概念可以推广到一般正态分布，也就是说，从 μ−3σ\mu-3 \sigmaμ−3σ 到 μ+3σ\mu+3 \sigmaμ+3σ 的区间上概率密度曲线之下的面积占总面积的 99.7%, 这就是著名的 3 σ\sigmaσ 原则

6.偏度与峰度
偏度（skewness）：也称为偏态，是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。直观看来就是密度函数曲线尾部的相对长度。偏度刻画的是分布函数（数据）的对称性关于均值对称的数据其偏度系数为0，右侧更分散的数据偏度系数为正，左侧更分散的数据偏度系数为负。

正态分布的偏度为0，两侧尾部长度对称。
左偏:

若以bs表示偏度。bs<0称分布具有负偏离，也称左偏态；
此时数据位于均值左边的比位于右边的少，直观表现为左边的尾部相对于与右边的尾部要长；
因为有少数变量值很小，使曲线左侧尾部拖得很长；

右偏：

bs>0称分布具有正偏离，也称右偏态；
– 此时数据位于均值右边的比位于左边的少，直观表现为右边的尾部相对于与左边的尾部要长；
因为有少数变量值很大，使曲线右侧尾部拖得很长；

峰度（peakedness;kurtosis):说明的是分布曲线在平均值处峰值高低的特征数。直观看来，峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量，如果峰度大于三，峰的形状比较尖，比正态分布峰要陡峭。反之亦然。峰度刻画的是分布函数的集中和分散程度。

7. 公式与python实现
样本偏度系数：
g1=n(n−1)(n−2)s3∑i=1n(xi−xˉ)3=n2μ3(n−1)(n−2)s3g_{1}=\frac{n}{(n-1)(n-2) s^{3}} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}=\frac{n^{2} \mu_{3}}{(n-1)(n-2) s^{3}}g1=(n−1)(n−2)s3ni=1∑n(xi−xˉ)3=(n−1)(n−2)s3n2μ3

样本峰度系数：
g2=n(n+1)(n−1)(n−2)(n−3)s4∑i=1n(xi−xˉ)4−3(n−1)2(n−2)(n−3)=n2(n+1)μ4(n−1)(n−2)(n−3)s4−3(n−1)2(n−2)(n−3)\begin{aligned} g_{2} &=\frac{n(n+1)}{(n-1)(n-2)(n-3) s^{4}} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}-3 \frac{(n-1)^{2}}{(n-2)(n-3)} \\ &=\frac{n^{2}(n+1) \mu_{4}}{(n-1)(n-2)(n-3) s^{4}}-3 \frac{(n-1)^{2}}{(n-2)(n-3)} \end{aligned}g2=(n−1)(n−2)(n−3)s4n(n+1)i=1∑n(xi−xˉ)4−3(n−2)(n−3)(n−1)2=(n−1)(n−2)(n−3)s4n2(n+1)μ4−3(n−2)(n−3)(n−1)2

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = list(np.random.randn(10000))
#生成标准正态分布的随机数（10000个）
plt.hist(data,1000,facecolor='g',alpha=0.5)
'''
plt.hist(arr, bins=10, facecolor, edgecolor,alpha，histtype='bar')
bins：直方图的柱数，可选项，默认为10
alpha: 透明度
'''
plt.show()
s = pd.Series(data) #将数组转化为序列
print('偏度系数',s.skew())
print('峰度系数',s.kurt())

思维导图