九、独立性检验和正态性检验

1.独立性检验

独立性检验，指的是将一个多元总体X∼Np(μ,Σ)X\sim N_p(\mu,\Sigma)X∼Np(μ,Σ)划分成kkk个部分，探究每个部分之间是否独立的问题，这样做的好处是显而易见的，如果一个总体XXX可以划分成多个独立的部分，那么只需要对每一个部分分开讨论即可，无疑降低了运算量。在多元统计中，可以视为有如下分解：
X=[X(1)⋮X(k)],μ=[μ(1)⋮μ(k)],Σ=[Σ11⋯Σ1k⋮⋮Σk1⋯Σkk].X=\begin{bmatrix} X^{(1)} \\ \vdots \\ X^{(k)} \end{bmatrix}, \mu=\begin{bmatrix} \mu^{(1)} \\ \vdots \\ \mu^{(k)} \end{bmatrix}, \Sigma=\begin{bmatrix} \Sigma_{11} & \cdots & \Sigma_{1k} \\ \vdots & & \vdots \\ \Sigma_{k1} & \cdots & \Sigma_{kk} \end{bmatrix}. X=⎣⎢⎡X(1)⋮X(k)⎦⎥⎤,μ=⎣⎢⎡μ(1)⋮μ(k)⎦⎥⎤,Σ=⎣⎢⎡Σ11⋮Σk1⋯⋯Σ1k⋮Σkk⎦⎥⎤.
每一个分向量X(t)X^{(t)}X(t)都是ptp_tpt维的，对应的μ(t)\mu^{(t)}μ(t)也是ptp_tpt维的，Σtt\Sigma_{tt}Σtt是pt×ptp_t\times p_tpt×pt的。在多元正态分布的介绍中提到，如果X(1),⋯,X(k)X^{(1)},\cdots,X^{(k)}X(1),⋯,X(k)是独立的，那么Σij=O\Sigma_{ij}=OΣij=O对任何i≠ji\ne ji=j都成立，反之也成立，因此在正态总体下，假设检验就变成了以下的形式：
H0:∀i≠j,Σij=O⇔H1:∃i≠j,Σij≠O.H_0:\forall i\ne j,\Sigma_{ij}=O\Leftrightarrow H_1:\exist i\ne j,\Sigma_{ij}\ne O. H0:∀i=j,Σij=O⇔H1:∃i=j,Σij=O.
由于样本均值、样本离差阵是对总体均值、自协方差矩阵的估计，因此我们也可以对样本均值和样本离差阵作同型分解。如果H0H_0H0成立，则X(α)(t)∼Np(μ(t),Σtt)X_{(\alpha)}^{(t)}\sim N_p(\mu^{(t)},\Sigma_{tt})X(α)(t)∼Np(μ(t),Σtt)且相互独立，那么似然函数就是
L(μ,Σ)=∏t=1kLt(μ(t),Σtt),L(\mu,\Sigma)=\prod_{t=1}^kL_t(\mu^{(t)},\Sigma_{tt}), L(μ,Σ)=t=1∏kLt(μ(t),Σtt),
取最大值的情况显然是μ(t)=Xˉ(t),Σtt=Att/n\mu^{(t)}=\bar X^{(t)},\Sigma_{tt}=A_{tt}/nμ(t)=Xˉ(t),Σtt=Att/n，所以似然比统计量的分子是
∏t=1n(2π)−npt/2∣Att/n∣−n/2exp⁡{−12∑α=1n(X(α)(t)−Xˉ(t))′(Attn)−1(X(α)(t)−Xˉ(t))}=(2π)−np/2exp⁡{−12∑α=1n(X(α)−Xˉ)′(An)−1(X(α)−Xˉ)}∏t=1k∣Attn∣−n/2.\begin{aligned} &\prod_{t=1}^n(2\pi)^{-np_t/2}|A_{tt}/n|^{-n/2}\exp\left\{-\frac12\sum_{\alpha=1}^n(X_{(\alpha)}^{(t)}-\bar X^{(t)})'\left(\frac{A_{tt}}{n} \right)^{-1}(X_{(\alpha)}^{(t)}-\bar X^{(t)}) \right\}\\ =&(2\pi)^{-np/2}\exp\left\{-\frac12\sum_{\alpha=1}^n(X_{(\alpha)}-\bar X)'\left(\frac{A}{n} \right)^{-1}(X_{(\alpha)}-\bar X) \right\}\prod_{t=1}^k\left|\frac{A_{tt}}n{} \right|^{-n/2}. \end{aligned} =t=1∏n(2π)−npt/2∣Att/n∣−n/2exp{−21α=1∑n(X(α)(t)−Xˉ(t))′(nAtt)−1(X(α)(t)−Xˉ(t))}(2π)−np/2exp{−21α=1∑n(X(α)−Xˉ)′(nA)−1(X(α)−Xˉ)}t=1∏k∣∣∣∣nAtt∣∣∣∣−n/2.
这里的转换可以用之前常用的迹变换得出。观察分子与分母，发现其大部分是相同的，所以得到似然比统计量为
λ=∏t=1k∣Att/n∣−n/2∣A/n∣−n/2=(∣A∣∏t=1n∣Att∣)n/2=defVn/2.\lambda =\frac{\prod_{t=1}^k|A_{tt}/n|^{-n/2}}{|A/n|^{-n/2}}=\left(\frac{|A|}{\prod_{t=1}^n|A_{tt}|} \right)^{n/2}\stackrel {\rm def}=V^{n/2}. λ=∣A/n∣−n/2∏t=1k∣Att/n∣−n/2=(∏t=1n∣Att∣∣A∣)n/2=defVn/2.
所以我们取检验统计量为
V=∣A∣∏i=1k∣Att∣.V=\frac{|A|}{\prod_{i=1}^k|A_{tt}|}. V=∏i=1k∣Att∣∣A∣.
并且有结论保证，在H0H_0H0成立的条件下，−bln⁡V→H0χ2(f)-b\ln V\stackrel {H_0}\to \chi^2(f)−blnV→H0χ2(f)，这里
b=n−32−p3−∑t=1kpt33(p2−∑t=1kpt2),f=12[p(p+1)−∑t=1kpt(pt+1)].b=n-\frac32-\frac{p^3-\sum_{t=1}^k p_t^3}{3(p^2-\sum_{t=1}^k p_t^2)}, \\ f=\frac 12\left[p(p+1)-\sum_{t=1}^k p_t(p_t+1) \right]. b=n−23−3(p2−∑t=1kpt2)p3−∑t=1kpt3,f=21[p(p+1)−t=1∑kpt(pt+1)].
事实上−bln⁡V-b\ln V−blnV是−2ln⁡λ-2\ln \lambda−2lnλ的近似，故bbb也是nnn的近似，而fff就是两个参数空间的维度之差。

2.一元数据正态性检验

回顾我们之前提到的假设检验，包括均值向量、自协方差矩阵、独立性的检验，都基于一个前提——总体是多维正态分布，如果这个正态性不满足，与三大分布相关的统计量转化、似然比统计量的表现形式都将不同于此形式，从而无法应用已有的结论。因此，本节探讨样本的正态性检验，概括起来就是，给定nnn个ppp维样本X(α)X_{(\alpha)}X(α)，判断总体XXX是否服从Np(μ,Σ)N_p(\mu,\Sigma)Np(μ,Σ)分布。

多元数据的正态性检验问题，常常转化为多个一元或二元数据的正态性检验，或者先求XXX的分量的线性组合再化为一元数据的正态性检验等。虽然我们知道，边缘分布的正态性不能推出总体分布的正态性，但是在实际应用中，这种情况并不常见，所以我们可以先将目光放在一元数据的正态性检验。

常用于一元数据检验的方法有Pearson χ2\chi^2χ2检验法（比较适合离散情形）、Kolmogorov检验法（比较适合连续情形），不过在Kolmogorov检验中我们需要得知总体的参数，即均值和方差，在实际应用中这个条件很难满足，所以我们会使用总体均值和总体方差代替，这就是Lilliefors检验。

还有一些仅适用于正态分布的检验法：偏度峰度检验法，Q-Q图和P-P图检验法、Anderson-Darling统计量检验法、Cramer-von Mises统计量检验法等。

偏度峰度法指的是，计算样本偏度和样本峰度：
G1=∑(Xi−Xˉ)3[∑(Xi−Xˉ)2]3/2,G2=∑(Xi−Xˉ)4[∑(Xi−Xˉ)2]2,G_1=\frac{\sum(X_i-\bar X)^3}{[\sum(X_i-\bar X)^2]^{3/2}},\quad G_2=\frac{\sum(X_i-\bar X)^4}{[\sum(X_i-\bar X)^2]^2}, G1=[∑(Xi−Xˉ)2]3/2∑(Xi−Xˉ)3,G2=[∑(Xi−Xˉ)2]2∑(Xi−Xˉ)4,
在正态性成立时，近似有
G1∼N(0,6(n−2)(n+1)(n+3)),G2∼N(3−6n−1,24n(n−2)(n−3)(n+1)2(n+3)(n+5)).G_1\sim N\left(0,\frac{6(n-2)}{(n+1)(n+3)} \right), \\ G_2\sim N\left(3-\frac6{n-1},\frac{24n(n-2)(n-3)}{(n+1)^2(n+3)(n+5)} \right). G1∼N(0,(n+1)(n+3)6(n−2)),G2∼N(3−n−16,(n+1)2(n+3)(n+5)24n(n−2)(n−3)).
很容易用Z检验找到其拒绝域。

Q-Q(Quantile Quantile)图检验法是一种图示检验法，绘制(qi,x(i)∗)(q_i,x_{(i)}^*)(qi,x(i)∗)散点图，这里qi=Φ−1(pi)q_i=\Phi^{-1}(p_i)qi=Φ−1(pi)是样本的pip_ipi分位数，x(i)∗x_{(i)}^*x(i)∗是样本的pip_ipi分位数，如果XXX是一元正态总体，则这些散点应该散布在一条直线上。P-P图检验法也是图示检验，绘制的数据点是(pi,F(x(i)∗))(p_i,F(x_{(i)}^*))(pi,F(x(i)∗))，其中pip_ipi是经验分布函数Fn(x)F_n(x)Fn(x)在x(i)∗x_{(i)}^*x(i)∗上的值，F(x(i)∗)F(x_{(i)}^*)F(x(i)∗)是Φ(x)\Phi(x)Φ(x)在x(i)∗x_{(i)}^*x(i)∗上的值。在实际应用Q-Q图检验和P-P图检验时，x(i)∗x_{(i)}^*x(i)∗要先选好。

Anderson-Darling A2A^2A2检验（AD检验）的检验统计量是
A2=n∫−∞∞(Fn(x)−Φ(x))2Φ(x)(1−Φ(x))dΦ(x),A^2=n\int_{-\infty}^\infty \frac{(F_n(x)-\Phi(x))^2}{\Phi(x)(1-\Phi(x))}{\rm d}\Phi(x), A2=n∫−∞∞Φ(x)(1−Φ(x))(Fn(x)−Φ(x))2dΦ(x),
这里[Φ(x)(1−Φ(x))]−1[\Phi(x)(1-\Phi(x))]^{-1}[Φ(x)(1−Φ(x))]−1是权重函数，如果权重函数取111，就得到Cramer-von Mises W2W^2W2检验的检验统计量
W2=n∫−∞∞(Fn(x)−Φ(x))2dΦ(x).W^2=n\int_{-\infty}^\infty (F_n(x)-\Phi(x))^2{\rm d}\Phi(x). W2=n∫−∞∞(Fn(x)−Φ(x))2dΦ(x).
结合Kolmogorov-Smirnov统计量D=sup⁡∣Fn(x)−Φ(x)∣D=\sup|F_n(x)-\Phi(x)|D=sup∣Fn(x)−Φ(x)∣，这三个统计量都是原假设成立时不能过大的，依赖于一个概率表值来检验原假设是否应该被接受。不过，这三种检验方式适用于各种假设检验，只要将表达式中的Φ(x)\Phi(x)Φ(x)换成对应的分布函数即可。

3.多元数据的正态性检验

对于二元数据，存在一种粗糙的检验方法：等概椭圆检验法。其理论基础是二维随机向量XXX如果来自于正态总体，则其概率密度函数等高线应该是一个椭圆，即X∼N2(μ,Σ)X\sim N_2(\mu,\Sigma)X∼N2(μ,Σ)时，应有
f(x1,x2)=a⇔(X−μ)′Σ−1(X−μ)=b2.f(x_1,x_2)=a\Leftrightarrow (X-\mu)'\Sigma^{-1}(X-\mu)=b^2. f(x1,x2)=a⇔(X−μ)′Σ−1(X−μ)=b2.
所以我们计算二元数据X(i)X_{(i)}X(i)到Xˉ\bar XXˉ的马氏距离Di=(X(i)−Xˉ)′S−1(X(i)−Xˉ)D_i=(X_{(i)}-\bar X)'S^{-1}(X_{(i)}-\bar X)Di=(X(i)−Xˉ)′S−1(X(i)−Xˉ)，在给定数值p0p_0p0下，Di≤p0D_i\le p_0Di≤p0的频率应该和某一个定值比较接近，这个定值可以通过查表获得。由于这是一种比较粗糙的方法，我们在实际应用中会使用更为正式的方法。

现在介绍ppp维数据χ2\chi^2χ2统计量的Q-Q图检验法，我们将假设确定为参数已知的，即
H0:X∼Np(μ,Σ)⇔H1:X≁Np(μ,Σ).H_0:X\sim N_p(\mu,\Sigma)\Leftrightarrow H_1:X\nsim N_p(\mu,\Sigma). H0:X∼Np(μ,Σ)⇔H1:X≁Np(μ,Σ).
由于在正态性假设H0H_0H0成立的前提下，样本XXX到中心μ\muμ的马氏距离存在以下关系：
D2=(X−μ)′Σ−1(X−μ)∼χ2(p),D^2=(X-\mu)'\Sigma^{-1}(X-\mu)\sim \chi^2(p), D2=(X−μ)′Σ−1(X−μ)∼χ2(p),
所以我们可以直观地想到验证样本的马氏距离是否具有这样的关系。因此，我们计算样本X(α)X_{(\alpha)}X(α)到μ\muμ的马氏距离Dα2=(X(α)−μ)′Σ−1(X(α)−μ)D_{\alpha}^2=(X_{(\alpha)}-\mu)'\Sigma^{-1}(X_{(\alpha)}-\mu)Dα2=(X(α)−μ)′Σ−1(X(α)−μ)，并对Dα2D_\alpha^2Dα2进行排序得到次序统计量D(α)D_{(\alpha)}D(α)，计算其经验分布函数，这样有了经验分布函数与χ2(p)\chi^2(p)χ2(p)分布的分布函数后，就可以绘制Q-Q图或者P-P图。

在实际应用中，我们往往不知道μ,Σ\mu,\Sigmaμ,Σ的值，所以会用样本均值Xˉ\bar XXˉ和样本协方差阵A/(n−1)A/(n-1)A/(n−1)代替，得到的Q-Q图或P-P图应该是一条通过原点、斜率为1的直线，如果是这样，就可以接受正态性假设，否则应当拒绝。

回顾总结

正态总体的独立性检验，我们一般会取检验统计量为
V=∣A∣∏t=1k∣Att∣.V=\frac{|A|}{\prod_{t=1}^k |A_{tt}|}. V=∏t=1k∣Att∣∣A∣.
当n→∞n\to \inftyn→∞时，有−bln⁡V→χ2(f)-b\ln V\to \chi^2(f)−blnV→χ2(f)，这里
b=n−32−p3−∑t=1kpt33(p2−∑t=1kpt2),f=p(p+1)2−∑t=1kpk(pk+1)2.b=n-\frac32-\frac{p^3-\sum_{t=1}^k p_t^3}{3(p^2-\sum_{t=1}^k p_t^2)},\\ f=\frac{p(p+1)}{2}-\sum_{t=1}^k\frac{p_k(p_k+1)}{2}. b=n−23−3(p2−∑t=1kpt2)p3−∑t=1kpt3,f=2p(p+1)−t=1∑k2pk(pk+1).
一元总体的正态性检验有很多方法，如K-S检验、A-D检验、Cramer-von Mises检验，但K-S检验的效果一般，A-D检验的效果比较好，其检验统计量是
A2=n∫−∞∞(Fn(x)−Φ(x))2Φ(x)(1−Φ(x))dΦ(x).A^2=n\int_{-\infty}^\infty \frac{(F_n(x)-\Phi(x))^2}{\Phi(x)(1-\Phi(x))}{\rm d}\Phi(x). A2=n∫−∞∞Φ(x)(1−Φ(x))(Fn(x)−Φ(x))2dΦ(x).
Q-Q图是分位数图，首先选定一组分位数间隙x(i)∗x_{(i)}^*x(i)∗，然后在样本中寻找相应分位数，在总体中也寻找相应分位数，将分位数绘制成散点图，观察其是否位于一条直线上。
P-P图是累计分布图，首先选定一组分位数间隙x(i)∗x_{(i)}^*x(i)∗，然后绘制经验分布函数与总体分布函数在x(i)∗x_{(i)}^*x(i)∗处的取值，将两个取值绘制成散点图，观察其是否位于一条直线上。
多元总体的正态性检验采用χ2\chi^2χ2统计量的Q-Q图检验法，计算样本到中心Xˉ\bar XXˉ的马氏距离并排序，用Q-Q图判断是否属于χ2(p)\chi^2(p)χ2(p)分布，或用K-M检验法。马氏距离的定义如下：
Dα=(X(α)−Xˉ)′S−1(X(α)−Xˉ).D_\alpha=(X_{(\alpha)}-\bar X)'S^{-1}(X_{(\alpha)}-\bar X). Dα=(X(α)−Xˉ)′S−1(X(α)−Xˉ).

【多元统计分析】09.独立性检验与正态性检验相关推荐

【多元统计分析】Python实现对应分析
(一)题目要求数据集包含地区生产总值的四个相关指标:x1劳动者报酬,x2生产税净额,x3固定资产折旧,x4营业盈余.对各个地区生产总值进行对应分析,揭示不同地区的生产总值构成特征.要求:画出对应分析 ...
【多元统计分析】均值向量和协方差阵的检验——spss上机实验
均值向量和协方差阵的检验--spss上机实验 #参考书目为<多元统计分析>(第五版)--何晓群.中国人民大学出版社 #如有错误,请指正!谢谢~ #关注公众号搜索同名文章获取数据~ 习题2. ...
SPASS多元统计分析在无人机航线精度方面的综合评价
SPASS多元统计分析在无人机航线精度方面的综合评价无人机作为获取低空航空影像的载体,其航线飞行精度直接决定影像的质量与后期图像数据处理精度.GPS/IMU系统作为无人机目标航点及任务航点导航与定位 ...
多元统计分析何晓群_多元统计分析第四章作业
关注公众号,更多资源分享回复关键词:多元统计分析即可获取更多详细其他章节答案 <多元统计分析>课后答案||何晓群版(第二章) <多元统计分析>第一章课后答案(何晓群编第五版 ...
多元统计分析最短距离法_多元统计分析重点
多元统计分析重点宿舍版第一讲:多元统计方法及应用:多元统计方法分类(按变量.模型.因变量等) 多元统计分析应用选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析, 因子 ...
多元统计分析matlab,MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法...
MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法: 1.层次聚类hierarchical clustering 2.k-means聚类这里用最简单的实例说明以下层次聚类原理和应用发 ...
多元统计分析及R语言建模_自定义函数: msaR.R
#*********************************************** #****** 多元统计分析及R语言建模(第五版)****** #****** 自定义函数: msaR ...
spss典型相关分析_R语言实战多元统计分析Day10— —典型相关分析
R语言实战多元统计分析Day10-- 典型相关分析 01 前言典型相关分析是用于分析两组随机变量之间的相关性程度的一种统计方法,它能够有效的揭示两组随机变量之间的相互线性依赖关系,这种方法是由Hot ...
多元统计分析朱建平pdf_应用多元统计分析课后答案朱建平版[精心整理].doc
应用多元统计分析课后答案朱建平版[精心整理] 第二章 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的联合分布密度函数是一个p维的函数,而 ...
【应用多元统计分析】-王学民Python主成分分析例题，特征值处理和可视化（2）
title: "应用多元统计分析" subtitle: "书上题目" author: | OLSRR 由于字数限制,本文省去部分数据预览. 7.6 下表中给出的 ...

【多元统计分析】09.独立性检验与正态性检验

文章目录