【统计知识总结系列01】回归分析、抽样技术、方差分析以及非参数统计中的方差分解

在众多统计学领域的分支中，一个常见的公式就是方差分解，出现在回归分析，非参数统计，抽样技术等等。这篇文章做一个方差分解的梳理，公式是很简单的，重要的是明白这么做在不同分支下的意义是什么。

1 回归分析

在回归里面，我们通常有下面这个分解式：
SST=SSR+SSE∑i=1n(yi−yˉ)2=∑i=1n(y^i−yˉ)2+∑i=1n(yi−y^i)2SST=SSR+SSE \\ \sum_{i=1}^n(y_i-\bar y)^2=\sum_{i=1}^n(\hat y_i-\bar y)^2 + \sum_{i=1}^n(y_i-\hat y_i) ^2SST=SSR+SSEi=1∑n(yi−yˉ)2=i=1∑n(y^i−yˉ)2+i=1∑n(yi−y^i)2
其中， SST是总离差平方和，表示因变量的变异；SSR是回归模型所解释的变异；SSE 就是回归模型所不能解释的变易。

这三个量对于回归来说太重要了，比如多元线性回归模型显著性F检验的构造结果就是
F=SSR/(p)SSE/(n−p−1)∼F(p,n−p−1)F=\frac{SSR/(p)}{SSE/(n-p-1)} \sim F(p,n-p-1) F=SSE/(n−p−1)SSR/(p)∼F(p,n−p−1)
其中，p为自变量xix_ixi的个数。

2 抽样技术

抽样技术里面的分层抽样，分层的目的就是去掉层间差异，只让层内差异影响估计量的方差，从而提升估计量的估计精度。

假设我们对总体分为LLL层，每一层的单元个体数量为N1,N2,...,NLN_1,N_2,...,N_LN1,N2,...,NL，设计的样本量分配为n1,n2,...,nLn_1,n_2,...,n_Ln1,n2,...,nL。
∑h=1L∑i=1nh(yhi−yˉˉ)=∑h=1Lnh(yˉh−yˉˉ)2+∑h=1L∑i=1nh(yhi−yˉh)2\sum_{h=1}^L\sum_{i=1}^{n_h}(y_{hi}-\bar {\bar y}) = \sum_{h=1}^Ln_h(\bar y_h-\bar{\bar y})^2 + \sum_{h=1}^L\sum_{i=1}^{n_h}(y_{hi}-\bar y_h)^2 h=1∑Li=1∑nh(yhi−yˉˉ)=h=1∑Lnh(yˉh−yˉˉ)2+h=1∑Li=1∑nh(yhi−yˉh)2
这一个分解式的左侧跟回归的实际上是一样的，yˉˉ\bar{\bar y}yˉˉ表示的是每一层的均值yˉh\bar y_hyˉh的加权均值，考虑到各层样本数不相同，这里的yˉh\bar y_hyˉh对应的权重也不相同，应该是nhn\frac{n_h}{n}nnh。使得这样加权得到的yˉˉ\bar{\bar y}yˉˉ就是所有样本单元的均值。

右边第一项成为层间差异，第二项是层内差异，如果把yˉh\bar y_hyˉh，这个第hhh层yyy的代表，理解为回归值，这一项就成了回归分析里面的SSR，后一项自然就有了SSE的意味。

3 方差分析

3.1 单因素方差分析-完全随机设计

方差分析的基本原理是将不同因素下的试验结果分解为两方面的因素作用，即因素之间的差异和不明因素的随机误差两相。以单因素方差分析为例，单因素方差分析模型没有区组影响，有简单的表达式：
xij=μ+μi+ϵij,i=1,2,...,k,j=1,2,...,nix_{ij}=\mu+\mu_i+\epsilon_{ij},i=1,2,...,k,j=1,2,...,n_i xij=μ+μi+ϵij,i=1,2,...,k,j=1,2,...,ni
其中xijx_{ij}xij表示第iii个处理的第jjj个重复观测，nin_ini表示第iii个处理的观测样本量。假设有kkk个总体F(x−μi),i=1,2,...,kF(x-\mu_i),i=1,2,...,kF(x−μi),i=1,2,...,k，即kkk个处理，在个总体为等方差正态分布以及独立观测假定下，假设检验问题：
H0:μ1=μ2=⋅⋅⋅=μk=μv.s.H1:∃i,j,μi≠μjH_0:\mu_1=\mu_2=···=\mu_k=\mu\quad v.s.\quad H_1:\exists i,j, \mu_i \neq \mu_j H0:μ1=μ2=⋅⋅⋅=μk=μv.s.H1:∃i,j,μi=μj
将观测值重新整理：
xij−xˉ..=(xi.−xˉ..)+(xij−xˉi.),i=1,2,...,k;j=1,2,...,nix_{ij}-\bar x_{..}=(x_{i.}-\bar x_{..})+(x_{ij}-\bar x_{i.}),i=1,2,...,k;j=1,2,...,n_i xij−xˉ..=(xi.−xˉ..)+(xij−xˉi.),i=1,2,...,k;j=1,2,...,ni
令xijx_{ij}xij表示第iii个处理的第jjj个样本，两边平方后得到：
SST=SSt+SSE∑(xij−xˉ..)2=∑(xi.−xˉ..)2+∑(xij−xˉi.)2\begin{aligned} SST&=SSt+SSE \\ \sum(x_{ij}-\bar x_{..})^2&=\sum(x_{i.}-\bar x_{..})^2+\sum(x_{ij}-\bar x_{i.})^2 \end{aligned} SST∑(xij−xˉ..)2=SSt+SSE=∑(xi.−xˉ..)2+∑(xij−xˉi.)2
在方差分析里面，第二项称为处理平方和。上述检验问题有对应的检验统计量
F=MStMSE=SSt/(k−1)SSE/(n−k)∼F(k−1,n−k)F=\frac{MSt}{MSE}=\frac{SSt/(k-1)}{SSE/(n-k)} \sim F(k-1,n-k) F=MSEMSt=SSE/(n−k)SSt/(k−1)∼F(k−1,n−k)
检验的拒绝域是F>Fα(k−1,n−k)F>F_{\alpha}(k-1,n-k)F>Fα(k−1,n−k)

3.2 两因素方差分析-完全随机区组设计

在实践中，除了处理，往往还有其他因素起作用。比如

在土地上用不同的肥料作为处理的重复观测中，不同的土地本身有不同的条件；
在处理血液凝固不同方法实验效果的重复观测中，不同的受试者有着不同的凝血条件;
在不同安眠药作为处理的重复观测中，受试者原本睡眠状况也是一个变化的因素。

不同条件的人或者土地构成了另一个影响结果的因素，称为block,区组。

此时，给出两因素方差分析的主效应表示模型
xij=μ+τi+βj+ϵij,i=1,2,...,k(处理),j=1,2,...,b(区块)x_{ij}=\mu+\tau_i+\beta_j+\epsilon_{ij},i=1,2,...,k(处理),j=1,2,...,b(区块) xij=μ+τi+βj+ϵij,i=1,2,...,k(处理),j=1,2,...,b(区块)
假设检验问题仍然是：
H0:μ1=μ2=⋅⋅⋅=μk=μv.s.H1:∃i,j,μi≠μjH_0:\mu_1=\mu_2=···=\mu_k=\mu\quad v.s.\quad H_1:\exists i,j, \mu_i \neq \mu_j H0:μ1=μ2=⋅⋅⋅=μk=μv.s.H1:∃i,j,μi=μj
述检验问题有对应的检验统计量
F=MStMSE=SSt/(k−1)SSE/(b−1)(k−1)∼F(k−1,b−1)F=\frac{MSt}{MSE}=\frac{SSt/(k-1)}{SSE/(b-1)(k-1)} \sim F(k-1,b-1) F=MSEMSt=SSE/(b−1)(k−1)SSt/(k−1)∼F(k−1,b−1)
检验的拒绝域是F>Fα(k−1,b−1)F>F_{\alpha}(k-1,b-1)F>Fα(k−1,b−1)。此时方差分解为
SST=SSB+SSt+SSE∑i=1k∑j=1b(xij−xˉ..)2=k∑j=1b(x.j−xˉ..)2+b∑i=1k(xi.−xˉ..)2+∑i=1k∑j=1b(xij−xˉi.−xˉ.j+xˉ..)2SST=SSB+SSt+SSE \\ \sum_{i=1}^k \sum_{j=1}^b (x_{ij}-\bar x_{..})^2 = k\sum_{j=1}^b (x_{.j}-\bar x_{..})^2 + b\sum_{i=1}^k (x_{i.}-\bar x_{..})^2 + \sum_{i=1}^k \sum_{j=1}^b (x_{ij}-\bar x_{i.} - \bar x_{.j} + \bar x_{..})^2 SST=SSB+SSt+SSEi=1∑kj=1∑b(xij−xˉ..)2=kj=1∑b(x.j−xˉ..)2+bi=1∑k(xi.−xˉ..)2+i=1∑kj=1∑b(xij−xˉi.−xˉ.j+xˉ..)2
自由度分别为bk-1,b-1,k-1,(b-1)(k-1)

4 非参数统计

非参数统计用它最喜欢的秩代替了一般的观测值，以下讨论是无节点数据的情况。

4.1 Kruskal-Wallis单因素方差分析

对应传统的单因素方差分析，非参数中有Kruskal-Wallis单因素方差分析，他是两样本Wilcoxon-Mann-Whitney检验在三个或者更多组检验上的推广。

将所有观测，xijx_{ij}xij排序，各自对应秩RijR_{ij}Rij表示第jjj个样本中第iii个观测的秩，最大秩为n=∑j=1knjn=\sum_{j=1}^k n_jn=∑j=1knj。其中iii控制的是测量次数，也就是单因素方差分析的重复观测，jjj控制的是样本组别，是我们要检验的是否相同的总体，对应的是单因素方差分析的处理。

小心这里习惯的i,ji,ji,j是反的

第jjj组样本/处理的均秩Rˉ.j=R.j/nj\bar R_{.j} = R_{.j}/n_jRˉ.j=R.j/nj，所有秩和R..=n(n+1)/2R_{..}=n(n+1)/2R..=n(n+1)/2

定义SST以及混合数据秩的总平方和分解
SST=SSt+SSE∑j=1k∑i=1nj(Rij−Rˉ..)2=∑j=1knj(Rˉ.j−Rˉ..)2+∑j=1k∑i=1nj(Rij−R.j)2\begin{aligned} SST&=SSt+SSE \\ \sum_{j=1}^k \sum_{i=1}^{n_j} (R_{ij}-\bar R_{..})^2&=\sum_{j=1}^k n_j(\bar R_{.j}-\bar R_{..})^2+\sum_{j=1}^k \sum_{i=1}^{n_j}(R_{ij}-R_{.j})^2 \end{aligned} SSTj=1∑ki=1∑nj(Rij−Rˉ..)2=SSt+SSE=j=1∑knj(Rˉ.j−Rˉ..)2+j=1∑ki=1∑nj(Rij−R.j)2
检验问题是这kkk组样本是否来自同一分布，对其位置参数做如下检验：
H0:k个总体位置相同v.s.H1:k个总体位置不完全相同H_0: k个总体位置相同\quad v.s.\quad H_1:k个总体位置不完全相同 H0:k个总体位置相同v.s.H1:k个总体位置不完全相同
Krustal-Wallis的HHH值检验统计量
H=SStMST=SStSST/(n−1)∼⋅χ2(k−1)H = \frac{SSt}{MST}=\frac{SSt}{SST/(n-1)} \overset{\centerdot}{\sim} \chi^2(k-1) H=MSTSSt=SST/(n−1)SSt∼⋅χ2(k−1)
拒绝域：H>χα2(k−1)H>\chi_{\alpha}^2(k-1)H>χα2(k−1)
通常，Krustal-Wallis拒绝掉原假设之后，我们会继续探究是哪两组样本带来了差异，进行两两样本之间的Dunn检验。两组样本之间探测到足够大的差异要求比较严格，另一个Jonckheere-Terpstra检验只需要不同组样本的位置显示出上升和下降的趋势就可以探测到差异，即便相邻的差异比较微小，不会落入Dunn检验的拒绝域。

4.2 Friedman秩方差分析法

问题：k个处理和b个区间，对应两因素方差分析。

不同于Krustal-Wallis把不同处理的所有重复观测都放在一起取秩RijR_{ij}Rij，Friedman考虑了区组的存在，不同区组之间的排序取秩是不公平的，而我们只在乎同一个区组内，不同处理带来的差异。

在Friedman这里，RijR_{ij}Rij的意义是：第iii个区组中第jjj个处理在第iii个区组中的秩！

第jjj组样本/处理的均秩是一样的，Rˉ.j=R.j/nj=∑i=1bRij/nj\bar R_{.j} = R_{.j}/n_j=\sum_{i=1}^bR_{ij}/n_jRˉ.j=R.j/nj=∑i=1bRij/nj

Friedman的检验统计量Q′Q'Q′为
Q′=SStSST/bk=SStvar(Rij)Q'=\frac{SSt}{SST/bk}=\frac{SSt}{var(R_{ij})} Q′=SST/bkSSt=var(Rij)SSt
矫正统计量
Q=Q′k−1kQ = Q'\frac{k-1}{k} Q=Q′kk−1
近似服从∼⋅χ2(k−1)\overset{\centerdot}{\sim} \chi^2(k-1)∼⋅χ2(k−1)