统计学习（三）：假设检验与 p-values

设参数空间 Ⓢ\circledS 可以分解为互不相交的子空间 Ⓢ0\circledS_0 和 Ⓢ1\circledS_1. 检验

H0:θ∈Ⓢ0v.s.H1:θ∈Ⓢ1

H_0 : \,\, \theta\in\circledS_0\qquad v.s.\qquad H_1 : \,\, \theta\in \circledS_1
零假设 H0H_0 ( null hypothesis ), 备择假设 H1H_1 ( alternative hypothesis ), 检验结果

设样本 xx, 检验统计量 T(x)T(x), 临界值 cc, 则拒绝域 RR 通常可以表示为

R={x:T(x)>c}

R=\{ x : T(x) > c \}

定义3.1 一个检验的势或功效( power function ) 定义为

β(θ)=Pθ(X∈R)

\beta(\theta)=\mathcal{P}_{\theta}(X\in R)
定义检验的容度( size )为 α=supθ∈Ⓢ0β(θ)\alpha=\mathop{sup}\limits_{\theta\in\circledS_0}\beta(\theta).

称检验的水平为 α\alpha, 如果该检验的容度不超过 α\alpha, 即，对

∀θ∈Ⓢ0,有β(θ)≤α

\forall \, \theta\in\circledS_0, \, \mbox{有}\, \beta(\theta)\le \alpha

The Wald Test

设 θ\theta 的估计量 θ^\hat{\theta}, se^\hat{se} 是估计量的标准误。

定义3.2 检验 H0:θ=θ0H1:θ≠θ0H_0 : \, \theta=\theta_0\qquad H_1 : \, \theta \ne \theta_0
假设 θ^\hat{\theta} 是渐近正态的，即 θ^−θ0se^−→dN(0,1)\dfrac{\hat{\theta}-\theta_0}{\hat{se}}\xrightarrow{d} N(0, 1)

那么，水平 α\alpha 的 Wald 检验：拒绝 H0H_0, 当 |W|>zα2|W|>z_{\frac{\alpha}{2}}, 这里

W=θ^−θ0se^(zα=Φ−1(1−α))W=\dfrac{\hat{\theta}-\theta_0}{\hat{se}}\qquad (z_{\alpha}=\Phi^{-1}(1-\alpha))

定理3.1 渐近地， Wald 检验有水平 α\alpha, 即

Pθ0(|W|>zα2)⟶α,当n→∞时

\mathcal{P}_{\theta_0}(|W|>z_{\frac{\alpha}{2}})\longrightarrow \alpha,\,\, \mbox{当} \,n\rightarrow\infty\,\mbox{时}.

定义3.3 称 β(θ)=Pθ(X∈R),θ∈Ⓢ1\beta(\theta)=\mathcal{P}_{\theta}(X\in R),\, \theta\in \circledS_1 为检验的功效( Power ).

例3.1 比较两个总体的均值

设 x1,x2,…,xm;y1,y2,…,ynx_1, x_2, \dots, x_m; y_1, y_2, \dots, y_n 是分别来自两个总体的样本，均值分别为 μ1,μ2\mu_1, \mu_2, 检验

H0:μ1=μ2H1:μ1≠μ2

H_0 : \, \mu_1=\mu_2\qquad H_1 : \, \mu_1 \ne \mu_2
令 δ=μ1−μ2\delta=\mu_1-\mu_2, 则检验等价于

H0:δ=0H1:δ≠0

H_0 : \, \delta=0\qquad H_1 : \, \delta \ne 0

δ\delta 的估计量 δ^=x¯−y¯\hat{\delta}=\bar{x}-\bar{y}, se^=s21m+s22n−−−−−−−√\hat{se}=\sqrt{\dfrac{s_1^2}{m}+\dfrac{s_2^2}{n}},
s2i,(i=1,2)s_i^2,\, (i=1, 2) 为样本方差。

令 W=δ^−0se^=x¯−y¯s21m+s22n−−−−−−−√W=\dfrac{\hat{\delta}-0}{\hat{se}}=\dfrac{\bar{x}-\bar{y}}{\sqrt{\dfrac{s_1^2}{m}+\dfrac{s_2^2}{n}}}

那么，拒绝域 R={W>zα2}R=\{ W>z_{\frac{\alpha}{2}} \}

例3.2 比较两个总体的中位数

令 δ=ν1−ν2\delta=\nu_1-\nu_2, νi\nu_i 为总体中位数，即 νi=F−1i(12)\nu_i=F_i^{-1}(\frac{1}{2}). 检验

H0:δ=0H1:δ≠0

H_0 : \, \delta=0\qquad H_1 : \, \delta \ne 0
令 δ^=ν1^−ν2^\hat{\delta}=\hat{\nu_1}-\hat{\nu_2}, νi^\hat{\nu_i} 为样本中位数，
标准误从 bootstrap 样本得到，则 W=δ^/se^W=\hat{\delta}/\hat{se}, 拒绝域 R={W>zα2}R=\{W>z_{\frac{\alpha}{2}}\}

定义3.4 设对每一个 α∈(0,1)\alpha\in (0, 1), 存在水平为 α\alpha 的检验，其拒绝域为 RαR_{\alpha}. 则 p−value=inf{α:T(X)∈Rα}p-value=inf\{ \alpha: \, T(X)\in R_{\alpha} \}. 即， pp 值是能够拒绝 H0H_0 的最小显著性水平。

定理3.2 假设水平为 α\alpha 的检验形式：拒绝 H0H_0, 当且仅当 T(X)≥cαT(X)\ge c_{\alpha}. 那么，

p−value=supθ∈Ⓢ0Pθ(T(X)≥T(x))

p-value=\mathop{sup}\limits_{\theta\in\circledS_0} \mathcal{P}_{\theta}(T(X)\ge T(x))

xx 为 XX 的观测值。如果 Ⓢ0={θ0}\circledS_0=\{ \theta_0 \}, 那么

p−value=Pθ0(T(X)≥T(x))

p-value= \mathcal{P}_{\theta_0}(T(X)\ge T(x))

定理3.3 令 w=θ^−θ0se^w=\dfrac{\hat{\theta}-\theta_0}{\hat{se}} 是 WaldWald 统计量 WW 的观测值，则

p−value=Pθ0(|W|>|w|)≈P(|Z|>|w|)=2Φ(−|w|)

p-value=\mathcal{P}_{\theta_0}(|W|>|w|)\thickapprox\mathcal{P}(|Z|>|w|)=2\Phi(-|w|)
这里， Z∼N(0,1)Z\sim N(0, 1).

多项分布数据的卡方检验

χ2\chi^2 分布

定义3.5 令 Z1,Z2,…,ZkZ_1, Z_2, \dots, Z_k 是独立同分布的( i.i.d. ), Z1∼N(0,1)Z_1\sim N(0, 1). 令 V=∑i=1kZ2iV=\sum\limits_{i=1}^k Z_i^2, 则称 VV 是具有自由度 kk 的 χ2\chi^2 分布，记为 V∼χ2(k)V\sim\chi^2(k).

均值和方差

χ2\chi^2 的均值 E(V)=kE(V)=k, 方差 Var(V)=2kVar(V)=2k.

α\alpha分位点

χ2k,α=F−1(1−α)\chi^2_{k, \alpha}=F^{-1}(1-\alpha), 其中 FF 为累积分布函数，即

P(χ2>χ2k,α=α)

\mathcal{P}(\chi^2 > \chi^2_{k, \alpha}=\alpha)

多项分布( Multinomial distribution )

多项分布是二项分布的推广。例如，掷一个 k 面的骰子 n 次，相当于 n 次独立试验，每一次有 k 类中的一类发生( success ), 每一类有固定的成功概率，多项分布给出不同类的成功次数的任一组合的概率。特别地，当 n=1, k=2 时，多项分布即贝努利( Bernoulli )分布；当 n>1, k=2 时，即二项( Binomial )分布。

定义3.6 设有 n 次试验，每次试验有 k 个可能的互斥结果，发生的概率分别为 p1,p2,…,pkp_1, p_2, \dots, p_k. 则 ∑i=1kpi=1,pi≥0,i=1,2,…,k\sum\limits_{i=1}^k p_i =1,\, p_i \ge 0, i=1,2,\dots,k. 令 XjX_j 表示第 j 类结果在 n 次试验中发生的次数，令 X=(X1,X2,…,Xk)′\mathbf{X}=(X_1,X_2,\dots,X_k)',
称 X\mathbf{X} 服从参数为 n,pn,\, p 的多项分布。
显然， ∑j=1kXj=n\sum\limits_{j=1}^k X_j =n, 说明 X1,X2,…,XkX_1,X_2,\dots,X_k 之间不独立。

概率分布列

f(x1,x2,…,xk;p1,p2,…,pk)=P(X1=x1,X2=x2,…,Xk=xk)

f(x_1,x_2,\dots,x_k;\,p_1,p_2,\dots,p_k)=\mathcal{P}(X_1=x_1,X_2=x_2,\dots,X_k=x_k)

=n!x1!x2!⋯xk!px11px22⋯pxkk

=\dfrac{n!}{x_1!x_2!\cdots x_k!}p_1^{x_1}p_2^{x_2}\cdots p_k^{x_k}

=Γ(∑j=1nxj+1)∏i=1kΓ(xi+1)∏i=1kpxii

=\dfrac{\Gamma(\sum\limits_{j=1}^n x_j +1)}{\prod\limits_{i=1}^{k}\Gamma(x_i +1)} \prod\limits_{i=1}^{k}p_i^{x_i}

均值和协方差

E(Xi)=npiE(X_i)=n p_i, Var(Xi)=npi(1−pi)Var(X_i)=n p_i (1- p_i), cov(Xi,Xj)=−npipjcov(X_i, X_j)=-n p_i p_j, 令
p=(p1,p2,…,pk)′p=(p_1, p_2, \dots, p_k)', 矩阵表示为

E(X)=np

E(\mathbf{X})=n p

cov(X,X)=n{diag(p)−pp′}

cov(\mathbf{X}, \mathbf{X})=n \{ diag(p)-p p' \}

χ2\chi^2 检验

设 X=(X1,X2,…,Xk)′∼multinomial(n,p)\mathbf{X}=(X_1, X_2, \dots, X_k)'\sim multinomial(n,\,p), 则 pp 的最大似然估计
p^=(p^1,p^2,…,p^k)′=(x1n,x2n,…,xkn)′\hat{p}=(\hat{p}_1, \hat{p}_2, \dots, \hat{p}_k)'=(\frac{x_1}{n}, \frac{x_2}{n}, \dots, \frac{x_k}{n})'. 检验

H0:p=p0=(p01,p02,…,p0k)′H1:p≠p0

H_0 : \, p=p_0=(p_{01},p_{02},\dots,p_{0k})'\qquad H_1 : \, p \ne p_0

令 Pearson’s chi2chi^2 统计量

Tn=∑j=1k(Xj−np0j)2np0j=∑j=1k(Xj−Ej)2Ej

T_n=\sum\limits_{j=1}^k \dfrac{(X_j-n \,p_{0j})^2}{n \,p_{0j}} =\sum\limits_{j=1}^k \dfrac{(X_j-E_j)^2}{E_j}

在 H0H_0 下， Ej=E(Xj)=np0jE_j=E(X_j)=n\, p_{0j}

定理3.4 在 H0H_0 下， Tn−→dχ2k−1T_n\xrightarrow{d}\chi^2_{k-1}. 那么，给定渐近水平 α\alpha,
拒绝域 {Tn>χ2k−1,α}\{ T_n> \chi^2_{k-1, \alpha} \}

置换检验

置换检验( Permutation Test )是一种非参数的方法，主要检验两个分布是否相同。也称随机化检验 ( randomization test )或精确检验( exact test ). 假设 x1,x2,…,xm∼FXx_1, x_2, \dots, x_m\sim F_X, y1,y2,…,yn∼FYy_1, y_2, \dots, y_n\sim F_Y, 检验

H0:FX=FYH1:FX≠FY

H_0 : \,\, F_X = F_Y \qquad H_1 : \,\, F_X \ne F_Y
令统计量 T=T(x1,x2,…,xm;y1,y2,…,yn)T=T(x_1, x_2, \dots, x_m; y_1, y_2, \dots, y_n), 例如， T=|x¯m−y¯n|T=|\bar{x}_m - \bar{y}_n|,
令 N=m+nN=m+n, 考虑混合样 x1,x2,…,xm;y1,y2,…,ynx_1, x_2, \dots, x_m; y_1, y_2, \dots, y_n 的所有 N!N! 个排列，
每一个排列，计算一个 TT, 得 T1,T2,…,TN!T_1, T_2, \dots, T_{N!}, 定义置换分布

PH0(T=Tj)=1N!,j=1,2,…,N!

\mathcal{P}_{H_0}(T=T_j)=\dfrac{1}{N!},\, j=1,2,\dots,N!

p−value=PH0(T>tobs)=1N!∑j=1N!I(Tj>tobs)

p-value=\mathcal{P}_{H_0}(T>t_{obs})=\dfrac{1}{N!}\sum\limits_{j=1}^{N!}I(T_j>t_{obs})
实际上，置换 BB 次而不是 N!N! 次。

p−value=1B∑j=1BI(Tj>tobs)

p-value=\dfrac{1}{B}\sum\limits_{j=1}^{B}I(T_j>t_{obs})

似然比检验

H0:θ∈Ⓢ0H1:θ∉Ⓢ0Ⓢ0⊂Ⓢ

H_0 : \,\, \theta\in\circledS_0\qquad H_1 : \,\, \theta \notin\circledS_0\qquad\circledS_0\subset\circledS

令似然比统计量

λ=2logsupθ∈ⓈL(θ)supθ∈Ⓢ0L(θ)=2logL(θ^)L(θ^0)

\lambda=2\log \dfrac{\mathop{sup}\limits_{\theta\in\circledS}L(\theta)} {\mathop{sup}\limits_{\theta\in\circledS_0}L(\theta)}= 2\log \dfrac{L(\hat{\theta})}{L(\hat{\theta}_0)}

θ^\hat{\theta} 是 θ\theta 的最大似然估计，θ∈Ⓢ\theta\in\circledS; θ^0\hat{\theta}_0 是 θ\theta 的最大似然估计 θ∈Ⓢ0\theta\in\circledS_0.

定理3.5 设 θ=(θ1,θ2,…,θq+1,…,θr)\theta=(\theta_1, \theta_2, \dots, \theta_{q+1},\dots, \theta_r), 令 Ⓢ0={θ:(θq+1,…,θr)=(θ0,q+1,…,θ0,r)}\circledS_0=\{ \theta : (\theta_{q+1},\dots, \theta_r)=(\theta_{0,\,q+1},\dots, \theta_{0,\,r})\}. 令 λ\lambda 是似然比统计量，在 H0:θ∈Ⓢ0H_0 : \, \theta\in\circledS_0 下，

λ(x)−→dχ2r−q,α

\lambda(x) \xrightarrow{d} \chi^2_{r-q,\,\alpha}

p−value=PH0(χ2r−q>λ)

p-value=\mathcal{P}_{H_0}(\chi^2_{r-q}>\lambda)

其中， r−q=dim(Ⓢ)−dim(Ⓢ0)r-q=dim(\circledS)-dim(\circledS_0).

精彩内容，请关注微信公众号“统计学习与大数据”！