Kolmogorov - Smirnov 检验

Kolmogorov - Smirnov 检验,简称 K-S 检验,检验一个样本是否来自某连续分布(参考分布)。

定义5.1 Kolmogorov - Smirnov 统计量

设样本 x1,x2,…,xnx_1, x_2, \dots, x_n 来自某分布 FF, 经验分布( empirical distribution )为 FnF_n,
称统计量 Dn=supx|Fn(x)−F(x)|D_n=\mathop{sup}\limits_{x} |F_n(x)-F(x)| 为 K-S 统计量。其中,
Fn(x)=1n∑i=1nI(xi≤x)F_n(x)=\dfrac{1}{n}\sum\limits_{i=1}^n I(x_i \le x).
Glivenko-Cantelli 定理,如果样本来自总体 FF, 那么

Dn→0,a.s.当n→∞时

D_n\rightarrow 0,\,\,a.s.\qquad \mbox{当}\, n\rightarrow\infty\,\mbox{时}

定义5.2 Brownian Bridge

称一个连续时间的随机过程 {B(t);0≤t≤T}\{ B(t); \, 0\le t \le T\} 是一个布朗桥( Brownian ), 如果对
∀t∈[0,T]Bt−→dWt|WT=0\forall\, t\in [ 0,\,T ]\qquad B_t \xrightarrow{d}W_t\,|\,W_T=0,

其中, wt,t∈[0,T]w_t,\, t\in [ 0,\, T ] 是一个维纳( Wiener Process ), 即布朗运动,也就是,

Wt∼N(0,t),对∀t≥0W_t\sim N(0,\,t), \,\,\,\mbox{对}\,\forall\,t\ge 0. 易见, B(0)=B(T)=0B(0)=B(T)=0, 可以证明,

B(t)=W(t)−tTW(T),对∀t∈[0,T]\qquad B(t)=W(t)-\dfrac{t}{T} W(T), \,\, \mbox{对}\,\forall\, t\in [0,\, T].

定义5.3 Kolmogrov 分布

设 K=sup0≤t≤1|B(t)|K=\mathop{sup}\limits_{0\le t\le 1} |B(t)|, 其中 B(t)B(t) 是一个布朗桥( Brownian Bridge ),
称累积分布

P(K≤x)=1−2∑k=1∞(−1)k−1e−2K2x2=2π−−√x∑k=1∞e−(2K−1)2π2/8x2

\mathcal{P}(K\le x)=1-2\sum\limits_{k=1}^{\infty}(-1)^{k-1} e^{-2K^2 x^2} =\dfrac{\sqrt{2\pi}}{x}\sum\limits_{k=1}^{\infty}e^{-(2K-1)^2 \pi^2 / 8x^2 }
K 分布。

定理5.1 在 H0H_0 下,即样本来自于假设分布 F(x)F(x), 有

n√Dn−→dsupt|B(F(t))|,当n→∞时

\sqrt{n} D_n \xrightarrow{d}\mathop{sup}\limits_{t} |B(F(t))|,\qquad\mbox{当}\,n\rightarrow\infty\, \mbox{时}
这里, B(t)B(t) 是一个布朗桥。

推论5.1 如果 FF 是连续的,那么 n√Dn\sqrt{n}D_n 收敛于 K-分布,且不依赖于 FF

定理5.2 Kolmogorov-Smirnov 检验

给定水平 α\alpha, 拒绝域 {n√Dn>Kα}\{ \sqrt{n}D_n > K_{\alpha} \}, 其中 KαK_{\alpha} 为 K-分布的 α\alpha 分位点,即 P(K≤Kα)=1−α\mathcal{P}(K\le K_{\alpha})=1-\alpha.

定理5.3 两样本的 K-S 检验

检验两个样本是否来自同一分布,即检验两个分布是否相同。构造 K-S 统计量

Dn,n′=supx|F1,n(x)−F2,n′(x)|

D_{n,\,n'}=\mathop{sup}\limits_{x} |F_{1,\,n}(x)-F_{2,\,n'}(x)|
F1,n,F2,nF_{1,\,n}, \, F_{2,\,n} 分别是两个容量为 n,n′n,\,n' 的样本的经验分布。
给定水平 α\alpha, 拒绝域 {Dn,n′>c(α)n+n′nn′−−−−−−√}\{ D_{n,\,n'} > c(\alpha)\sqrt{\dfrac{n+n'}{n n'}} \}. c(α)c(\alpha) 由下表给出:

α\alpha 0.10 0.05 0.025 0.01 0.005 0.001
c(α)c(\alpha) 1.22 1.36 1.48 1.63 1.73 1.95

Mann-Whitney U 检验

Mann-Whitney U 检验,也称 Mann-Whitney-Wilcoxon test, Wilcoxon rank-sum testWilcoxon-Mann-Whitney test, 是一种非参数检验,用来比较两个样本是否来自同一总体,或检验一个总体比另一个总体倾向于有更大的值。不需要假定总体是正态的。

假定与假设的正式表述

(1). 来自两组的所有观测是相互独立的;

(2). 观测是有序的( ordinal );

(3). H0:H_0: 两个总体分布相同, 在 H0H_0 下, P(X>Y)=P(Y>X)\mathcal{P}(X>Y)=\mathcal{P}(Y>X)

(4). H1:H_1: P(X>Y)≠P(Y>X)\mathcal{P}(X>Y)\ne \mathcal{P}(Y>X) 双侧检验,或 H1:H_1: P(X>Y)>P(Y>X)\mathcal{P}(X>Y)>\mathcal{P}(Y>X) 单侧检验

计算

  • 小样本情况(样本量不超过20)

设样本 x1,x2,…,xn1;y1,y2,…,yn2x_1,x_2,\dots,x_{n_1};\,y_1,y_2,\dots,y_{n_2} 分别来自两个总体。合并这两个样本并排序(从小到大),如果样本中有结( ties ), 则结的秩为未排秩的中点( midpoint ). 例如,样本
3, 5, 5, 9, 秩为 1, 2.5, 2.5, 4.

定理5.4 样本1的 UU 统计量 U1=R1−n1(n1+1)2U_1=R_1 - \dfrac{n_1 (n_1+1)}{2}, R1R_1 为样本1的秩和;
样本2的 UU 统计量 U2=R2−n2(n2+1)2U_2=R_2 - \dfrac{n_2 (n_2+1)}{2}, R2R_2 为样本2的秩和。

U1U_1 表示在 (xi,yj)(i=1,2,…,n1;j=1,2,…,n2)(x_i,\,y_j)\,(i=1,2,\dots,n_1; \,j=1,2,\dots,n_2) 共 n1n2n_1 n_2 个数对中,
XX 比 YY 大的个数。同理, U2U_2 表示 YY 比 XX 大的个数。

证明: 记样本 x1,x2,…,xn1x_1,x_2,\dots,x_{n_1} 的次序统计量 X(1)≤x(2)≤…x(n1)X_{(1)}\le x_{(2)}\le\dots x_{(n_1)},
在混合样本的秩为 r1,r2,…,rn1r_1,r_2,\dots,r_{n_1}, 对应的次序统计量 r(1)≤r(2)≤…r(n1)r_{(1)}\le r_{(2)}\le\dots r_{(n_1)},
则有

#{yi<x(1),i=1,2,…,n2}=r(1)−1\qquad \#\{ y_i

#{yi<x(2),i=1,2,…,n2}=r(2)−2\qquad \#\{ y_i

⋮\qquad\qquad\qquad \vdots

#{yi<x(n1),i=1,2,…,n2}=r(n1)−n1\qquad \#\{ y_i

其中, #{}\#\{\} 表示集合 {}\{\} 中的元素个数,故

U1=∑i=1n1rj−n1(n1+1)2=∑i=1n1r(j)−∑j=1n1j=∑j=1n1(r(j)−j)

U_1=\sum\limits_{i=1}^{n_1}r_j-\dfrac{n_1(n_1+1)}{2}=\sum\limits_{i=1}^{n_1}r_{(j)} -\sum\limits_{j=1}^{n_1}j=\sum\limits_{j=1}^{n_1}(r_{(j)}-j).

取 U=min{U1,U2}U=min\{U_1, U_2\}, 给定水平 α\alpha, 拒绝域 {U<u(n1,n2,α)}\{ U,
u(n1,n2,α)u(n_1, n_2, \alpha) 为临界值,查表可得。

  • 大样本情况
    取 U=min{U1,U2}U=min\{U_1, U_2\},
    令 μU=E(U)=n1n22,σU=n1n2(n1+n2+1)12−−−−−−−−−−−−−−−√\mu_{U}=E(U)=\dfrac{n_1 n_2}{2},\,\, \sigma_U=\sqrt{\dfrac{n_1 n_2 (n_1+n_2+1)}{12}}, 那么

Z=U−μUσU−→dN(0,1)\qquad Z=\dfrac{U-\mu_U}{\sigma_U}\xrightarrow{d} N(0, 1).

如果秩中存在结,则修正标准差 σcorr=n1n212[(n+1)−∑i=1kt3i−tin(n−1)]−−−−−−−−−−−−−−−−−−−−−−−√\sigma_{corr}=\sqrt{\dfrac{n_1 n_2}{12}[(n+1)-\sum\limits_{i=1}^k \dfrac{t_i^3-t_i}{n(n-1)}]}

其中, n=n1+n2n=n_1+n_2, kk 是不同的秩数,tit_i 为共享秩 ii 的项数。如果秩中只存在少量的结,则可忽略结。

Wilcoxon 符号秩检验

Wilcoxon 符号秩检验 Wilcoxon signed-rank test 用来比较两个相关的样本,配对样本,或一个样本的重复测量,检验是否它们的总体均值秩改变。

假定

(1). 数据成对,来自同一总体;

(2). 每一对数据随机选择且独立。

检验步骤

设 (x1,i,x2,i),i=1,2,…,N(x_{1,\,i},\,x_{2,\,i}),\,i=1,2,\dots,N 是配对数据,检验

H0:配对差服从关于0点对称的分布H1:不服从\qquad H_0 : \mbox{配对差服从关于0点对称的分布}\qquad H_1 : \mbox{不服从}

(1).计算 |x2,i−x1,i||x_{2, i}-x_{1, i}| 和 sgn(x2,i−x1,i)sgn(x_{2, i}-x_{1, i}), i=1,2,…,Ni=1,2,\dots, N.

(2). 排除 |x2,i−x1,i|=0|x_{2, i}-x_{1, i}|=0 对,设剩余 NrN_r 个对

(3). 按绝对值差从小到大顺序,排序这 NrN_r 对

(4). 排序对,结对取经历秩的平均数,记为 Ri,i=1,2,…,NrR_i,\,i=1,2,\dots,N_r

(5). 令检验统计量 W=∑i=1Nr|sgn(x2,i−x1,i)Ri|W=\sum\limits_{i=1}^{N_r}|sgn(x_{2, i}-x_{1, i}) R_i|

(6). 在 H0H_0 下, W∼FW\sim F, μ=∫xdF(x)=0\mu=\int x {\rm d}F(x)=0,

σ2=∫(x−μ)2dF(x)=Nr(N−r+1)(2Nr+1)6\sigma^2=\int (x-\mu)^2{\rm d}F(x)=\dfrac{N_r(N-r+1)(2N_r+1)}{6}

(7). W−→dN(0,1),当Nr→∞时W\xrightarrow{d} N(0,\,1), \, \mbox{当}\,N_r\rightarrow \infty\,\mbox{时}.

实际上, 当 Nr>10N_r >10, 令 Z=Wσw,σw=σ2−−√Z=\dfrac{W}{\sigma_w},\qquad \sigma_w=\sqrt{\sigma^2}, 那么,

拒绝 H0H_0, 如果 |Z|>zα2|Z|>z_{\frac{\alpha}{2}}

例子: 配对数据

ii x2,ix_{2,\,i} x1,ix_{1,\,i} sgnsgn absabs
1 125 110 1 15
2 115 122 -1 7
3 130 125 1 5
4 140 120 1 20
5 140 140 0 0
6 115 124 -1 9
7 140 123 1 17
8 125 137 -1 12
9 140 135 1 5
10 135 145 -1 10

按绝对差排序数据

ii x2,ix_{2,\,i} x1,ix_{1,\,i} sgnsgn absabs rir_i sgn⋅risgn\cdot r_i
5 140 140 0 0
3 130 125 1 5 1.5 1.5
9 140 135 1 5 1.5 1.5
2 115 122 -1 7 3 -3
6 115 124 -1 9 4 -4
10 135 145 -1 10 5 -5
8 125 137 -1 12 6 -6
1 125 110 1 15 7 7
7 140 123 1 17 8 8
4 140 120 1 20 9 9

Nr=10−1=9N_r= 10-1 =9, |W|=|1.5+1.5−3−4−5−6+7+8+9|=9|W|=|1.5+1.5-3-4-5-6+7+8+9|=9,

|W|<Wα=0.05,9,双侧=35|W|, 故不能拒绝 H0H_0.

精彩内容,请关注微信公众号“统计学习与大数据”!

统计学习(五):非参数检验相关推荐

  1. ISLR统计学习导论之R语言应用(五):R语言实现交叉验证和bootstrap

    统计学习导论(ISLR) 小编大四统计在读,目前保研到统计学top3高校继续攻读统计研究生. 参考资料: The Elements of Statistical Learning An Introdu ...

  2. 统计学习导论(ISLR)(五):重采样方法(交叉验证和bootstrap)

    统计学习导论(ISLR) 小编大四统计在读,目前保研到统计学top3高校继续攻读统计研究生. 参考资料: The Elements of Statistical Learning An Introdu ...

  3. 统计学习第五弹--python实践概率分布

    正态分布(Normal distribution) 正态分布(Normal distribution),又名高斯分布(Gaussian distribution),正态曲线呈钟型,两头低,中间高,左右 ...

  4. 【统计学习系列】多元线性回归模型(五)——参数与模型的显著性检验:t检验与F检验

    文章目录 1. 前文回顾 2. 单参数显著性检验--t检验 2.1 问题的提出 2.2 检验统计量--t统计量的构造 2.3 拒绝域的构造 2.4 浅谈p值 3. 回归方程显著性检验--F检验 3.1 ...

  5. 《深度学习,统计学习,数学基础》人工智能算法工程师手册:程序员写的AI书,50 章一网打尽...

    来源:专知 本文约3400字,建议阅读10+分钟. 免费开源人工智能手册,带你快速上手写代码! [ 导读 ]市面上很多人工智能相关的书籍.大部分的书,面向小白,内容深度不够:小部分教材书或者科研书,内 ...

  6. 发表了一篇英文长文:语义信息G理论和逻辑贝叶斯推理for统计学习

    来源:人机与认知实验室 [本文是鲁晨光老师发表的一篇关于语义信息论和统计学习的论文写后感,发表在科学网上,特摘录推荐] 2019-8-21 01:04 |个人分类:信息的数学和哲学|系统分类:论文交流 ...

  7. UA MATH574M 统计学习II 二元分类例子与高维问题

    UA MATH574M 统计学习II 二元分类例子与高维问题 数值例子 高维数据的二分类问题 Independence Rule 数值例子 用模拟数值做一个二分类的例子. library(MASS)# ...

  8. UA MATH574M 统计学习I 监督学习理论

    UA MATH574M 统计学习I 监督学习理论 统计决策理论 损失函数与风险函数 偏差-方差的权衡 最优估计量 贝叶斯规则 监督学习理论的基本概念 Optimal Learner 经验损失函数与ER ...

  9. 统计学习:方差分析(ANOVA2)

    统计学习 最近在做信号处理的时候发现自己的理论知识不够,因此,开始了理论的重学之路,特开此系列帖子,总结自己的学习收获以及方便后来的小伙伴. 方差分析ANOVA 方差的分析,通常被叫做ANOVA,可以 ...

  10. OpenCV与图像处理学习五——图像滤波与增强:线性、非线性滤波、直方图均衡化与Gamma变换

    OpenCV与图像处理学习五--图像滤波与增强:线性.非线性滤波.直方图均衡化与Gamma变换 三.图像滤波与增强 3.1 线性滤波 3.1.1 方框滤波 3.1.2 均值滤波 3.1.3 高斯滤波 ...

最新文章

  1. iOS学习之Socket使用简明教程- AsyncSocket
  2. php中空心字体怎么打,php打印一个边长为N的实心和空心菱型的方法
  3. 多项式基础操作 - 学习笔记
  4. 于企业而言,Linux 与 Windows 哪个更安全?
  5. BAT解密:互联网技术发展之路(5)- 开发层技术剖析
  6. java并发编程之美-阅读记录2
  7. SQL性能第2篇:查询分析和访问路径制定
  8. spark java pom.xml_使用maven方式创建spark项目(配置pom.xml文件)
  9. 【Java】java Arrays.asList 在idea 下 debug 不同结果的表现 非常诡异 胆小勿入
  10. 《深入浅出DPDK》读书笔记(十二):DPDK虚拟化技术篇(半虚拟化Virtio)
  11. 重新认识下科技核心目录吧!附容易发的期刊名单
  12. 每一首歌曲的背后都有一段感人的故事……
  13. 奥城大学计算机专业,2013年美国留学硕士双录取院校一览
  14. win10无法msi文件的解决方法
  15. 幂指函数的求导方法, 了解对数恒等式的定义
  16. Flask学习笔记之g对象
  17. 2015,GECCO,Comparison of Semantic-aware Selection Methods in Genetic Programming
  18. 浅谈程序员的英语学习
  19. 你知道Guitar Pro 7可以编辑中文歌词吗?
  20. 广西最新初级消防设施操作员考试真题及答案

热门文章

  1. Oracle数据泵的使用
  2. Oracle 客户端安装 + pl/sql工具安装配置
  3. 基于node.js的express使用数据库时,解决异步调用的问题
  4. 华为设备BGP中的路由控制与实验
  5. LAMP YUM安装配置实战
  6. js学习(六)- js对象创建
  7. session和cookies
  8. SQL Server 全文索引的管理
  9. oracle主机修改IP后客户端无法连接
  10. centos 6.0 rpm 包编译环境的搭建