【统计知识总结系列01】回归分析、抽样技术、方差分析以及非参数统计中的方差分解
在众多统计学领域的分支中,一个常见的公式就是方差分解,出现在回归分析
,非参数统计
,抽样技术
等等。这篇文章做一个方差分解的梳理,公式是很简单的,重要的是明白这么做在不同分支下的意义是什么。
1 回归分析
在回归里面,我们通常有下面这个分解式:
SST=SSR+SSE∑i=1n(yi−yˉ)2=∑i=1n(y^i−yˉ)2+∑i=1n(yi−y^i)2SST=SSR+SSE \\ \sum_{i=1}^n(y_i-\bar y)^2=\sum_{i=1}^n(\hat y_i-\bar y)^2 + \sum_{i=1}^n(y_i-\hat y_i) ^2SST=SSR+SSEi=1∑n(yi−yˉ)2=i=1∑n(y^i−yˉ)2+i=1∑n(yi−y^i)2
其中, SST
是总离差平方和,表示因变量的变异;SSR
是回归模型所解释的变异 ;SSE
就是回归模型所不能解释的变易。
这三个量对于回归来说太重要了,比如多元线性回归模型显著性F
检验的构造结果就是
F=SSR/(p)SSE/(n−p−1)∼F(p,n−p−1)F=\frac{SSR/(p)}{SSE/(n-p-1)} \sim F(p,n-p-1) F=SSE/(n−p−1)SSR/(p)∼F(p,n−p−1)
其中,p为自变量xix_ixi的个数。
2 抽样技术
抽样技术里面的分层抽样,分层的目的就是去掉层间差异,只让层内差异影响估计量的方差,从而提升估计量的估计精度。
假设我们对总体分为LLL层,每一层的单元个体数量为N1,N2,...,NLN_1,N_2,...,N_LN1,N2,...,NL,设计的样本量分配为n1,n2,...,nLn_1,n_2,...,n_Ln1,n2,...,nL。
∑h=1L∑i=1nh(yhi−yˉˉ)=∑h=1Lnh(yˉh−yˉˉ)2+∑h=1L∑i=1nh(yhi−yˉh)2\sum_{h=1}^L\sum_{i=1}^{n_h}(y_{hi}-\bar {\bar y}) = \sum_{h=1}^Ln_h(\bar y_h-\bar{\bar y})^2 + \sum_{h=1}^L\sum_{i=1}^{n_h}(y_{hi}-\bar y_h)^2 h=1∑Li=1∑nh(yhi−yˉˉ)=h=1∑Lnh(yˉh−yˉˉ)2+h=1∑Li=1∑nh(yhi−yˉh)2
这一个分解式的左侧跟回归的实际上是一样的,yˉˉ\bar{\bar y}yˉˉ表示的是每一层的均值yˉh\bar y_hyˉh的加权均值,考虑到各层样本数不相同,这里的yˉh\bar y_hyˉh对应的权重也不相同,应该是nhn\frac{n_h}{n}nnh。使得这样加权得到的yˉˉ\bar{\bar y}yˉˉ就是所有样本单元的均值。
右边第一项成为层间差异
,第二项是层内差异
,如果把yˉh\bar y_hyˉh,这个第hhh层yyy的代表,理解为回归值,这一项就成了回归分析里面的SSR
,后一项自然就有了SSE
的意味。
3 方差分析
3.1 单因素方差分析-完全随机设计
方差分析的基本原理是将不同因素下的试验结果分解为两方面的因素作用,即因素之间的差异
和不明因素的随机误差
两相。以单因素方差分析为例,单因素方差分析模型没有区组影响,有简单的表达式:
xij=μ+μi+ϵij,i=1,2,...,k,j=1,2,...,nix_{ij}=\mu+\mu_i+\epsilon_{ij},i=1,2,...,k,j=1,2,...,n_i xij=μ+μi+ϵij,i=1,2,...,k,j=1,2,...,ni
其中xijx_{ij}xij表示第iii个处理的第jjj个重复观测,nin_ini表示第iii个处理的观测样本量。假设有kkk个总体F(x−μi),i=1,2,...,kF(x-\mu_i),i=1,2,...,kF(x−μi),i=1,2,...,k,即kkk个处理,在个总体为等方差正态分布以及独立观测假定下,假设检验问题:
H0:μ1=μ2=⋅⋅⋅=μk=μv.s.H1:∃i,j,μi≠μjH_0:\mu_1=\mu_2=···=\mu_k=\mu\quad v.s.\quad H_1:\exists i,j, \mu_i \neq \mu_j H0:μ1=μ2=⋅⋅⋅=μk=μv.s.H1:∃i,j,μi=μj
将观测值重新整理:
xij−xˉ..=(xi.−xˉ..)+(xij−xˉi.),i=1,2,...,k;j=1,2,...,nix_{ij}-\bar x_{..}=(x_{i.}-\bar x_{..})+(x_{ij}-\bar x_{i.}),i=1,2,...,k;j=1,2,...,n_i xij−xˉ..=(xi.−xˉ..)+(xij−xˉi.),i=1,2,...,k;j=1,2,...,ni
令xijx_{ij}xij表示第iii个处理的第jjj个样本,两边平方后得到:
SST=SSt+SSE∑(xij−xˉ..)2=∑(xi.−xˉ..)2+∑(xij−xˉi.)2\begin{aligned} SST&=SSt+SSE \\ \sum(x_{ij}-\bar x_{..})^2&=\sum(x_{i.}-\bar x_{..})^2+\sum(x_{ij}-\bar x_{i.})^2 \end{aligned} SST∑(xij−xˉ..)2=SSt+SSE=∑(xi.−xˉ..)2+∑(xij−xˉi.)2
在方差分析里面,第二项称为处理平方和
。上述检验问题有对应的检验统计量
F=MStMSE=SSt/(k−1)SSE/(n−k)∼F(k−1,n−k)F=\frac{MSt}{MSE}=\frac{SSt/(k-1)}{SSE/(n-k)} \sim F(k-1,n-k) F=MSEMSt=SSE/(n−k)SSt/(k−1)∼F(k−1,n−k)
检验的拒绝域是F>Fα(k−1,n−k)F>F_{\alpha}(k-1,n-k)F>Fα(k−1,n−k)
3.2 两因素方差分析-完全随机区组设计
在实践中,除了处理,往往还有其他因素起作用。比如
- 在土地上用不同的肥料作为处理的重复观测中,不同的土地本身有不同的条件;
- 在处理血液凝固不同方法实验效果的重复观测中,不同的受试者有着不同的凝血条件;
- 在不同安眠药作为处理的重复观测中,受试者原本睡眠状况也是一个变化的因素。
不同条件的人或者土地构成了另一个影响结果的因素,称为block,区组
。
此时,给出两因素方差分析的主效应表示模型
xij=μ+τi+βj+ϵij,i=1,2,...,k(处理),j=1,2,...,b(区块)x_{ij}=\mu+\tau_i+\beta_j+\epsilon_{ij},i=1,2,...,k(处理),j=1,2,...,b(区块) xij=μ+τi+βj+ϵij,i=1,2,...,k(处理),j=1,2,...,b(区块)
假设检验问题仍然是:
H0:μ1=μ2=⋅⋅⋅=μk=μv.s.H1:∃i,j,μi≠μjH_0:\mu_1=\mu_2=···=\mu_k=\mu\quad v.s.\quad H_1:\exists i,j, \mu_i \neq \mu_j H0:μ1=μ2=⋅⋅⋅=μk=μv.s.H1:∃i,j,μi=μj
述检验问题有对应的检验统计量
F=MStMSE=SSt/(k−1)SSE/(b−1)(k−1)∼F(k−1,b−1)F=\frac{MSt}{MSE}=\frac{SSt/(k-1)}{SSE/(b-1)(k-1)} \sim F(k-1,b-1) F=MSEMSt=SSE/(b−1)(k−1)SSt/(k−1)∼F(k−1,b−1)
检验的拒绝域是F>Fα(k−1,b−1)F>F_{\alpha}(k-1,b-1)F>Fα(k−1,b−1)。此时方差分解为
SST=SSB+SSt+SSE∑i=1k∑j=1b(xij−xˉ..)2=k∑j=1b(x.j−xˉ..)2+b∑i=1k(xi.−xˉ..)2+∑i=1k∑j=1b(xij−xˉi.−xˉ.j+xˉ..)2SST=SSB+SSt+SSE \\ \sum_{i=1}^k \sum_{j=1}^b (x_{ij}-\bar x_{..})^2 = k\sum_{j=1}^b (x_{.j}-\bar x_{..})^2 + b\sum_{i=1}^k (x_{i.}-\bar x_{..})^2 + \sum_{i=1}^k \sum_{j=1}^b (x_{ij}-\bar x_{i.} - \bar x_{.j} + \bar x_{..})^2 SST=SSB+SSt+SSEi=1∑kj=1∑b(xij−xˉ..)2=kj=1∑b(x.j−xˉ..)2+bi=1∑k(xi.−xˉ..)2+i=1∑kj=1∑b(xij−xˉi.−xˉ.j+xˉ..)2
自由度分别为bk-1
,b-1
,k-1
,(b-1)(k-1)
4 非参数统计
非参数统计用它最喜欢的秩
代替了一般的观测值,以下讨论是无节点数据的情况。
4.1 Kruskal-Wallis单因素方差分析
对应传统的单因素方差分析,非参数中有Kruskal-Wallis单因素方差分析
,他是两样本Wilcoxon-Mann-Whitney
检验在三个或者更多组检验上的推广。
将所有观测,xijx_{ij}xij排序,各自对应秩RijR_{ij}Rij表示第jjj个样本中第iii个观测的秩,最大秩为n=∑j=1knjn=\sum_{j=1}^k n_jn=∑j=1knj。其中iii控制的是测量次数
,也就是单因素方差分析的重复观测
,jjj控制的是样本组别
,是我们要检验的是否相同的总体,对应的是单因素方差分析的处理
。
小心这里习惯的i,ji,ji,j是反的
第jjj组样本/处理的均秩Rˉ.j=R.j/nj\bar R_{.j} = R_{.j}/n_jRˉ.j=R.j/nj,所有秩和R..=n(n+1)/2R_{..}=n(n+1)/2R..=n(n+1)/2
定义SST
以及混合数据秩的总平方和分解
SST=SSt+SSE∑j=1k∑i=1nj(Rij−Rˉ..)2=∑j=1knj(Rˉ.j−Rˉ..)2+∑j=1k∑i=1nj(Rij−R.j)2\begin{aligned} SST&=SSt+SSE \\ \sum_{j=1}^k \sum_{i=1}^{n_j} (R_{ij}-\bar R_{..})^2&=\sum_{j=1}^k n_j(\bar R_{.j}-\bar R_{..})^2+\sum_{j=1}^k \sum_{i=1}^{n_j}(R_{ij}-R_{.j})^2 \end{aligned} SSTj=1∑ki=1∑nj(Rij−Rˉ..)2=SSt+SSE=j=1∑knj(Rˉ.j−Rˉ..)2+j=1∑ki=1∑nj(Rij−R.j)2
检验问题是这kkk组样本是否来自同一分布,对其位置参数做如下检验:
H0:k个总体位置相同v.s.H1:k个总体位置不完全相同H_0: k个总体位置相同\quad v.s.\quad H_1:k个总体位置不完全相同 H0:k个总体位置相同v.s.H1:k个总体位置不完全相同
Krustal-Wallis
的HHH值检验统计量
H=SStMST=SStSST/(n−1)∼⋅χ2(k−1)H = \frac{SSt}{MST}=\frac{SSt}{SST/(n-1)} \overset{\centerdot}{\sim} \chi^2(k-1) H=MSTSSt=SST/(n−1)SSt∼⋅χ2(k−1)
拒绝域:H>χα2(k−1)H>\chi_{\alpha}^2(k-1)H>χα2(k−1)
通常,Krustal-Wallis
拒绝掉原假设之后,我们会继续探究是哪两组样本带来了差异,进行两两样本之间的Dunn
检验。两组样本之间探测到足够大的差异要求比较严格,另一个Jonckheere-Terpstra
检验只需要不同组样本的位置显示出上升和下降的趋势就可以探测到差异,即便相邻的差异比较微小,不会落入Dunn
检验的拒绝域。
4.2 Friedman秩方差分析法
问题:k个处理和b个区间,对应两因素方差分析。
不同于Krustal-Wallis
把不同处理的所有重复观测都放在一起取秩RijR_{ij}Rij,Friedman
考虑了区组的存在,不同区组之间的排序取秩是不公平的,而我们只在乎同一个区组内,不同处理带来的差异。
在Friedman
这里,RijR_{ij}Rij的意义是:第iii个区组中第jjj个处理在第iii个区组中的秩!
第jjj组样本/处理的均秩是一样的,Rˉ.j=R.j/nj=∑i=1bRij/nj\bar R_{.j} = R_{.j}/n_j=\sum_{i=1}^bR_{ij}/n_jRˉ.j=R.j/nj=∑i=1bRij/nj
Friedman
的检验统计量Q′Q'Q′为
Q′=SStSST/bk=SStvar(Rij)Q'=\frac{SSt}{SST/bk}=\frac{SSt}{var(R_{ij})} Q′=SST/bkSSt=var(Rij)SSt
矫正统计量
Q=Q′k−1kQ = Q'\frac{k-1}{k} Q=Q′kk−1
近似服从∼⋅χ2(k−1)\overset{\centerdot}{\sim} \chi^2(k-1)∼⋅χ2(k−1)
【统计知识总结系列01】回归分析、抽样技术、方差分析以及非参数统计中的方差分解相关推荐
- 【抽样技术系列03】分层随机抽样ST
目录导引 Chap 3 分层随机抽样ST 3.1 概念,符号 3.1.1 分层抽样的定义 3.1.2 分层抽样的作用 3.1.3 分层抽样的原则 3.1.4 符号说明 3.2 简单估计量 3.2.1 ...
- spring cloud入门_SpringBoot 入门系列0SpringBoot与SpringCloud技术选型
点击上方蓝字关注我们 SpringBoot 入门系列0-SpringBoot与SpringCloud技术选型01 概 述 Spring Boot与Spring Cloud版本严格来讲,Bo ...
- 【MQTT从入门到提高系列 | 01】从0到1快速搭建MQTT测试环境
这是机器未来的第24篇文章 原文首发地址:https://blog.csdn.net/RobotFutures/article/details/125532208 1. mosquitto概述 Ecl ...
- 【Web前端学习系列01】—HTML
[Web前端学习系列01]-HTML HTML 基本标签-head head title标签 meta标签 link标签 style标签 script标签 base标签 文本 标题标签 h 段落标签 ...
- ISTQB AL-TA/TTA连载系列01:软件测试设计面临的挑战
ISTQB AL-TA/TTA连载系列01:软件测试设计面临的挑战 [概述] 软件测试设计是整个软件测试过程中非常重要的测试活动,其输出的工作产品将直接影响测试发现缺陷的效率和有效性(不管是文档化输出 ...
- 【安全利器SELinux快速入门系列 | 01】SELinux基础入门
这是机器未来的第35篇文章 原文首发地址:https://blog.csdn.net/RobotFutures/article/details/125914553 文章目录 1. 研究目标 2. se ...
- PHP扩展开发系列01 - 我要成为一名老司机
PHP扩展开发系列01 - 我要成为一名老司机 1. 关于扩展的教程貌似挺全了,为啥还写? 记录下我写扩展的历程 自认为会写的更容易理解 我的宗旨就是 "先用再识" 代码写着写着就 ...
- JavaScript进阶系列01,函数的声明,函数参数,函数闭包
本篇主要体验JavaScript函数的声明.函数参数以及函数闭包. □ 函数的声明 ※ 声明全局函数 通常这样声明函数: function doSth() { alert("可以在任何时候调 ...
- java 分布式 redis缓存技术_JAVA架构师系列课程分布式缓存技术Redis权威指南,资源教程下载...
课程名称 JAVA架构师系列课程分布式缓存技术Redis权威指南,资源教程下载 课程目标 本课程从0基础开始,对redis的方方面面进行细粒度的讲解:包括基础操作.高级命令.各种集群模式.动态增减节点 ...
- INTERSPEECH 2017系列 | 语音识别之语言模型技术
编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术.系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出 ...
最新文章
- 【Paper】2004_Information Flow and Cooperative Control of Vehicle Formations
- linux查看python pip 安装包列表和安装路径
- C#中将list使用ProtoBuf进行序列化并使用SharpZipLib进行压缩
- springboot md5加密_SpringSecurity入门-SpringBoot集成SpringSecurity
- 进程与服务的签名_苹果app签名需要注意哪几点
- 等价类测试与决策表测试
- oracle基本的操作
- C++Builder2010创建线程
- Inpaint for Mac(图片去水印软件)
- php 给图片加水印
- vue-cli webpack浅析
- 在线查找和下载jar包的好工具maven repository
- 循环队列的创建Java_Java版-数据结构-队列(循环队列)
- JeffreyLynny版面,开版第一篇!!!
- java面试常考_java面试常考题
- linux驱动面试题2018
- oracle静态注册6,oracle数据库静态注册
- [自学笔记]UE4(虚幻四)初学者入门
- cam是计算机应用领域中的一种 其含义是,CAM是计算机应用领域中的一种,其含义是()。...
- linux中负载值为多少正常_Linux系统Load average负载详细解释