UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法
UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法
- 参数的OLS估计
- 可估函数与Gauss-Markov定理
- 方差的OLS估计
- 正态线性模型与UMVUE
Legendre与Gauss在19世纪初提出了最小二乘的思想,1900年Markov证明了最小二乘估计的性质良好,在此之后最小二乘就开始广泛应用于线性模型的估计了。对于线性模型
y=Xβ+ϵ,Eϵ=0,Cov(ϵ)=σ2Iy=X\beta + \epsilon,E\epsilon=0,Cov(\epsilon)=\sigma^2Iy=Xβ+ϵ,Eϵ=0,Cov(ϵ)=σ2I
其中y,ϵy,\epsilony,ϵ为n×1n\times 1n×1的向量,XXX为n×pn \times pn×p的Design Matrix,如果rank(X)≥prank(X)\ge prank(X)≥p,称这个线性模型为满秩的;否则称之为降秩的。这部分我们将介绍普通最小二乘法(OLS)、带约束的最小二乘法、广义最小二乘法(GLS)、稳健性、两步法、最小二乘法的几何解释以及常用数值算法,这一篇介绍OLS。
参数的OLS估计
OLS的思路是
minβQ=∥e∥2=(y−Xβ)′(y−Xβ)=y′y−2y′Xβ+β′X′Xβ\min_{\beta}\ \ Q = \left\| e \right\|^2 = (y-X\beta)'(y-X\beta)=y'y-2y'X\beta+\beta'X'X\betaβmin Q=∥e∥2=(y−Xβ)′(y−Xβ)=y′y−2y′Xβ+β′X′Xβ
计算QQQ关于β\betaβ的梯度
∇βQ=−2X′y+2X′Xβ=0⇒X′Xβ=X′y\nabla_{\beta} Q=-2X'y+2X'X\beta=0 \Rightarrow X'X\beta = X'y∇βQ=−2X′y+2X′Xβ=0⇒X′Xβ=X′y
这个方程叫做OLS的正则方程,求解这个方程可以得到系数的OLS估计,并且基于这个方程还可以获得残差的性质。X′yX'yX′y在X′X'X′的列空间中,因此这个方程是相容的,可以用系数矩阵的广义逆表示解:
β^=(X′X)−X′y\hat{\beta} = (X'X)^{-}X'yβ^=(X′X)−X′y
计算QQQ关于β\betaβ的Hessian矩阵,
HβQ=2X′X≥0H_{\beta}Q = 2X'X\ge 0HβQ=2X′X≥0
因此β^\hat{\beta}β^使QQQ取最小值,并且最小值点唯一。
下面考虑广义逆的确定。假设rank(X)≥prank(X)\ge prank(X)≥p,则X′XX'XX′X是满秩的方阵,
β^=(X′X)−1X′y\hat{\beta} = (X'X)^{-1}X'yβ^=(X′X)−1X′y
假设rank(X)<prank(X)<prank(X)<p,则X′XX'XX′X降秩,它的逆不存在,此时不存在β\betaβ的线性无偏估计。
证明
假设AyAyAy是线性无偏估计,则E(Ay)=AXβ=β⇒AX=Ip⇒rank(AX)=pE(Ay) = AX\beta = \beta \Rightarrow AX = I_p \Rightarrow rank(AX)=pE(Ay)=AXβ=β⇒AX=Ip⇒rank(AX)=p,然而rank(AX)≤rank(X)<prank(AX)\le rank(X)<prank(AX)≤rank(X)<p,这就出现了矛盾。
可估函数与Gauss-Markov定理
如果我们就停留在上一节的讨论,那么OLS的局限性是很强的,因为我们有时并不一定是要关注β\betaβ,也不一定总是需要线性无偏估计。
在rank(X)<prank(X)<prank(X)<p这种情况中,称β\betaβ是不可估计,但我们可以考察β\betaβ的某种线性组合(参考RCD的线性组合与contract理论)c′βc'\betac′β,如果∃a\exists a∃a,n×1n \times 1n×1的列向量,使得E[a′y]=c′βE[a'y]=c'\betaE[a′y]=c′β,就称c′βc'\betac′β是可估函数。显然ccc属于X′X'X′的列空间。如果c1′βc_1'\betac1′β与c2′βc_2'\betac2′β中的c1,c2c_1,c_2c1,c2线性无关,则称c1′βc_1'\betac1′β与c2′βc_2'\betac2′β线性无关。因为ccc属于X′X'X′的列空间,所以一组线性无关的可估函数最多有rank(X)rank(X)rank(X)个,并且据此可以得出∃a\exists a∃a, c=X′ac=X'ac=X′a,进而
c′β^=c′(X′X)−X′y=a′X(X′X)−X′yc'\hat{\beta} = c'(X'X)^{-}X'y=a'X(X'X)^{-}X'yc′β^=c′(X′X)−X′y=a′X(X′X)−X′y
参考矩阵分析与多元统计那个系列,包含广义逆的X(X′X)−X′X(X'X)^{-}X'X(X′X)−X′一项与广义逆的选取无关,这个性质保证c′β^c'\hat{\beta}c′β^是一个良定义。另外,
E(c′β^)=a′X(X′X)−X′Ey=a′X(X′X)−X′Xβ=a′Xβ=c′βE(c'\hat{\beta}) = a'X(X'X)^{-}X'Ey=a'X(X'X)^{-}X'X\beta=a'X\beta=c'\betaE(c′β^)=a′X(X′X)−X′Ey=a′X(X′X)−X′Xβ=a′Xβ=c′β
说明c′β^c'\hat{\beta}c′β^是可估函数cβc\betacβ的无偏估计。基于这些分析,我们可以自信地定义c′β^c'\hat{\beta}c′β^为c′βc'\betac′β的OLS估计。OLS是具有唯一性的,但在回归那个系列我们讨论过,线性无偏估计不具有唯一性,但Gauss-Markov定理指出OLS估计是最优线性无偏估计(Best Linear Unbiased Estimator,BLUE):
Gauss-Markov定理 c′β^c'\hat{\beta}c′β^是c′βc'\betac′β的BLUE。
证明 无偏性说明过了,下面讨论最优性(所有线性无偏估计中方差最小)。计算c′β^c'\hat{\beta}c′β^的方差:
Var(c′β^)=Var(a′X(X′X)−X′y)=σ2a′X(X′X)−X′X(X′X)−X′a=σ2a′X(X′X)−X′a=σ2c′(X′X)−cVar(c'\hat{\beta}) = Var(a'X(X'X)^{-}X'y) =\sigma^2a'X(X'X)^{-}X'X(X'X)^{-}X'a \\= \sigma^2a'X(X'X)^{-}X'a = \sigma^2 c'(X'X)^{-}cVar(c′β^)=Var(a′X(X′X)−X′y)=σ2a′X(X′X)−X′X(X′X)−X′a=σ2a′X(X′X)−X′a=σ2c′(X′X)−c
假设b′yb'yb′y是c′βc'\betac′β的另一个线性无偏估计,则E(b′y)=b′Xβ=c′βE(b'y)=b'X\beta=c'\betaE(b′y)=b′Xβ=c′β,也就是c=X′bc=X'bc=X′b,计算
Var(b′y)=σ2b′bVar(b'y) = \sigma^2b'bVar(b′y)=σ2b′b
考虑两个方差的差,
Var(b′y)−Var(c′β^)=σ2[b′b−c′(X′X)−c]=σ2[b′−c′(X′X)−][b−(X′X)−c]=σ2∥b−(X′X)−c∥≥0Var(b'y)-Var(c'\hat{\beta}) =\sigma^2[b'b-c'(X'X)^{-}c] \\ = \sigma^2[b'-c'(X'X)^{-}][b-(X'X)^{-}c]=\sigma^2 \left\| b-(X'X)^{-}c\right\| \ge 0Var(b′y)−Var(c′β^)=σ2[b′b−c′(X′X)−c]=σ2[b′−c′(X′X)−][b−(X′X)−c]=σ2∥∥b−(X′X)−c∥∥≥0
所以OLS是BLUE。
方差的OLS估计
模型的残差为e=y−Xβ^=(I−PX)ye=y-X\hat{\beta}=(I-P_X)ye=y−Xβ^=(I−PX)y,其中PX=X(X′X)−X′P_X=X(X'X)^{-}X'PX=X(X′X)−X′是到XXX列空间中的投影矩阵,可以计算
Ee^=(I−PX)Xβ=Xβ−X(X′X)−X′Xβ=0Cov(e^)=σ2(I−PX)(I−PX)′=σ2(I−PX)E\hat{e}=(I-P_X)X\beta=X\beta - X(X'X)^{-}X'X\beta=0 \\ Cov(\hat{e})=\sigma^2(I-P_X)(I-P_X)'=\sigma^2(I-P_X)Ee^=(I−PX)Xβ=Xβ−X(X′X)−X′Xβ=0Cov(e^)=σ2(I−PX)(I−PX)′=σ2(I−PX)
基于这个结果可以构造σ2\sigma^2σ2的无偏估计为
σ^2=e^′e^n−rank(X)\hat\sigma^2=\frac{\hat{e}'\hat{e}}{n-rank(X)}σ^2=n−rank(X)e^′e^
证明
首先e^′e^=y′(I−PX)y\hat{e}'\hat{e}=y'(I-P_X)ye^′e^=y′(I−PX)y,下面计算
E[e^′e^]=(Xβ)′(I−PX)+tr[(I−PX)Cov(y)]=σ2tr(I−PX)=σ2(n−rank(X))E[\hat{e}'\hat{e}]=(X\beta)'(I-P_X)+tr[(I-P_X)Cov(y)] \\=\sigma^2tr(I-P_X)=\sigma^2(n-rank(X))E[e^′e^]=(Xβ)′(I−PX)+tr[(I−PX)Cov(y)]=σ2tr(I−PX)=σ2(n−rank(X))
第一行到第二行应用的第一个结论是(I−PX)X=0(I-P_X)X=0(I−PX)X=0,用到的第二个结论是如果EX=μ,Cov(X)=ΣEX=\mu,Cov(X)=\SigmaEX=μ,Cov(X)=Σ,则
E[X′AX]=μ′Aμ+tr(AΣ)E[X'AX]=\mu'A\mu+tr(A\Sigma)E[X′AX]=μ′Aμ+tr(AΣ)
下面证明这个恒等式。计算
X′AX=(X−μ+μ)′A(X−μ+μ)=(X−μ)′A(X−μ)+μ′A(X−μ)+(X−μ)′Aμ+μ′AμX'AX=(X-\mu+\mu)'A(X-\mu+\mu) \\ = (X-\mu)'A(X-\mu)+\mu'A(X-\mu)+(X-\mu)'A\mu+\mu'A\muX′AX=(X−μ+μ)′A(X−μ+μ)=(X−μ)′A(X−μ)+μ′A(X−μ)+(X−μ)′Aμ+μ′Aμ
接下来求期望,
E[μ′A(X−μ)]=E[μ′AX]−μ′Aμ=0E[\mu'A(X-\mu)]=E[\mu'AX]-\mu'A\mu=0E[μ′A(X−μ)]=E[μ′AX]−μ′Aμ=0
类似的,第三项的期望也为0,计算第一项的期望,
E[(X−μ)′A(X−μ)]=Etr[(X−μ)′A(X−μ)]=Etr[A(X−μ)(X−μ)′]=trAE[(X−μ)(X−μ)′]=tr(AΣ)E[(X-\mu)'A(X-\mu)]=Etr[(X-\mu)'A(X-\mu)] \\ = Etr[A(X-\mu)(X-\mu)'] = trAE[(X-\mu)(X-\mu)'] = tr(A\Sigma)E[(X−μ)′A(X−μ)]=Etr[(X−μ)′A(X−μ)]=Etr[A(X−μ)(X−μ)′]=trAE[(X−μ)(X−μ)′]=tr(AΣ)
这就完成了整个证明。在回归那个系列给出过另一种证明,但思路类似,都是把数量用trace表示,在利用trace中矩阵乘法满足交换律的技巧。
正态线性模型与UMVUE
需要注意的是OLS对随机误差的分布形式是没有要求的,只有当我们试图对OLS估计量做统计推断的时候,我们才需要考虑随机误差的分布形式。这是OLS与MLE一个很大的区别,MLE为了获得估计量就需要在一开始引入某种特定的分布,再去最大化给定数据在这种分布下的似然。
现在假设随机误差服从正态分布,则OLS有一些优越的性质,这些性质在MATH 564、566、571A的博客中都有过证明了,所以这里就简单归纳一下:
- OLS也是MLE,且c′β^∼N(c′β,σ2c′(X′X)−c)c'\hat{\beta} \sim N(c'\beta,\sigma^2c'(X'X)^{-}c)c′β^∼N(c′β,σ2c′(X′X)−c)
- σ2\sigma^2σ2的MLE是e^′e^/n\hat{e}'\hat{e}/ne^′e^/n,且(n−rank(X))σ^2∼σ2χn−rank(X)2(n-rank(X))\hat{\sigma}^2\sim \sigma^2 \chi^2_{n-rank(X)}(n−rank(X))σ^2∼σ2χn−rank(X)2
- c′β^c'\hat{\beta}c′β^与σ^2\hat{\sigma}^2σ^2互相独立
- c′β^c'\hat{\beta}c′β^是唯一的UMVUE
UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法相关推荐
- UA STAT687 线性模型II 最小二乘理论3 广义最小二乘
UA STAT687 线性模型II 最小二乘理论3 广义最小二乘 GLS GLS的统计性质 GLS 这一讲我们放松对随机误差的方差形式的假设,考虑模型 y=Xβ+ϵ,Eϵ=0,Cov(ϵ)=σ2Σ&g ...
- UA STAT687 线性模型II 最小二乘理论2 约束最小二乘估计
UA STAT687 线性模型II 最小二乘理论2 约束最小二乘估计 约束最小二乘估计的求解 数值计算的思路 系数估计量的解析式 约束最小二乘估计的统计性质 约束最小二乘估计的求解 在线性模型y=Xβ ...
- UA STAT687 线性模型理论I 线性模型概述
UA STAT687 线性模型理论I 线性模型概述 线性回归 One-way ANOVA Two-way ANOVA Nested Design Cross Design ANCOVA 线性模型是统计 ...
- UA MATH523A 实分析3 积分理论 概念与定理整理
UA MATH523A 实分析3 积分理论 概念与定理整理 可测函数 非负可测函数的积分 一般可测函数的积分 可测函数列的收敛 Folland实分析第二章是积分理论,目标是建立Lebesgue积分以及 ...
- UA MATH523A 实分析3 积分理论16 截口与单调类、特征函数的Fubini定理
UA MATH523A 实分析3 积分理论16 截口与单调类.特征函数的Fubini定理 上一讲我们建立了乘积测度,接下来我们要在乘积测度空间(X×Y,M⊗N,μ×ν)(X \times Y,\mat ...
- UA MATH523A 实分析3 积分理论例题 集合的特征函数L2收敛的条件
UA MATH523A 实分析3 积分理论例题 集合的特征函数L2收敛的条件 例 假设{En}\{E_n\}{En}是一个有限测度空间(X,M,μ)(X,\mathcal{M},\mu)(X,M,μ ...
- UA MATH523A 实分析3 积分理论例题 证明函数列L1收敛的一个题目
UA MATH523A 实分析3 积分理论例题 证明函数列L1收敛的一个题目 例 假设fnf_nfn在[0,1][0,1][0,1]上绝对连续,fn(0)=0,∀n≥1f_n(0)=0,\foral ...
- UA MATH523A 实分析3 积分理论例题 Fubini定理计算简单二重积分的一个例题
UA MATH523A 实分析3 积分理论例题 Fubini定理计算简单二重积分的一个例题 例 f∈L1([0,1])f \in L^1([0,1])f∈L1([0,1]), define h(x)= ...
- UA MATH523A 实分析3 积分理论例题 判断函数可积性的一个题目
UA MATH523A 实分析3 积分理论例题 判断函数可积性的一个题目 例 (X,M,μ)(X,\mathcal{M},\mu)(X,M,μ)是一个测度空间,fff是定义在(X,M,μ)(X,\ma ...
- UA MATH523A 实分析3 积分理论例题 一个测度与积分的综合计算题
UA MATH523A 实分析3 积分理论例题 一个测度与积分的综合计算题 例 EnE_nEn是一列[0,1][0,1][0,1]上的Lebesgue可测集,∃k∈[0,1]\exists k \i ...
最新文章
- 第47课 称心如意的输入 《小学生C++趣味编程》
- Ubuntu 14.04/14.10下安装VMware Workstation 11图文教程
- python输入多组数据_Python3算法类多组数据输入输出格式
- 拓端tecdat|R语言分段线性回归分析预测车辆的制动距离
- java的demo打印功能_java实现打印功能demo
- webstorm 破解方法(100%好使)
- Centos7安装snmpwalk工具
- ppc手机用蓝牙和电脑同步上网设置教程
- 科普:智能电话机器人语音识别技术
- [NISACTF 2022]
- ftp客户端软件,Windows端有哪些ftp客户端软件值得推荐?3款ftp客户端软件
- 蓝桥 超级玛丽 JAVA
- 低碳环保+变废为宝=马铃薯淀粉生产废水处理设备
- iOS9请求https问题-记录
- SQL SERVER | 错误处理 INSERT 语句与 FOREIGN KEY SAME TABLE 约束“FK__Course__Cpno__276EDEB3“冲突。(补充)
- 实验一.	RFID自动读卡实验
- 多亏了这些Word技巧,我才能15分钟完成所有工作!真是6到飞起
- 罗彻斯特大学计算机科学系专业排名,罗切斯特大学计算机科学系
- Python计算限制性核酸内切酶切割后的核酸片段及其片段分子量
- Adreno GPU上的DirectX应用开发简介 (4)