UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法

参数的OLS估计
可估函数与Gauss-Markov定理
方差的OLS估计
正态线性模型与UMVUE

Legendre与Gauss在19世纪初提出了最小二乘的思想，1900年Markov证明了最小二乘估计的性质良好，在此之后最小二乘就开始广泛应用于线性模型的估计了。对于线性模型
y=Xβ+ϵ,Eϵ=0,Cov(ϵ)=σ2Iy=X\beta + \epsilon,E\epsilon=0,Cov(\epsilon)=\sigma^2Iy=Xβ+ϵ,Eϵ=0,Cov(ϵ)=σ2I

其中y,ϵy,\epsilony,ϵ为n×1n\times 1n×1的向量，XXX为n×pn \times pn×p的Design Matrix，如果rank(X)≥prank(X)\ge prank(X)≥p，称这个线性模型为满秩的；否则称之为降秩的。这部分我们将介绍普通最小二乘法（OLS）、带约束的最小二乘法、广义最小二乘法（GLS）、稳健性、两步法、最小二乘法的几何解释以及常用数值算法，这一篇介绍OLS。

参数的OLS估计

OLS的思路是
min⁡βQ=∥e∥2=(y−Xβ)′(y−Xβ)=y′y−2y′Xβ+β′X′Xβ\min_{\beta}\ \ Q = \left\| e \right\|^2 = (y-X\beta)'(y-X\beta)=y'y-2y'X\beta+\beta'X'X\betaβmin Q=∥e∥2=(y−Xβ)′(y−Xβ)=y′y−2y′Xβ+β′X′Xβ

计算QQQ关于β\betaβ的梯度
∇βQ=−2X′y+2X′Xβ=0⇒X′Xβ=X′y\nabla_{\beta} Q=-2X'y+2X'X\beta=0 \Rightarrow X'X\beta = X'y∇βQ=−2X′y+2X′Xβ=0⇒X′Xβ=X′y

这个方程叫做OLS的正则方程，求解这个方程可以得到系数的OLS估计，并且基于这个方程还可以获得残差的性质。X′yX'yX′y在X′X'X′的列空间中，因此这个方程是相容的，可以用系数矩阵的广义逆表示解：
β^=(X′X)−X′y\hat{\beta} = (X'X)^{-}X'yβ^=(X′X)−X′y

计算QQQ关于β\betaβ的Hessian矩阵，
HβQ=2X′X≥0H_{\beta}Q = 2X'X\ge 0HβQ=2X′X≥0

因此β^\hat{\beta}β^使QQQ取最小值，并且最小值点唯一。

下面考虑广义逆的确定。假设rank(X)≥prank(X)\ge prank(X)≥p，则X′XX'XX′X是满秩的方阵，
β^=(X′X)−1X′y\hat{\beta} = (X'X)^{-1}X'yβ^=(X′X)−1X′y

假设rank(X)<prank(X)<prank(X)<p，则X′XX'XX′X降秩，它的逆不存在，此时不存在β\betaβ的线性无偏估计。
证明
假设AyAyAy是线性无偏估计，则E(Ay)=AXβ=β⇒AX=Ip⇒rank(AX)=pE(Ay) = AX\beta = \beta \Rightarrow AX = I_p \Rightarrow rank(AX)=pE(Ay)=AXβ=β⇒AX=Ip⇒rank(AX)=p，然而rank(AX)≤rank(X)<prank(AX)\le rank(X)<prank(AX)≤rank(X)<p，这就出现了矛盾。

可估函数与Gauss-Markov定理

如果我们就停留在上一节的讨论，那么OLS的局限性是很强的，因为我们有时并不一定是要关注β\betaβ，也不一定总是需要线性无偏估计。

在rank(X)<prank(X)<prank(X)<p这种情况中，称β\betaβ是不可估计，但我们可以考察β\betaβ的某种线性组合（参考RCD的线性组合与contract理论）c′βc'\betac′β，如果∃a\exists a∃a，n×1n \times 1n×1的列向量，使得E[a′y]=c′βE[a'y]=c'\betaE[a′y]=c′β，就称c′βc'\betac′β是可估函数。显然ccc属于X′X'X′的列空间。如果c1′βc_1'\betac1′β与c2′βc_2'\betac2′β中的c1,c2c_1,c_2c1,c2线性无关，则称c1′βc_1'\betac1′β与c2′βc_2'\betac2′β线性无关。因为ccc属于X′X'X′的列空间，所以一组线性无关的可估函数最多有rank(X)rank(X)rank(X)个，并且据此可以得出∃a\exists a∃a, c=X′ac=X'ac=X′a，进而
c′β^=c′(X′X)−X′y=a′X(X′X)−X′yc'\hat{\beta} = c'(X'X)^{-}X'y=a'X(X'X)^{-}X'yc′β^=c′(X′X)−X′y=a′X(X′X)−X′y

参考矩阵分析与多元统计那个系列，包含广义逆的X(X′X)−X′X(X'X)^{-}X'X(X′X)−X′一项与广义逆的选取无关，这个性质保证c′β^c'\hat{\beta}c′β^是一个良定义。另外，
E(c′β^)=a′X(X′X)−X′Ey=a′X(X′X)−X′Xβ=a′Xβ=c′βE(c'\hat{\beta}) = a'X(X'X)^{-}X'Ey=a'X(X'X)^{-}X'X\beta=a'X\beta=c'\betaE(c′β^)=a′X(X′X)−X′Ey=a′X(X′X)−X′Xβ=a′Xβ=c′β

说明c′β^c'\hat{\beta}c′β^是可估函数cβc\betacβ的无偏估计。基于这些分析，我们可以自信地定义c′β^c'\hat{\beta}c′β^为c′βc'\betac′β的OLS估计。OLS是具有唯一性的，但在回归那个系列我们讨论过，线性无偏估计不具有唯一性，但Gauss-Markov定理指出OLS估计是最优线性无偏估计（Best Linear Unbiased Estimator，BLUE）：

Gauss-Markov定理 c′β^c'\hat{\beta}c′β^是c′βc'\betac′β的BLUE。
证明无偏性说明过了，下面讨论最优性（所有线性无偏估计中方差最小）。计算c′β^c'\hat{\beta}c′β^的方差：
Var(c′β^)=Var(a′X(X′X)−X′y)=σ2a′X(X′X)−X′X(X′X)−X′a=σ2a′X(X′X)−X′a=σ2c′(X′X)−cVar(c'\hat{\beta}) = Var(a'X(X'X)^{-}X'y) =\sigma^2a'X(X'X)^{-}X'X(X'X)^{-}X'a \\= \sigma^2a'X(X'X)^{-}X'a = \sigma^2 c'(X'X)^{-}cVar(c′β^)=Var(a′X(X′X)−X′y)=σ2a′X(X′X)−X′X(X′X)−X′a=σ2a′X(X′X)−X′a=σ2c′(X′X)−c

假设b′yb'yb′y是c′βc'\betac′β的另一个线性无偏估计，则E(b′y)=b′Xβ=c′βE(b'y)=b'X\beta=c'\betaE(b′y)=b′Xβ=c′β，也就是c=X′bc=X'bc=X′b，计算
Var(b′y)=σ2b′bVar(b'y) = \sigma^2b'bVar(b′y)=σ2b′b

考虑两个方差的差，
Var(b′y)−Var(c′β^)=σ2[b′b−c′(X′X)−c]=σ2[b′−c′(X′X)−][b−(X′X)−c]=σ2∥b−(X′X)−c∥≥0Var(b'y)-Var(c'\hat{\beta}) =\sigma^2[b'b-c'(X'X)^{-}c] \\ = \sigma^2[b'-c'(X'X)^{-}][b-(X'X)^{-}c]=\sigma^2 \left\| b-(X'X)^{-}c\right\| \ge 0Var(b′y)−Var(c′β^)=σ2[b′b−c′(X′X)−c]=σ2[b′−c′(X′X)−][b−(X′X)−c]=σ2∥∥b−(X′X)−c∥∥≥0

所以OLS是BLUE。

方差的OLS估计

模型的残差为e=y−Xβ^=(I−PX)ye=y-X\hat{\beta}=(I-P_X)ye=y−Xβ^=(I−PX)y，其中PX=X(X′X)−X′P_X=X(X'X)^{-}X'PX=X(X′X)−X′是到XXX列空间中的投影矩阵，可以计算
Ee^=(I−PX)Xβ=Xβ−X(X′X)−X′Xβ=0Cov(e^)=σ2(I−PX)(I−PX)′=σ2(I−PX)E\hat{e}=(I-P_X)X\beta=X\beta - X(X'X)^{-}X'X\beta=0 \\ Cov(\hat{e})=\sigma^2(I-P_X)(I-P_X)'=\sigma^2(I-P_X)Ee^=(I−PX)Xβ=Xβ−X(X′X)−X′Xβ=0Cov(e^)=σ2(I−PX)(I−PX)′=σ2(I−PX)

基于这个结果可以构造σ2\sigma^2σ2的无偏估计为
σ^2=e^′e^n−rank(X)\hat\sigma^2=\frac{\hat{e}'\hat{e}}{n-rank(X)}σ^2=n−rank(X)e^′e^

证明
首先e^′e^=y′(I−PX)y\hat{e}'\hat{e}=y'(I-P_X)ye^′e^=y′(I−PX)y，下面计算
E[e^′e^]=(Xβ)′(I−PX)+tr[(I−PX)Cov(y)]=σ2tr(I−PX)=σ2(n−rank(X))E[\hat{e}'\hat{e}]=(X\beta)'(I-P_X)+tr[(I-P_X)Cov(y)] \\=\sigma^2tr(I-P_X)=\sigma^2(n-rank(X))E[e^′e^]=(Xβ)′(I−PX)+tr[(I−PX)Cov(y)]=σ2tr(I−PX)=σ2(n−rank(X))

第一行到第二行应用的第一个结论是(I−PX)X=0(I-P_X)X=0(I−PX)X=0，用到的第二个结论是如果EX=μ,Cov(X)=ΣEX=\mu,Cov(X)=\SigmaEX=μ,Cov(X)=Σ，则
E[X′AX]=μ′Aμ+tr(AΣ)E[X'AX]=\mu'A\mu+tr(A\Sigma)E[X′AX]=μ′Aμ+tr(AΣ)

下面证明这个恒等式。计算
X′AX=(X−μ+μ)′A(X−μ+μ)=(X−μ)′A(X−μ)+μ′A(X−μ)+(X−μ)′Aμ+μ′AμX'AX=(X-\mu+\mu)'A(X-\mu+\mu) \\ = (X-\mu)'A(X-\mu)+\mu'A(X-\mu)+(X-\mu)'A\mu+\mu'A\muX′AX=(X−μ+μ)′A(X−μ+μ)=(X−μ)′A(X−μ)+μ′A(X−μ)+(X−μ)′Aμ+μ′Aμ

接下来求期望，
E[μ′A(X−μ)]=E[μ′AX]−μ′Aμ=0E[\mu'A(X-\mu)]=E[\mu'AX]-\mu'A\mu=0E[μ′A(X−μ)]=E[μ′AX]−μ′Aμ=0

类似的，第三项的期望也为0，计算第一项的期望，
E[(X−μ)′A(X−μ)]=Etr[(X−μ)′A(X−μ)]=Etr[A(X−μ)(X−μ)′]=trAE[(X−μ)(X−μ)′]=tr(AΣ)E[(X-\mu)'A(X-\mu)]=Etr[(X-\mu)'A(X-\mu)] \\ = Etr[A(X-\mu)(X-\mu)'] = trAE[(X-\mu)(X-\mu)'] = tr(A\Sigma)E[(X−μ)′A(X−μ)]=Etr[(X−μ)′A(X−μ)]=Etr[A(X−μ)(X−μ)′]=trAE[(X−μ)(X−μ)′]=tr(AΣ)

这就完成了整个证明。在回归那个系列给出过另一种证明，但思路类似，都是把数量用trace表示，在利用trace中矩阵乘法满足交换律的技巧。

正态线性模型与UMVUE

需要注意的是OLS对随机误差的分布形式是没有要求的，只有当我们试图对OLS估计量做统计推断的时候，我们才需要考虑随机误差的分布形式。这是OLS与MLE一个很大的区别，MLE为了获得估计量就需要在一开始引入某种特定的分布，再去最大化给定数据在这种分布下的似然。

现在假设随机误差服从正态分布，则OLS有一些优越的性质，这些性质在MATH 564、566、571A的博客中都有过证明了，所以这里就简单归纳一下：

OLS也是MLE，且c′β^∼N(c′β,σ2c′(X′X)−c)c'\hat{\beta} \sim N(c'\beta,\sigma^2c'(X'X)^{-}c)c′β^∼N(c′β,σ2c′(X′X)−c)
σ2\sigma^2σ2的MLE是e^′e^/n\hat{e}'\hat{e}/ne^′e^/n，且(n−rank(X))σ^2∼σ2χn−rank(X)2(n-rank(X))\hat{\sigma}^2\sim \sigma^2 \chi^2_{n-rank(X)}(n−rank(X))σ^2∼σ2χn−rank(X)2
c′β^c'\hat{\beta}c′β^与σ^2\hat{\sigma}^2σ^2互相独立
c′β^c'\hat{\beta}c′β^是唯一的UMVUE

UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法相关推荐

UA STAT687 线性模型II 最小二乘理论3 广义最小二乘
UA STAT687 线性模型II 最小二乘理论3 广义最小二乘 GLS GLS的统计性质 GLS 这一讲我们放松对随机误差的方差形式的假设,考虑模型 y=Xβ+ϵ,Eϵ=0,Cov(ϵ)=σ2Σ&g ...
UA STAT687 线性模型II 最小二乘理论2 约束最小二乘估计
UA STAT687 线性模型II 最小二乘理论2 约束最小二乘估计约束最小二乘估计的求解数值计算的思路系数估计量的解析式约束最小二乘估计的统计性质约束最小二乘估计的求解在线性模型y=Xβ ...
UA STAT687 线性模型理论I 线性模型概述
UA STAT687 线性模型理论I 线性模型概述线性回归 One-way ANOVA Two-way ANOVA Nested Design Cross Design ANCOVA 线性模型是统计 ...
UA MATH523A 实分析3 积分理论概念与定理整理
UA MATH523A 实分析3 积分理论概念与定理整理可测函数非负可测函数的积分一般可测函数的积分可测函数列的收敛 Folland实分析第二章是积分理论,目标是建立Lebesgue积分以及 ...
UA MATH523A 实分析3 积分理论16 截口与单调类、特征函数的Fubini定理
UA MATH523A 实分析3 积分理论16 截口与单调类.特征函数的Fubini定理上一讲我们建立了乘积测度,接下来我们要在乘积测度空间(X×Y,M⊗N,μ×ν)(X \times Y,\mat ...
UA MATH523A 实分析3 积分理论例题集合的特征函数L2收敛的条件
UA MATH523A 实分析3 积分理论例题集合的特征函数L2收敛的条件例假设{En}\{E_n\}{En}是一个有限测度空间(X,M,μ)(X,\mathcal{M},\mu)(X,M,μ ...
UA MATH523A 实分析3 积分理论例题证明函数列L1收敛的一个题目
UA MATH523A 实分析3 积分理论例题证明函数列L1收敛的一个题目例假设fnf_nfn在[0,1][0,1][0,1]上绝对连续,fn(0)=0,∀n≥1f_n(0)=0,\foral ...
UA MATH523A 实分析3 积分理论例题 Fubini定理计算简单二重积分的一个例题
UA MATH523A 实分析3 积分理论例题 Fubini定理计算简单二重积分的一个例题例 f∈L1([0,1])f \in L^1([0,1])f∈L1([0,1]), define h(x)= ...
UA MATH523A 实分析3 积分理论例题判断函数可积性的一个题目
UA MATH523A 实分析3 积分理论例题判断函数可积性的一个题目例 (X,M,μ)(X,\mathcal{M},\mu)(X,M,μ)是一个测度空间,fff是定义在(X,M,μ)(X,\ma ...
UA MATH523A 实分析3 积分理论例题一个测度与积分的综合计算题
UA MATH523A 实分析3 积分理论例题一个测度与积分的综合计算题例 EnE_nEn是一列[0,1][0,1][0,1]上的Lebesgue可测集,∃k∈[0,1]\exists k \i ...

UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法

UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法

参数的OLS估计

可估函数与Gauss-Markov定理

方差的OLS估计

正态线性模型与UMVUE

UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法相关推荐

最新文章

热门文章