UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法

  • 参数的OLS估计
  • 可估函数与Gauss-Markov定理
  • 方差的OLS估计
  • 正态线性模型与UMVUE

Legendre与Gauss在19世纪初提出了最小二乘的思想,1900年Markov证明了最小二乘估计的性质良好,在此之后最小二乘就开始广泛应用于线性模型的估计了。对于线性模型
y=Xβ+ϵ,Eϵ=0,Cov(ϵ)=σ2Iy=X\beta + \epsilon,E\epsilon=0,Cov(\epsilon)=\sigma^2Iy=Xβ+ϵ,Eϵ=0,Cov(ϵ)=σ2I

其中y,ϵy,\epsilony,ϵ为n×1n\times 1n×1的向量,XXX为n×pn \times pn×p的Design Matrix,如果rank(X)≥prank(X)\ge prank(X)≥p,称这个线性模型为满秩的;否则称之为降秩的。这部分我们将介绍普通最小二乘法(OLS)、带约束的最小二乘法、广义最小二乘法(GLS)、稳健性、两步法、最小二乘法的几何解释以及常用数值算法,这一篇介绍OLS。

参数的OLS估计

OLS的思路是
min⁡βQ=∥e∥2=(y−Xβ)′(y−Xβ)=y′y−2y′Xβ+β′X′Xβ\min_{\beta}\ \ Q = \left\| e \right\|^2 = (y-X\beta)'(y-X\beta)=y'y-2y'X\beta+\beta'X'X\betaβmin​  Q=∥e∥2=(y−Xβ)′(y−Xβ)=y′y−2y′Xβ+β′X′Xβ

计算QQQ关于β\betaβ的梯度
∇βQ=−2X′y+2X′Xβ=0⇒X′Xβ=X′y\nabla_{\beta} Q=-2X'y+2X'X\beta=0 \Rightarrow X'X\beta = X'y∇β​Q=−2X′y+2X′Xβ=0⇒X′Xβ=X′y

这个方程叫做OLS的正则方程,求解这个方程可以得到系数的OLS估计,并且基于这个方程还可以获得残差的性质。X′yX'yX′y在X′X'X′的列空间中,因此这个方程是相容的,可以用系数矩阵的广义逆表示解:
β^=(X′X)−X′y\hat{\beta} = (X'X)^{-}X'yβ^​=(X′X)−X′y

计算QQQ关于β\betaβ的Hessian矩阵,
HβQ=2X′X≥0H_{\beta}Q = 2X'X\ge 0Hβ​Q=2X′X≥0

因此β^\hat{\beta}β^​使QQQ取最小值,并且最小值点唯一。

下面考虑广义逆的确定。假设rank(X)≥prank(X)\ge prank(X)≥p,则X′XX'XX′X是满秩的方阵,
β^=(X′X)−1X′y\hat{\beta} = (X'X)^{-1}X'yβ^​=(X′X)−1X′y

假设rank(X)<prank(X)<prank(X)<p,则X′XX'XX′X降秩,它的逆不存在,此时不存在β\betaβ的线性无偏估计。
证明
假设AyAyAy是线性无偏估计,则E(Ay)=AXβ=β⇒AX=Ip⇒rank(AX)=pE(Ay) = AX\beta = \beta \Rightarrow AX = I_p \Rightarrow rank(AX)=pE(Ay)=AXβ=β⇒AX=Ip​⇒rank(AX)=p,然而rank(AX)≤rank(X)<prank(AX)\le rank(X)<prank(AX)≤rank(X)<p,这就出现了矛盾。

可估函数与Gauss-Markov定理

如果我们就停留在上一节的讨论,那么OLS的局限性是很强的,因为我们有时并不一定是要关注β\betaβ,也不一定总是需要线性无偏估计。

在rank(X)<prank(X)<prank(X)<p这种情况中,称β\betaβ是不可估计,但我们可以考察β\betaβ的某种线性组合(参考RCD的线性组合与contract理论)c′βc'\betac′β,如果∃a\exists a∃a,n×1n \times 1n×1的列向量,使得E[a′y]=c′βE[a'y]=c'\betaE[a′y]=c′β,就称c′βc'\betac′β是可估函数。显然ccc属于X′X'X′的列空间。如果c1′βc_1'\betac1′​β与c2′βc_2'\betac2′​β中的c1,c2c_1,c_2c1​,c2​线性无关,则称c1′βc_1'\betac1′​β与c2′βc_2'\betac2′​β线性无关。因为ccc属于X′X'X′的列空间,所以一组线性无关的可估函数最多有rank(X)rank(X)rank(X)个,并且据此可以得出∃a\exists a∃a, c=X′ac=X'ac=X′a,进而
c′β^=c′(X′X)−X′y=a′X(X′X)−X′yc'\hat{\beta} = c'(X'X)^{-}X'y=a'X(X'X)^{-}X'yc′β^​=c′(X′X)−X′y=a′X(X′X)−X′y

参考矩阵分析与多元统计那个系列,包含广义逆的X(X′X)−X′X(X'X)^{-}X'X(X′X)−X′一项与广义逆的选取无关,这个性质保证c′β^c'\hat{\beta}c′β^​是一个良定义。另外,
E(c′β^)=a′X(X′X)−X′Ey=a′X(X′X)−X′Xβ=a′Xβ=c′βE(c'\hat{\beta}) = a'X(X'X)^{-}X'Ey=a'X(X'X)^{-}X'X\beta=a'X\beta=c'\betaE(c′β^​)=a′X(X′X)−X′Ey=a′X(X′X)−X′Xβ=a′Xβ=c′β

说明c′β^c'\hat{\beta}c′β^​是可估函数cβc\betacβ的无偏估计。基于这些分析,我们可以自信地定义c′β^c'\hat{\beta}c′β^​为c′βc'\betac′β的OLS估计。OLS是具有唯一性的,但在回归那个系列我们讨论过,线性无偏估计不具有唯一性,但Gauss-Markov定理指出OLS估计是最优线性无偏估计(Best Linear Unbiased Estimator,BLUE):

Gauss-Markov定理 c′β^c'\hat{\beta}c′β^​是c′βc'\betac′β的BLUE。
证明 无偏性说明过了,下面讨论最优性(所有线性无偏估计中方差最小)。计算c′β^c'\hat{\beta}c′β^​的方差:
Var(c′β^)=Var(a′X(X′X)−X′y)=σ2a′X(X′X)−X′X(X′X)−X′a=σ2a′X(X′X)−X′a=σ2c′(X′X)−cVar(c'\hat{\beta}) = Var(a'X(X'X)^{-}X'y) =\sigma^2a'X(X'X)^{-}X'X(X'X)^{-}X'a \\= \sigma^2a'X(X'X)^{-}X'a = \sigma^2 c'(X'X)^{-}cVar(c′β^​)=Var(a′X(X′X)−X′y)=σ2a′X(X′X)−X′X(X′X)−X′a=σ2a′X(X′X)−X′a=σ2c′(X′X)−c

假设b′yb'yb′y是c′βc'\betac′β的另一个线性无偏估计,则E(b′y)=b′Xβ=c′βE(b'y)=b'X\beta=c'\betaE(b′y)=b′Xβ=c′β,也就是c=X′bc=X'bc=X′b,计算
Var(b′y)=σ2b′bVar(b'y) = \sigma^2b'bVar(b′y)=σ2b′b

考虑两个方差的差,
Var(b′y)−Var(c′β^)=σ2[b′b−c′(X′X)−c]=σ2[b′−c′(X′X)−][b−(X′X)−c]=σ2∥b−(X′X)−c∥≥0Var(b'y)-Var(c'\hat{\beta}) =\sigma^2[b'b-c'(X'X)^{-}c] \\ = \sigma^2[b'-c'(X'X)^{-}][b-(X'X)^{-}c]=\sigma^2 \left\| b-(X'X)^{-}c\right\| \ge 0Var(b′y)−Var(c′β^​)=σ2[b′b−c′(X′X)−c]=σ2[b′−c′(X′X)−][b−(X′X)−c]=σ2∥∥​b−(X′X)−c∥∥​≥0

所以OLS是BLUE。

方差的OLS估计

模型的残差为e=y−Xβ^=(I−PX)ye=y-X\hat{\beta}=(I-P_X)ye=y−Xβ^​=(I−PX​)y,其中PX=X(X′X)−X′P_X=X(X'X)^{-}X'PX​=X(X′X)−X′是到XXX列空间中的投影矩阵,可以计算
Ee^=(I−PX)Xβ=Xβ−X(X′X)−X′Xβ=0Cov(e^)=σ2(I−PX)(I−PX)′=σ2(I−PX)E\hat{e}=(I-P_X)X\beta=X\beta - X(X'X)^{-}X'X\beta=0 \\ Cov(\hat{e})=\sigma^2(I-P_X)(I-P_X)'=\sigma^2(I-P_X)Ee^=(I−PX​)Xβ=Xβ−X(X′X)−X′Xβ=0Cov(e^)=σ2(I−PX​)(I−PX​)′=σ2(I−PX​)

基于这个结果可以构造σ2\sigma^2σ2的无偏估计为
σ^2=e^′e^n−rank(X)\hat\sigma^2=\frac{\hat{e}'\hat{e}}{n-rank(X)}σ^2=n−rank(X)e^′e^​

证明
首先e^′e^=y′(I−PX)y\hat{e}'\hat{e}=y'(I-P_X)ye^′e^=y′(I−PX​)y,下面计算
E[e^′e^]=(Xβ)′(I−PX)+tr[(I−PX)Cov(y)]=σ2tr(I−PX)=σ2(n−rank(X))E[\hat{e}'\hat{e}]=(X\beta)'(I-P_X)+tr[(I-P_X)Cov(y)] \\=\sigma^2tr(I-P_X)=\sigma^2(n-rank(X))E[e^′e^]=(Xβ)′(I−PX​)+tr[(I−PX​)Cov(y)]=σ2tr(I−PX​)=σ2(n−rank(X))

第一行到第二行应用的第一个结论是(I−PX)X=0(I-P_X)X=0(I−PX​)X=0,用到的第二个结论是如果EX=μ,Cov(X)=ΣEX=\mu,Cov(X)=\SigmaEX=μ,Cov(X)=Σ,则
E[X′AX]=μ′Aμ+tr(AΣ)E[X'AX]=\mu'A\mu+tr(A\Sigma)E[X′AX]=μ′Aμ+tr(AΣ)

下面证明这个恒等式。计算
X′AX=(X−μ+μ)′A(X−μ+μ)=(X−μ)′A(X−μ)+μ′A(X−μ)+(X−μ)′Aμ+μ′AμX'AX=(X-\mu+\mu)'A(X-\mu+\mu) \\ = (X-\mu)'A(X-\mu)+\mu'A(X-\mu)+(X-\mu)'A\mu+\mu'A\muX′AX=(X−μ+μ)′A(X−μ+μ)=(X−μ)′A(X−μ)+μ′A(X−μ)+(X−μ)′Aμ+μ′Aμ

接下来求期望,
E[μ′A(X−μ)]=E[μ′AX]−μ′Aμ=0E[\mu'A(X-\mu)]=E[\mu'AX]-\mu'A\mu=0E[μ′A(X−μ)]=E[μ′AX]−μ′Aμ=0

类似的,第三项的期望也为0,计算第一项的期望,
E[(X−μ)′A(X−μ)]=Etr[(X−μ)′A(X−μ)]=Etr[A(X−μ)(X−μ)′]=trAE[(X−μ)(X−μ)′]=tr(AΣ)E[(X-\mu)'A(X-\mu)]=Etr[(X-\mu)'A(X-\mu)] \\ = Etr[A(X-\mu)(X-\mu)'] = trAE[(X-\mu)(X-\mu)'] = tr(A\Sigma)E[(X−μ)′A(X−μ)]=Etr[(X−μ)′A(X−μ)]=Etr[A(X−μ)(X−μ)′]=trAE[(X−μ)(X−μ)′]=tr(AΣ)

这就完成了整个证明。在回归那个系列给出过另一种证明,但思路类似,都是把数量用trace表示,在利用trace中矩阵乘法满足交换律的技巧。

正态线性模型与UMVUE

需要注意的是OLS对随机误差的分布形式是没有要求的,只有当我们试图对OLS估计量做统计推断的时候,我们才需要考虑随机误差的分布形式。这是OLS与MLE一个很大的区别,MLE为了获得估计量就需要在一开始引入某种特定的分布,再去最大化给定数据在这种分布下的似然。

现在假设随机误差服从正态分布,则OLS有一些优越的性质,这些性质在MATH 564、566、571A的博客中都有过证明了,所以这里就简单归纳一下:

  1. OLS也是MLE,且c′β^∼N(c′β,σ2c′(X′X)−c)c'\hat{\beta} \sim N(c'\beta,\sigma^2c'(X'X)^{-}c)c′β^​∼N(c′β,σ2c′(X′X)−c)
  2. σ2\sigma^2σ2的MLE是e^′e^/n\hat{e}'\hat{e}/ne^′e^/n,且(n−rank(X))σ^2∼σ2χn−rank(X)2(n-rank(X))\hat{\sigma}^2\sim \sigma^2 \chi^2_{n-rank(X)}(n−rank(X))σ^2∼σ2χn−rank(X)2​
  3. c′β^c'\hat{\beta}c′β^​与σ^2\hat{\sigma}^2σ^2互相独立
  4. c′β^c'\hat{\beta}c′β^​是唯一的UMVUE

UA STAT687 线性模型II 最小二乘理论1 普通最小二乘法相关推荐

  1. UA STAT687 线性模型II 最小二乘理论3 广义最小二乘

    UA STAT687 线性模型II 最小二乘理论3 广义最小二乘 GLS GLS的统计性质 GLS 这一讲我们放松对随机误差的方差形式的假设,考虑模型 y=Xβ+ϵ,Eϵ=0,Cov(ϵ)=σ2Σ&g ...

  2. UA STAT687 线性模型II 最小二乘理论2 约束最小二乘估计

    UA STAT687 线性模型II 最小二乘理论2 约束最小二乘估计 约束最小二乘估计的求解 数值计算的思路 系数估计量的解析式 约束最小二乘估计的统计性质 约束最小二乘估计的求解 在线性模型y=Xβ ...

  3. UA STAT687 线性模型理论I 线性模型概述

    UA STAT687 线性模型理论I 线性模型概述 线性回归 One-way ANOVA Two-way ANOVA Nested Design Cross Design ANCOVA 线性模型是统计 ...

  4. UA MATH523A 实分析3 积分理论 概念与定理整理

    UA MATH523A 实分析3 积分理论 概念与定理整理 可测函数 非负可测函数的积分 一般可测函数的积分 可测函数列的收敛 Folland实分析第二章是积分理论,目标是建立Lebesgue积分以及 ...

  5. UA MATH523A 实分析3 积分理论16 截口与单调类、特征函数的Fubini定理

    UA MATH523A 实分析3 积分理论16 截口与单调类.特征函数的Fubini定理 上一讲我们建立了乘积测度,接下来我们要在乘积测度空间(X×Y,M⊗N,μ×ν)(X \times Y,\mat ...

  6. UA MATH523A 实分析3 积分理论例题 集合的特征函数L2收敛的条件

    UA MATH523A 实分析3 积分理论例题 集合的特征函数L2收敛的条件 例 假设{En}\{E_n\}{En​}是一个有限测度空间(X,M,μ)(X,\mathcal{M},\mu)(X,M,μ ...

  7. UA MATH523A 实分析3 积分理论例题 证明函数列L1收敛的一个题目

    UA MATH523A 实分析3 积分理论例题 证明函数列L1收敛的一个题目 例 假设fnf_nfn​在[0,1][0,1][0,1]上绝对连续,fn(0)=0,∀n≥1f_n(0)=0,\foral ...

  8. UA MATH523A 实分析3 积分理论例题 Fubini定理计算简单二重积分的一个例题

    UA MATH523A 实分析3 积分理论例题 Fubini定理计算简单二重积分的一个例题 例 f∈L1([0,1])f \in L^1([0,1])f∈L1([0,1]), define h(x)= ...

  9. UA MATH523A 实分析3 积分理论例题 判断函数可积性的一个题目

    UA MATH523A 实分析3 积分理论例题 判断函数可积性的一个题目 例 (X,M,μ)(X,\mathcal{M},\mu)(X,M,μ)是一个测度空间,fff是定义在(X,M,μ)(X,\ma ...

  10. UA MATH523A 实分析3 积分理论例题 一个测度与积分的综合计算题

    UA MATH523A 实分析3 积分理论例题 一个测度与积分的综合计算题 例 EnE_nEn​是一列[0,1][0,1][0,1]上的Lebesgue可测集,∃k∈[0,1]\exists k \i ...

最新文章

  1. 第47课 称心如意的输入 《小学生C++趣味编程》
  2. Ubuntu 14.04/14.10下安装VMware Workstation 11图文教程
  3. python输入多组数据_Python3算法类多组数据输入输出格式
  4. 拓端tecdat|R语言分段线性回归分析预测车辆的制动距离
  5. java的demo打印功能_java实现打印功能demo
  6. webstorm 破解方法(100%好使)
  7. Centos7安装snmpwalk工具
  8. ppc手机用蓝牙和电脑同步上网设置教程
  9. 科普:智能电话机器人语音识别技术
  10. [NISACTF 2022]
  11. ftp客户端软件,Windows端有哪些ftp客户端软件值得推荐?3款ftp客户端软件
  12. 蓝桥 超级玛丽 JAVA
  13. 低碳环保+变废为宝=马铃薯淀粉生产废水处理设备
  14. iOS9请求https问题-记录
  15. SQL SERVER | 错误处理 INSERT 语句与 FOREIGN KEY SAME TABLE 约束“FK__Course__Cpno__276EDEB3“冲突。(补充)
  16. 实验一. RFID自动读卡实验
  17. 多亏了这些Word技巧,我才能15分钟完成所有工作!真是6到飞起
  18. 罗彻斯特大学计算机科学系专业排名,罗切斯特大学计算机科学系
  19. Python计算限制性核酸内切酶切割后的核酸片段及其片段分子量
  20. Adreno GPU上的DirectX应用开发简介 (4)

热门文章

  1. 小程序对接腾讯云IM即时聊天
  2. 简单梳理RAID算法
  3. Linux虚拟机配置防火墙和软件安装限制
  4. elisa标准曲线怎么做_如何拟合Elisa标准曲线
  5. 无穷级数求和7个公式_这些的公式是怎么得到的?
  6. Blockchain:区块链入门课程 -- 什么是区块链?
  7. AVA SE java基础 评委打分案例
  8. C语言社区水电费管理系统,C语言水电费管理系统.doc
  9. Windows防火墙设置
  10. 渠道对账及差错处理系统设计