计量笔记(二) | OLS估计量性质

上文中《计量笔记(一) | OLS估计量推导》我们通过基本公式和矩阵形式两种方式推导出了OLS估计量的表达式，那么OLS估计量有什么优良性质呢？

在线性模型的经典假设的前提下，OLS估计量有优良的性质，即高斯-马尔可夫定理

经典假设

1、零均值假定

假定随机干扰项ε\pmb{\varepsilon}εεε期望向量或均值向量为零
E(ε)=E[ε1ε2⋮εn]=[E(ε1)E(ε2)⋮E(εn)]=[00⋮0]=0E(\pmb{\varepsilon})= E \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix} =\begin{bmatrix} E(\varepsilon_1) \\ E(\varepsilon_2) \\ \vdots \\ E(\varepsilon_n) \end{bmatrix} =\begin{bmatrix} 0 \\ 0 \\ \vdots\\ 0 \end{bmatrix} =\pmb{0}E(εεε)=E⎣⎢⎢⎢⎡ε1ε2⋮εn⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡E(ε1)E(ε2)⋮E(εn)⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡00⋮0⎦⎥⎥⎥⎤=000
2、同方差和无序列相关假定

假定随机干扰项ε\pmb{\varepsilon}εεε不存在序列相关且方差相同

这里推导过程中使用了零均值假定
Var(ε)=E[(ε−E(ε)(ε−E(ε)τ]=E(εετ)=E[(ε1ε2⋮εn)(ε1ε2⋯εn)]=[E(ε1,ε1)E(ε1,ε2)⋯E(ε1,εn)E(ε2,ε1)E(ε2,ε2)⋯E(ε2,εn)⋮⋮⋮⋮E(εn,ε1)E(εn,ε2)⋯E(εn,εn)]=[σ20⋯00σ2⋯0⋮⋮⋮⋮00⋯σ2]=σ2In\begin{aligned} Var(\pmb{\varepsilon}) & = E[(\pmb{\varepsilon}-E(\pmb{\varepsilon})(\pmb{\varepsilon}-E(\pmb{\varepsilon})^{\tau}] \\ & = E(\pmb{\varepsilon}\pmb{\varepsilon}^{\tau}) \\ & = E\begin{bmatrix} \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix} \begin{pmatrix} \varepsilon_1 & \varepsilon_2 & \cdots & \varepsilon_n \end{pmatrix} \end{bmatrix} \\ & = \begin{bmatrix} E(\varepsilon_1,\varepsilon_1) & E(\varepsilon_1,\varepsilon_2) & \cdots & E(\varepsilon_1,\varepsilon_n) \\ E(\varepsilon_2,\varepsilon_1) & E(\varepsilon_2,\varepsilon_2) & \cdots & E(\varepsilon_2,\varepsilon_n) \\ \vdots & \vdots & \vdots & \vdots \\ E(\varepsilon_n,\varepsilon_1) & E(\varepsilon_n,\varepsilon_2) & \cdots & E(\varepsilon_n,\varepsilon_n) \end{bmatrix} \\ & = \begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix} \\ & = \sigma^2\pmb{I}_n \end{aligned} Var(εεε)=E[(εεε−E(εεε)(εεε−E(εεε)τ]=E(εεεεεετ)=E⎣⎢⎢⎢⎡⎝⎜⎜⎜⎛ε1ε2⋮εn⎠⎟⎟⎟⎞(ε1ε2⋯εn)⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡E(ε1,ε1)E(ε2,ε1)⋮E(εn,ε1)E(ε1,ε2)E(ε2,ε2)⋮E(εn,ε2)⋯⋯⋮⋯E(ε1,εn)E(ε2,εn)⋮E(εn,εn)⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡σ20⋮00σ2⋮0⋯⋯⋮⋯00⋮σ2⎦⎥⎥⎥⎤=σ2IIIn

3、随机干扰项与解释变量相互独立假定

直观理解是干扰项中不包含解释变量的信息

通常假定XXX中的元素X2,i,X3,i,⋯,Xk,iX_{2,i},X_{3,i},\cdots,X_{k,i}X2,i,X3,i,⋯,Xk,i为非随机变量，这个假设自动成立
E(Xτε)=0E(X^{\tau}\pmb{\varepsilon})=\pmb{0} E(Xτεεε)=000
4、无多重共线性假定

各解释变量之间不存在线性关系

即数据矩阵XXX列满秩
Rank(X)=kRank(X)=k Rank(X)=k
5、正态性假定

假定随机干扰项服从正态分布

以下方式表示包括了假定1、假定2、假定5
ε−N(0,σ2In)\pmb{\varepsilon} - N(\pmb{0},\sigma^2\pmb{I}_n) εεε−N(000,σ2IIIn)
OLS估计量性质

高斯-马尔可夫定理：在线性模型的经典假设下，参数的最小二乘估计量是线性无偏估计量中方差最小的估计量（BLUE估计量）

1、线性特性

参数估计量β^\pmb{\hat{\beta}}β^β^β^既是因变量观测值YYY的线性组合，也是随机误差项ε\pmb{\varepsilon}εεε的线性组合
β^=(XτX)−1XτY=(XτX)−1Xτ(Xβ+ε)=(XτX)−1XτXβ+(XτX)−1Xτε=β+(XτX)−1Xτε\begin{aligned} \pmb{\hat\beta} & = (X^{\tau}X)^{-1}X^{\tau}Y \\ & = (X^{\tau}X)^{-1}X^{\tau}(X \pmb{\beta} + \pmb{\varepsilon}) \\ & = (X^{\tau}X)^{-1}X^{\tau}X \pmb{\beta} + (X^{\tau}X)^{-1}X^{\tau}\pmb{\varepsilon} \\ & = \pmb{\beta} + (X^{\tau}X)^{-1}X^{\tau}\pmb{\varepsilon} \end{aligned} β^β^β^=(XτX)−1XτY=(XτX)−1Xτ(Xβββ+εεε)=(XτX)−1XτXβββ+(XτX)−1Xτεεε=βββ+(XτX)−1Xτεεε
这里推导未使用任何假定，令A=(XτX)−1XτA=(X^{\tau}X)^{-1}X^{\tau}A=(XτX)−1Xτ，则β^=AY=β+Aε\pmb{\hat\beta} =AY=\pmb{\beta} + A\pmb{\varepsilon}β^β^β^=AY=βββ+Aεεε

其中，矩阵AAA由kkk行nnn列元素构成，kkk指解释变量个数包括截距项，nnn是指观测值个数

对于某个参数β^k\hat\beta_kβ^k是矩阵AAA的kkk行元素构成的行向量与因变量观测值YYY的向量积

线性特性是确定参数估计量的分布性质和进行统计推断的重要基础

2、无偏性

参数估计量β^\pmb{\hat{\beta}}β^β^β^的期望等于总体参数
E(β^)=E(β+Aε)=E(β)+AE(ε)=β\begin{aligned} E(\pmb{\hat\beta}) & = E(\pmb{\beta} + A\pmb{\varepsilon}) \\ & = E(\pmb{\beta}) + AE(\pmb{\varepsilon}) \\ & = \pmb{\beta} \end{aligned} E(β^β^β^)=E(βββ+Aεεε)=E(βββ)+AE(εεε)=βββ
这里用到了线性特性、假定1、假定3

3、方差最小性

OLS估计量的有效性，也称为“最小方差性”，即在模型参数的所有线性无偏估计量中OLS估计的方差最小

先求OLS估计量的协方差矩阵
Var(β^)=E[(β^−E(β^))(β^−E(β^))τ]=E[(β^−β)(β^−β)τ]=E[(Aε)(Aε)τ]=E[AεετAτ]=AE(εετ)Aτ=Aσ2InAτ=σ2AAτ=σ2(XτX)−1XτX(XτX)−1=σ2(XτX)−1\begin{aligned} Var(\pmb{\hat\beta}) & = E[(\pmb{\hat\beta}-E(\pmb{\hat\beta}))(\pmb{\hat\beta}-E(\pmb{\hat\beta}))^{\tau}] \\ & = E[(\pmb{\hat\beta}-\pmb{\beta})(\pmb{\hat\beta}-\pmb{\beta})^{\tau}] \\ & = E[(A\pmb{\varepsilon})(A\pmb{\varepsilon})^{\tau}] \\ & = E[A\pmb{\varepsilon}\pmb{\varepsilon}^{\tau}A^{\tau}] \\ & = AE(\pmb{\varepsilon}\pmb{\varepsilon}^{\tau})A^{\tau} \\ & = A\sigma^2\pmb{I}_nA^{\tau} \\ & = \sigma^2AA^{\tau} \\ & = \sigma^2(X^{\tau}X)^{-1}X^{\tau}X(X^{\tau}X)^{-1} \\ & = \sigma^2(X^{\tau}X)^{-1} \end{aligned} Var(β^β^β^)=E[(β^β^β^−E(β^β^β^))(β^β^β^−E(β^β^β^))τ]=E[(β^β^β^−βββ)(β^β^β^−βββ)τ]=E[(Aεεε)(Aεεε)τ]=E[AεεεεεετAτ]=AE(εεεεεετ)Aτ=Aσ2IIInAτ=σ2AAτ=σ2(XτX)−1XτX(XτX)−1=σ2(XτX)−1
这里因为(XτX)−1(X^{\tau}X)^{-1}(XτX)−1是对称矩阵，所以它的转置还是它本身，所以Aτ=X(XτX)−1A^{\tau}=X(X^{\tau}X)^{-1}Aτ=X(XτX)−1

这里用到无偏性、线性特性、假定3、假定2

接下来就要证明上述OLS估计量的协方差矩阵是所有线性无偏估计量的协方差矩阵中是最小的（省略）

参数的OLS估计量β^\pmb{\hat{\beta}}β^β^β^的分布形式

我们在证明OLS估计量具有最佳线性无偏估计量性质的过程中仅使用了假定1、假定2、假定3，未使用到假定4和假定5，并且在证明过程中，我们也知道了OLS估计量的均值和方差，如果我们进一步知道OLS估计量分布形式，就可以进行统计推断了

根据假定5，可以推导出参数的OLS估计量β^\pmb{\hat{\beta}}β^β^β^也是服从正态分布的

根据线性特性β^=AY=β+Aε\pmb{\hat\beta} =AY=\pmb{\beta} + A\pmb{\varepsilon}β^β^β^=AY=βββ+Aεεε，说明参数的OLS估计量β^\pmb{\hat{\beta}}β^β^β^是随机误差项ε\pmb{\varepsilon}εεε的线性组合，而根据假定5随机误差项ε\pmb{\varepsilon}εεε服从正态分布，所以参数的OLS估计量β^\pmb{\hat{\beta}}β^β^β^也服从正态分布

因为E(β^)=βE(\pmb{\hat\beta})=\pmb{\beta}E(β^β^β^)=βββ，Var(β^)=σ2(XτX)−1Var(\pmb{\hat\beta}) =\sigma^2(X^{\tau}X)^{-1}Var(β^β^β^)=σ2(XτX)−1，所以参数的OLS估计量β^\pmb{\hat{\beta}}β^β^β^正态分布形式为
β^−N(β,σ2(XτX)−1)\pmb{\hat\beta}-N(\pmb{\beta},\sigma^2(X^{\tau}X)^{-1}) β^β^β^−N(βββ,σ2(XτX)−1)
对于具体的某个估计量bj^\hat{b_j}bj^的分布形式为bj^−N(bj,σ2((XτX)−1)jj)\hat{b_j}-N(b_j,\sigma^2((X^{\tau}X)^{-1})_{jj})bj^−N(bj,σ2((XτX)−1)jj)

随机误差项方差的估计

前文推导过程中，我们求出了参数的OLS估计量β^\pmb{\hat{\beta}}β^β^β^的具体数值，β^=(XτX)−1XτY\pmb{\hat\beta} = (X^{\tau}X)^{-1}X^{\tau}Yβ^β^β^=(XτX)−1XτY，我们求出了参数的OLS估计量β^\pmb{\hat{\beta}}β^β^β^的期望和方差，E(β^)=βE(\pmb{\hat\beta})=\pmb{\beta}E(β^β^β^)=βββ，Var(β^)=σ2(XτX)−1Var(\pmb{\hat\beta}) =\sigma^2(X^{\tau}X)^{-1}Var(β^β^β^)=σ2(XτX)−1，我们甚至求出了参数的OLS估计量β^\pmb{\hat{\beta}}β^β^β^的分布形式，β^−N(β,σ2(XτX)−1)\pmb{\hat\beta}-N(\pmb{\beta},\sigma^2(X^{\tau}X)^{-1})β^β^β^−N(βββ,σ2(XτX)−1)

但是，不难发现，上述表达式中，始终有个随机误差项的方差σ2\sigma^2σ2的取值我们不得而知，事实上我们也无法计算，因为我们不知道总体回归模型和总体样本是如何

但是，我们可以对σ2\sigma^2σ2进行估计，若计
σ^2=∑ei2n−k\hat{\sigma}^2= \frac{\sum{e_i^2}}{n-k} σ^2=n−k∑ei2
可以证明，E(σ^2)=σ2E(\hat{\sigma}^2)=\sigma^2E(σ^2)=σ2，证明省略

那么，对于具体的某个估计量bj^\hat{b_j}bj^的分布形式为bj^−N(bj,σ^2((XτX)−1)jj)\hat{b_j}-N(b_j,\hat\sigma^2((X^{\tau}X)^{-1})_{jj})bj^−N(bj,σ^2((XτX)−1)jj)

参考资料
[1]朱建平等，高级计量经济学导论
[2]孙敬水，中级计量经济学

计量笔记(二) | OLS估计量性质相关推荐

【凸优化笔记二】凸函数基本性质和例子
[凸优化笔记二]凸函数基本性质和例子凸函数的四个定义定义一定义二定义三定义四一些栗子凸函数的四个定义定义一其中 dom fff 是函数 fff 的定义域(前域),为凸集--这个很重 ...
MATLAB学习笔记——二维和三维绘图
MATLAB学习笔记--二维和三维绘图近期练习matlab的二维和三维绘图,整理一下,以防忘记. 文章目录 MATLAB学习笔记--二维和三维绘图一.二维绘图 1.plot命令 2.fplot 命 ...
python多元线性回归mlr 校正_多元线性回归模型满足假定 MLR.1 ~假定 MLR.4 时 , 回归参数的 OLS 估计量是的。_学小易找答案...
[填空题]任务5-1的照明回路WL4的管内穿线BV-2.5的安装工程量是()m [单选题]必须认识到,我国社会主要矛盾的变化,没有改变我们对我国社会主义所处历史阶段的判断,我国仍处于并将长期处于___ ...
qml学习笔记(二)：可视化元素基类Item详解（上半场anchors等等）
原博主博客地址:http://blog.csdn.net/qq21497936 本文章博客地址:http://blog.csdn.net/qq21497936/article/details/7851 ...
oracle直查和call哪个更快,让oracle跑的更快1读书笔记二
当前位置:我的异常网» 数据库 » <>读书笔记二 <>读书笔记二 www.myexceptions.net 网友分享于:2013-08-23 浏览:9次 <> ...
【Visual C++】游戏开发笔记二十七 Direct3D 11入门级知识介绍
游戏开发笔记二十七 Direct3D 11入门级知识介绍作者:毛星云邮箱: happylifemxy@163.com 期待着与志同道合的朋友们相互交流上一节里我们介绍了在迈入Dire ...
[转载]dorado学习笔记(二)
原文地址:dorado学习笔记(二)作者:傻掛 ·isFirst, isLast在什么情况下使用?在遍历dataset的时候会用到 ·dorado执行的顺序,首先由jsp发送请求,调用相关的ViewM ...
PyTorch学习笔记(二)——回归
PyTorch学习笔记(二)--回归本文主要是用PyTorch来实现一个简单的回归任务. 编辑器:spyder 1.引入相应的包及生成伪数据 import torch import torch.nn ...
tensorflow学习笔记二——建立一个简单的神经网络拟合二次函数
tensorflow学习笔记二--建立一个简单的神经网络 2016-09-23 16:04 2973人阅读评论(2) 收藏举报分类: tensorflow(4) 目录(?)[+] 本笔记目的 ...
趣谈网络协议笔记-二（第十九讲）
趣谈网络协议笔记-二(第十九讲) HttpDNS:网络世界的地址簿也会指错路自勉勿谓言之不预也 -- 向为祖国牺牲的先烈致敬! 引用 dns缓存刷新时间是多久?dns本地缓存时间介绍 - 东大网管 ...

计量笔记(二) | OLS估计量性质

计量笔记(二) | OLS估计量性质相关推荐

最新文章

热门文章