文章目录

  • 矩阵形式的线性回归模型
    • 模型设定与最小二乘估计
    • 基本假定
    • 统计性质
    • 统计推断

矩阵形式的线性回归模型

模型设定与最小二乘估计

利用矩阵形式推导多元线性回归模型的解,其思想主要来源于线性方程组和矩阵形式的相互转化。而线性方程组则来源于样本观测数据,首先我们假设总体模型的设定:
y = β 0 + β 1 x 1 + ⋯ + β k x k + u . y=\beta_0+\beta_1x_1+\cdots+\beta_kx_k+u \ . y=β0​+β1​x1​+⋯+βk​xk​+u .
用 n n n 表示样本容量,我们可以把来自总体的每一次观测样本写成一个方程:
{ y 1 = β 0 + β 1 x 11 + ⋯ + β k x 1 k + u 1 , y 2 = β 0 + β 1 x 21 + ⋯ + β k x 2 k + u 2 , ⋮ ⋮ y n = β 0 + β 1 x n 1 + ⋯ + β k x n k + u n , \left\{ \begin{array}{l} y_1=\beta_0+\beta_1x_{11}+\cdots+\beta_kx_{1k}+u_1\ , \\ y_2=\beta_0+\beta_1x_{21}+\cdots+\beta_kx_{2k}+u_2\ , \\ \ \vdots \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \vdots \\ y_n=\beta_0+\beta_1x_{n1}+\cdots+\beta_kx_{nk}+u_n\ , \\ \end{array} \right. ⎩⎪⎪⎪⎨⎪⎪⎪⎧​y1​=β0​+β1​x11​+⋯+βk​x1k​+u1​ ,y2​=β0​+β1​x21​+⋯+βk​x2k​+u2​ , ⋮                                ⋮yn​=β0​+β1​xn1​+⋯+βk​xnk​+un​ ,​
定义如下的数据向量和矩阵:
Y = [ y 1 y 2 ⋮ y n ] , X = [ 1 x 11 x 12 ⋯ x 1 k 1 x 21 x 22 ⋯ x 2 k ⋮ ⋮ ⋮ ⋮ 1 x n 1 x n 2 ⋯ x n k ] , β = [ β 1 β 2 ⋮ β k ] , μ = [ u 1 u 2 ⋮ u n ] . \boldsymbol{Y}=\left[ \begin{array}{c} y_1 \\ y_2 \\ \vdots \\ y_n \\ \end{array} \right] \ ,\ \ \ \ \boldsymbol{X}=\left[ \begin{array}{ccccc} 1 & x_{11} & x_{12} & \cdots & x_{1k} \\ 1 & x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{nk} \\ \end{array} \right] \ , \ \ \ \ \boldsymbol\beta=\left[ \begin{array}{c} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \\ \end{array} \right] \ ,\ \ \ \ \boldsymbol\mu=\left[ \begin{array}{c} u_1 \\ u_2 \\ \vdots \\ u_n \\ \end{array} \right] \ . Y=⎣⎢⎢⎢⎡​y1​y2​⋮yn​​⎦⎥⎥⎥⎤​ ,    X=⎣⎢⎢⎢⎡​11⋮1​x11​x21​⋮xn1​​x12​x22​⋮xn2​​⋯⋯⋯​x1k​x2k​⋮xnk​​⎦⎥⎥⎥⎤​ ,    β=⎣⎢⎢⎢⎡​β1​β2​⋮βk​​⎦⎥⎥⎥⎤​ ,    μ=⎣⎢⎢⎢⎡​u1​u2​⋮un​​⎦⎥⎥⎥⎤​ .

其中 Y \boldsymbol{Y} Y 表示被解释变量的观测数据的 n × 1 n\times1 n×1 向量, X \boldsymbol{X} X 表示解释变量的观测数据的 n × ( k + 1 ) n\times(k+1) n×(k+1) 矩阵, β \boldsymbol\beta β 表示所有参数的 ( k + 1 ) × 1 (k+1)\times1 (k+1)×1 向量, μ \boldsymbol\mu μ 表示观测不到的误差项 n × 1 n\times1 n×1 向量。

于是,我们可以将带有 n n n 个观测样本的总体回归模型写成矩阵形式:
Y = X β + μ . \boldsymbol{Y}=\boldsymbol{X\beta}+\boldsymbol{\mu} \ . Y=Xβ+μ .
和一元模型类似,想要求解 β \boldsymbol{\beta} β 的最小二乘估计,还是从最小化残差平方和开始。设 μ \boldsymbol\mu μ 的估计值(即残差向量)为 μ ^ = e \hat{\boldsymbol\mu}=\boldsymbol{e} μ^​=e ,首先定义残差平方和:
S S R = ∑ i = 1 n e i 2 = e T e = ( Y − X β ^ ) T ( Y − X β ^ ) {\rm SSR}=\sum_{i=1}^n e_i^2=\boldsymbol{e}^{\rm T}\boldsymbol{e}=\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)^{\rm T}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right) SSR=i=1∑n​ei2​=eTe=(Y−Xβ^​)T(Y−Xβ^​)
满足最小化残差平方和的 β ^ \hat{\boldsymbol\beta} β^​ 一定满足一阶条件:
∂ S S R ∂ β ^ = ∂ ∂ β ^ ( Y − X β ^ ) T ( Y − X β ^ ) = ∂ ∂ β ^ ( Y T Y − β ^ T X T Y − Y T X β ^ + β ^ T X T X β ^ ) = 2 ( X T X β ^ − X T Y ) = 0 , \begin{aligned} \frac{\partial{\rm SSR}}{\partial\hat{\boldsymbol\beta}} &=\frac{\partial}{\partial\hat{\boldsymbol\beta}}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)^{\rm T}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right) \\ &=\frac{\partial}{\partial\hat{\boldsymbol\beta}}\left(\boldsymbol{Y}^{\rm T}\boldsymbol{Y}-\hat{\boldsymbol\beta}^{\rm T}\boldsymbol{X}^{\rm T}\boldsymbol{Y}-\boldsymbol{Y}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}+\hat{\boldsymbol\beta}^{\rm T}\boldsymbol{X}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}\right) \\ &=2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}-\boldsymbol{X}^{\rm T}\boldsymbol{Y} \right)=0 \ , \end{aligned} ∂β^​∂SSR​​=∂β^​∂​(Y−Xβ^​)T(Y−Xβ^​)=∂β^​∂​(YTY−β^​TXTY−YTXβ^​+β^​TXTXβ^​)=2(XTXβ^​−XTY)=0 ,​
当 X T X \boldsymbol{X}^{\rm T}\boldsymbol{X} XTX 可逆时,求解一阶条件即可得到
β ^ = ( X T X ) − 1 X T Y . \hat{\boldsymbol\beta}=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} \ . β^​=(XTX)−1XTY .
此时我们可以计算出 OLS 拟合值和残差的 n × 1 n\times1 n×1 向量
Y ^ = X β ^ = X ( X T X ) − 1 X T Y , \hat{\boldsymbol{Y}}=\boldsymbol{X}\hat{\boldsymbol\beta}=\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} \ , Y^=Xβ^​=X(XTX)−1XTY ,

e = Y − Y ^ = Y − X β ^ . \boldsymbol{e}=\boldsymbol{Y}-\hat{\boldsymbol{Y}}=\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol{\beta}} \ . e=Y−Y^=Y−Xβ^​ .

基本假定

接下来我们想要利用矩阵形式来推导 OLS 估计的期望和方差。在这之前我们需要对模型提出基本假设,以保证 OLS 估计的可行性和合理性。

假定 1:线性于参数

总体回归模型可以写成: Y = X β + μ \boldsymbol{Y}=\boldsymbol{X\beta}+\boldsymbol{\mu} Y=Xβ+μ ,其中 Y \boldsymbol{Y} Y 和 β \boldsymbol{\beta} β 是线性关系。

假定 2:不存在完全共线性

矩阵 X X X 的秩为 k + 1 k+1 k+1 。

这是对解释变量之间不存在线性相关假定的严格定义。在该假定成立的情况下, X T X \boldsymbol{X}^{\rm T}\boldsymbol{X} XTX 是非奇异的(即可逆),有 r ( X T X ) = k + 1 {\rm r}(\boldsymbol{X}^{\rm T}\boldsymbol{X})=k+1 r(XTX)=k+1 ,此时 β ^ \hat{\boldsymbol{\beta}} β^​ 是唯一的解。

假定 3:零条件均值

以整个矩阵 X \boldsymbol{X} X 为条件,每个 u i u_i ui​ 的均值都为 0 0 0 :
E ( u i ∣ X ) = 0 , i = 1 , 2 , ⋯ , n , {\rm E}(u_i|\boldsymbol{X})=0 \ , \ \ \ \ i=1,2,\cdots,n \ , E(ui​∣X)=0 ,    i=1,2,⋯,n ,

该假定可以写成向量形式: E ( μ ∣ X ) = 0 {\rm E}(\boldsymbol{\mu}|\boldsymbol{X})=0 E(μ∣X)=0 ,对应于多元回归模型的随机抽样假定 MLR.2 和零条件均值假定 MLR.4 。

假定 4:同方差和不存在序列相关

(1) V a r ( u i ∣ X ) = σ 2 , i = 1 , 2 , ⋯ , n {\rm Var}(u_i|\boldsymbol{X})=\sigma^2 \ ,\ \ i=1,2,\cdots,n Var(ui​∣X)=σ2 ,  i=1,2,⋯,n ;

(2) C o v ( u i , u j ∣ X ) = 0 {\rm Cov}(u_i,\,u_j|\boldsymbol{X})=0 Cov(ui​,uj​∣X)=0 对任意的 i ≠ j i\neq j i​=j 成立。

该假定又被称为球型扰动假定。若随机干扰项满足该假设,则称该模型具有球形扰动项。可以写作矩阵形式: V a r ( μ ∣ X ) = σ 2 I n {\rm Var}(\boldsymbol\mu|\boldsymbol{X})=\sigma^2\boldsymbol{I}_n Var(μ∣X)=σ2In​ ,其中 I n \boldsymbol{I}_n In​ 为 n × n n\times n n×n 单位矩阵。

假定 5:正态性假定

以 X \boldsymbol{X} X 为条件, u i u_i ui​ 服从独立同分布的 N ( 0 , σ 2 ) N(0,\,\sigma^2) N(0,σ2) , i = 1 , 2 , ⋯ , n i=1,2,\cdots,n i=1,2,⋯,n 。

用矩阵形式表示为:给定 X \boldsymbol{X} X ,随机干扰项 μ \boldsymbol{\mu} μ 服从均值为 0 0 0 和方差-协方差矩阵为 σ 2 I n \sigma^2\boldsymbol{I}_n σ2In​ 的多元正态分布
μ ∣ X ∼ N ( 0 , σ 2 I n ) . \boldsymbol{\mu}|\boldsymbol{X}\sim N(\boldsymbol{0},\,\sigma^2\boldsymbol{I}_n) \ . μ∣X∼N(0,σ2In​) .

正态性假定是对模型的随机干扰项施加的最强的假设。在正态性假定下,对于所有的观测 i i i ,每个 u i u_i ui​ 都独立于解释变量。在时间序列数据中,实质上是一个严格外生性假设,我们在时间序列的部分进行介绍。

统计性质

在一元和多元回归模型中,我们都曾给出了 OLS 估计量具有 BLUE 的性质,但当时我们并没有对所有的统计性质进行推导证明。基于以上基本假定,我们可以利用矩阵运算的优良性质来推导 OLS 估计的统计性质。

定理 1:OLS 的无偏性

在假定 1 至假定 3 的条件下,OLS 估计量 β ^ \hat{\boldsymbol\beta} β^​ 是 β \boldsymbol\beta β 的无偏估计。

证明:首先通过运算将 β \boldsymbol\beta β 从估计量 β ^ \hat{\boldsymbol\beta} β^​ 中分离出来,然后对剩余部分利用零条件均值假定。
β ^ = ( X T X ) − 1 X T Y = ( X T X ) − 1 X T ( X β + μ ) = ( X T X ) − 1 X T X β + ( X T X ) − 1 X T μ = β + ( X T X ) − 1 X T μ . \begin{aligned} \hat{\boldsymbol\beta}&=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\left(\boldsymbol{X\beta}+\boldsymbol{\mu}\right) \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu} \\ &=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu} \ . \end{aligned} β^​​=(XTX)−1XTY=(XTX)−1XT(Xβ+μ)=(XTX)−1XTXβ+(XTX)−1XTμ=β+(XTX)−1XTμ .​
对上式以 X \boldsymbol{X} X 为条件取条件期望:
E ( β ^ ∣ X ) = E [ β + ( X T X ) − 1 X T μ ∣ X ] = β + ( X T X ) − 1 X T ⋅ E ( μ ∣ X ) = β . {\rm E}(\hat{\boldsymbol\beta}\big|\boldsymbol{X})={\rm E}\left[\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\big|\boldsymbol{X}\right]=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot{\rm E}\left(\boldsymbol\mu|\boldsymbol{X}\right)=\boldsymbol{\beta} \ . E(β^​∣∣​X)=E[β+(XTX)−1XTμ∣∣​X]=β+(XTX)−1XT⋅E(μ∣X)=β .

定理 2:OLS 估计量的协方差矩阵

在假定 1 至假定 4 的条件下, V a r ( β ^ ) = σ 2 ( X T X ) − 1 {\rm Var}(\hat{\boldsymbol\beta})=\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} Var(β^​)=σ2(XTX)−1 。

证明:利用无偏性证明中的结论: β ^ = β + ( X T X ) − 1 X T μ \hat{\boldsymbol{\beta}}=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu} β^​=β+(XTX)−1XTμ ,取条件方差得
V a r ( β ^ ∣ X ) = V a r ( β + ( X T X ) − 1 X T μ ) = ( X T X ) − 1 X T ⋅ V a r ( μ ∣ X ) ⋅ X ( X T X ) − 1 = ( X T X ) − 1 X T ⋅ σ 2 I n ⋅ X ( X T X ) − 1 = σ 2 ( X T X ) − 1 X T X ( X T X ) − 1 = σ 2 ( X T X ) − 1 . \begin{aligned} {\rm Var}(\hat{\boldsymbol\beta}|\boldsymbol{X})&={\rm Var}\left(\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu}\right) \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot{\rm Var}(\boldsymbol\mu|\boldsymbol{X})\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\cdot\sigma^2\boldsymbol{I}_n\cdot\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &=\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \\ &=\sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} \ . \end{aligned} Var(β^​∣X)​=Var(β+(XTX)−1XTμ)=(XTX)−1XT⋅Var(μ∣X)⋅X(XTX)−1=(XTX)−1XT⋅σ2In​⋅X(XTX)−1=σ2(XTX)−1XTX(XTX)−1=σ2(XTX)−1 .​
该定理表明, β ^ j \hat\beta_j β^​j​ 的方差可以由 σ 2 \sigma^2 σ2 乘以 ( X T X ) − 1 \left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} (XTX)−1 的主对角线上的第 j j j 个元素得到。

定理 3:高斯-马尔科夫定理

在假定 1 至假定 4 的条件下, β ^ \hat{\boldsymbol\beta} β^​ 是最佳线性无偏估计。

证明:只需证明有效性,即证明 β ^ \hat{\boldsymbol\beta} β^​ 在 β \boldsymbol\beta β 的所有线性无偏估计中拥有最小方差。

假设 β ~ = A T Y \tilde{\boldsymbol\beta}=\boldsymbol{A}^{\rm T}\boldsymbol{Y} β~​=ATY 是 β \boldsymbol\beta β 的其他任意一个线性无偏估计量,其中 A \boldsymbol{A} A 是一个 n × ( k + 1 ) n\times(k+1) n×(k+1) 的矩阵。由于 β ~ \tilde{\boldsymbol\beta} β~​ 满足以 X \boldsymbol{X} X 为条件的无偏性,因此矩阵 A \boldsymbol{A} A 就不能任意取得,需要对矩阵 A \boldsymbol{A} A 加以限制。写出
β ~ = A T Y = A T ( X β + μ ) = ( A T X ) β + A T μ . \tilde{\boldsymbol\beta}=\boldsymbol{A}^{\rm T}\boldsymbol{Y}=\boldsymbol{A}^{\rm T}\left(\boldsymbol{X\beta}+\boldsymbol{\mu}\right) =\left(\boldsymbol{A}^{\rm T}\boldsymbol{X}\right)\boldsymbol{\beta}+\boldsymbol{A}^{\rm T}\boldsymbol{\mu} \ . β~​=ATY=AT(Xβ+μ)=(ATX)β+ATμ .
取条件期望得
E ( β ~ ∣ X ) = E [ ( A T X ) β + A T μ ∣ X ] = A T X β + A T ⋅ E ( μ ∣ X ) = A T X β . \begin{aligned} {\rm E}(\tilde{\boldsymbol{\beta}}|\boldsymbol{X})&={\rm E}\left[\left(\boldsymbol{A}^{\rm T}\boldsymbol{X}\right)\boldsymbol{\beta}+\boldsymbol{A}^{\rm T}\boldsymbol{\mu}\big|\boldsymbol{X}\right] \\ &=\boldsymbol{A}^{\rm T}\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol{A}^{\rm T}\cdot{\rm E}({\mu}\big|\boldsymbol{X})\\ &=\boldsymbol{A}^{\rm T}\boldsymbol{X}\boldsymbol{\beta} \ . \end{aligned} E(β~​∣X)​=E[(ATX)β+ATμ∣∣​X]=ATXβ+AT⋅E(μ∣∣​X)=ATXβ .​
由无偏性 E ( β ~ ∣ X ) = β {\rm E}(\tilde{\boldsymbol{\beta}}|\boldsymbol{X})=\boldsymbol\beta E(β~​∣X)=β ,必须有 A T X β = β \boldsymbol{A}^{\rm T}\boldsymbol{X}\boldsymbol{\beta}=\boldsymbol{\beta} ATXβ=β 对所有的 β \boldsymbol\beta β 都成立,因此有矩阵方程 A T X = I k + 1 \boldsymbol{A}^{\rm T}\boldsymbol{X}=\boldsymbol{I}_{k+1} ATX=Ik+1​ 成立。该方程刻画了 β \boldsymbol\beta β 的所有线性无偏估计量的共同特征。

计算方差:
V a r ( β ~ ∣ X ) = A T V a r ( μ ∣ X ) A = σ 2 A T A . {\rm Var}(\tilde{\boldsymbol\beta}|\boldsymbol{X})=\boldsymbol{A}^{\rm T}{\rm Var}(\boldsymbol\mu|\boldsymbol{X})\boldsymbol{A}=\sigma^2\boldsymbol{A}^{\rm T}\boldsymbol{A} \ . Var(β~​∣X)=ATVar(μ∣X)A=σ2ATA .
因此,
V a r ( β ~ ∣ X ) − V a r ( β ^ ∣ X ) = σ 2 [ A T A − ( X T X ) − 1 ] = σ 2 [ A T A − A T X ( X T X ) − 1 X T A ] = σ 2 A T [ I n − X ( X T X ) − 1 X T ] A ≜ σ 2 A T M A . \begin{aligned} {\rm Var}(\tilde{\boldsymbol\beta}|\boldsymbol{X})-{\rm Var}(\hat{\boldsymbol\beta}|\boldsymbol{X})&=\sigma^2\left[\boldsymbol{A}^{\rm T}\boldsymbol{A}-\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\right] \\ &=\sigma^2\left[\boldsymbol{A}^{\rm T}\boldsymbol{A}-\boldsymbol{A}^{\rm T}\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{A}\right] \\ &=\sigma^2\boldsymbol{A}^{\rm T}\left[\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\right]\boldsymbol{A} \\ &\triangleq\sigma^2\boldsymbol{A}^{\rm T}\boldsymbol{M}\boldsymbol{A} \ . \end{aligned} Var(β~​∣X)−Var(β^​∣X)​=σ2[ATA−(XTX)−1]=σ2[ATA−ATX(XTX)−1XTA]=σ2AT[In​−X(XTX)−1XT]A≜σ2ATMA .​
其中,定义 M ≜ I n − X ( X T X ) − 1 X T \boldsymbol{M}\triangleq\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T} M≜In​−X(XTX)−1XT 。易证 M T = M \boldsymbol{M}^{\rm T}=\boldsymbol{M} MT=M 且 M 2 = M \boldsymbol{M}^2=\boldsymbol{M} M2=M 。因此 M \boldsymbol{M} M 是对称幂等矩阵,所以 A T M A \boldsymbol{A}^{\rm T}\boldsymbol{M}\boldsymbol{A} ATMA 对任意的 n × ( k + 1 ) n\times(k+1) n×(k+1) 矩阵 A \boldsymbol{A} A 都是半正定的,所以
V a r ( β ~ ∣ X ) − V a r ( β ^ ∣ X ) ≥ 0 . {\rm Var}(\tilde{\boldsymbol\beta}|\boldsymbol{X})-{\rm Var}(\hat{\boldsymbol\beta}|\boldsymbol{X})\geq0 \ . Var(β~​∣X)−Var(β^​∣X)≥0 .
因此,OLS 在用于估计 β \boldsymbol\beta β 的任何一个线性组合时总能得到最小方差,即 OLS 估计量 β ^ \hat{\boldsymbol\beta} β^​ 具有有效性。

定理 4: σ ^ 2 \hat\sigma^2 σ^2 的无偏估计

在假定 1 至假定 4 的条件下, σ ^ 2 \hat\sigma^2 σ^2 是 σ 2 \sigma^2 σ2 的无偏估计。

证明:利用定理 3 中定义的矩阵 M \boldsymbol{M} M 改写残差,注意到:
M X = X − X ( X T X ) − 1 X T X = X − X = 0 , \boldsymbol{M}\boldsymbol{X}=\boldsymbol{X}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X}=\boldsymbol{X}-\boldsymbol{X}=0 \ , MX=X−X(XTX)−1XTX=X−X=0 ,
因此有残差:
e = Y − X β ^ = Y − X ( X T X ) − 1 X T Y = M Y = M ( X β + μ ) = M μ . \boldsymbol{e}=\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol{\beta}} =\boldsymbol{Y}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} =\boldsymbol{M}\boldsymbol{Y}=\boldsymbol{M}\left(\boldsymbol{X\beta}+\boldsymbol{\mu}\right) =\boldsymbol{M}\boldsymbol{\mu} \ . e=Y−Xβ^​=Y−X(XTX)−1XTY=MY=M(Xβ+μ)=Mμ .
计算残差平方和为:
S S R = e T e = μ T M T M μ = μ T M μ . {\rm SSR}=\boldsymbol{e}^{\rm T}\boldsymbol{e}=\boldsymbol\mu^{\rm T}\boldsymbol{M}^{\rm T}\boldsymbol{M}\boldsymbol{\mu}=\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu} \ . SSR=eTe=μTMTMμ=μTMμ .
注意到残差平方和是一个常数,即 μ T M μ \boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu} μTMμ 是一个常数,因此它本身等于它的迹,有
E ( S S R ∣ X ) = E ( μ T M μ ∣ X ) = E [ t r ( μ T M μ ) ∣ X ] = E [ t r ( M μ μ T ) ∣ X ] = t r [ E ( M μ μ T ) ∣ X ] = t r [ M E ( μ μ T ) ∣ X ] = t r [ M σ 2 I n ] = σ 2 t r ( M ) = σ 2 ( n − k − 1 ) . \begin{aligned} {\rm E}\left({\rm SSR}|\boldsymbol{X}\right)&={\rm E}\left(\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}|\boldsymbol{X}\right) \\ &={\rm E}\left[{\rm tr}\left(\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}\right)\big|\boldsymbol{X}\right] \\ &={\rm E}\left[{\rm tr}\left(\boldsymbol{M}\boldsymbol{\mu}\boldsymbol\mu^{\rm T}\right)\big|\boldsymbol{X}\right] \\ &={\rm tr}\left[{\rm E}\left(\boldsymbol{M}\boldsymbol{\mu}\boldsymbol\mu^{\rm T}\right)\big|\boldsymbol{X}\right] \\ &={\rm tr}\left[\boldsymbol{M}{\rm E}\left(\boldsymbol{\mu}\boldsymbol\mu^{\rm T}\right)\big|\boldsymbol{X}\right] \\ &={\rm tr}\left[\boldsymbol{M}\sigma^2\boldsymbol{I}_n\right] \\ &=\sigma^2{\rm tr}\left(\boldsymbol{M}\right)=\sigma^2(n-k-1) \ . \end{aligned} E(SSR∣X)​=E(μTMμ∣X)=E[tr(μTMμ)∣∣​X]=E[tr(MμμT)∣∣​X]=tr[E(MμμT)∣∣​X]=tr[ME(μμT)∣∣​X]=tr[Mσ2In​]=σ2tr(M)=σ2(n−k−1) .​
最后一个等号成立是因为
t r ( M ) = t r [ I n − X ( X T X ) − 1 X T ] = n − t r [ X ( X T X ) − 1 X T ] = n − t r [ ( X T X ) − 1 X T X ] = n − t r ( I k + 1 ) = n − k − 1 . \begin{aligned} {\rm tr}(\boldsymbol{M})&={\rm tr}\left[\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\right] \\ &=n-{\rm tr}\left[\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\right]\\ &=n-{\rm tr}\left[\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{X}\right] \\ &=n-{\rm tr}(\boldsymbol{I}_{k+1})=n-k-1 \ . \end{aligned} tr(M)​=tr[In​−X(XTX)−1XT]=n−tr[X(XTX)−1XT]=n−tr[(XTX)−1XTX]=n−tr(Ik+1​)=n−k−1 .​
因此
E ( σ ^ 2 ∣ X ) = E ( S S R ∣ X ) n − k − 1 = σ 2 . {\rm E}(\hat\sigma^2|\boldsymbol{X})=\frac{{\rm E}\left({\rm SSR}|\boldsymbol{X}\right)}{n-k-1}=\sigma^2 \ . E(σ^2∣X)=n−k−1E(SSR∣X)​=σ2 .
至此,我们完成了多元回归模型中没有推导的高斯-马尔科夫定理的证明,以及 σ 2 \sigma^2 σ2 的无偏性证明。

统计推断

关于变量的统计推断,我们主要讨论估计参数的统计分布及其检验要求的 t t t 统计量。

在正态性假定下,我们可以证明在 X \boldsymbol{X} X 的条件下, β ^ \hat{\boldsymbol\beta} β^​ 服从均值为 β \boldsymbol\beta β 协方差矩阵为 σ 2 ( X T X ) − 1 \sigma^2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} σ2(XTX)−1 的多元正态分布。这是进行 β \boldsymbol\beta β 的统计推断的基础。接下来我们证明:
β ^ j − β j s e ( β ^ j ) ∼ t ( n − k − 1 ) , j = 0 , 1 , 2 , ⋯ , k . \frac{\hat\beta_j-\beta_j}{{\rm se}(\hat\beta_j)}\sim t(n-k-1) \ , \ \ \ \ j=0,1,2,\cdots,k \ . se(β^​j​)β^​j​−βj​​∼t(n−k−1) ,    j=0,1,2,⋯,k .
首先,由 β ^ \hat{\boldsymbol\beta} β^​ 的正态性, s d ( β ^ j ) = σ c j j {\rm sd}(\hat\beta_j)=\sigma\sqrt{c_{jj}} sd(β^​j​)=σcjj​ ​ ,其中 c j j c_{jj} cjj​ 是矩阵 ( X T X ) − 1 \left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1} (XTX)−1 中主对角线上的第 j j j 个元素,所以有
β ^ j − β j s d ( β ^ j ) ∼ N ( 0 , 1 ) . \frac{\hat\beta_j-\beta_j}{{\rm sd}(\hat\beta_j)}\sim N(0,\,1) \ . sd(β^​j​)β^​j​−βj​​∼N(0,1) .
其次,我们可以证明
( n − k − 1 ) σ ^ 2 σ 2 ∼ χ 2 ( n − k − 1 ) . \frac{(n-k-1)\hat\sigma^2}{\sigma^2}\sim\chi^2(n-k-1) \ . σ2(n−k−1)σ^2​∼χ2(n−k−1) .
利用对称幂等矩阵 M = I n − X ( X T X ) − 1 X T \boldsymbol{M}=\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T} M=In​−X(XTX)−1XT ,并且 r ( M ) = n − k − 1 {\rm r}(M)=n-k-1 r(M)=n−k−1 有结论
( n − k − 1 ) σ ^ 2 σ 2 = μ T M μ σ 2 = ( μ / σ ) T M ( μ / σ ) , \frac{(n-k-1)\hat\sigma^2}{\sigma^2}=\frac{\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}}{\sigma^2}=\left(\boldsymbol\mu/\sigma\right)^{\rm T}\boldsymbol{M}\left(\boldsymbol\mu/\sigma\right) \ , σ2(n−k−1)σ^2​=σ2μTMμ​=(μ/σ)TM(μ/σ) ,
由于 μ / σ ∼ N ( 0 , I n ) \boldsymbol\mu/\sigma\sim N(0,\,\boldsymbol{I}_n) μ/σ∼N(0,In​) ,根据 χ 2 \chi^2 χ2 分布的性质有 ( μ / σ ) T M ( μ / σ ) ∼ χ 2 ( n − k − 1 ) \left(\boldsymbol\mu/\sigma\right)^{\rm T}\boldsymbol{M}\left(\boldsymbol\mu/\sigma\right)\sim\chi^2(n-k-1) (μ/σ)TM(μ/σ)∼χ2(n−k−1) 。

接着,我们还需要证明 β ^ \hat{\boldsymbol\beta} β^​ 和 σ ^ 2 \hat\sigma^2 σ^2 是独立的。需要用到一个多元正态分布的性质。

引理:设 Y \boldsymbol{Y} Y 是一个 n × 1 n\times 1 n×1 的随机向量,如果 Y ∼ N ( 0 , σ 2 I n ) \boldsymbol{Y}\sim N(0,\,\sigma^2\boldsymbol{I}_n) Y∼N(0,σ2In​) , A \boldsymbol{A} A 是一个 k × n k\times n k×n 的非随机矩阵,而 B \boldsymbol{B} B 是一个 n × n n\times n n×n 的对称幂等矩阵,则 A Y \boldsymbol{A}\boldsymbol{Y} AY 和 Y T B Y \boldsymbol{Y}^{\rm T}\boldsymbol{B}\boldsymbol{Y} YTBY 独立的充分必要条件是 A B = 0 \boldsymbol{AB}=0 AB=0 。

我们知道 β ^ = β + ( X T X ) − 1 X T μ \hat{\boldsymbol\beta}=\boldsymbol{\beta}+\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu} β^​=β+(XTX)−1XTμ , σ ^ 2 = μ T M μ n − k − 1 \hat\sigma^2=\dfrac{\boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu}}{n-k-1} σ^2=n−k−1μTMμ​ 。

由于 X T M = M X = 0 \boldsymbol{X}^{\rm T}\boldsymbol{M}=\boldsymbol{M}\boldsymbol{X}=0 XTM=MX=0 ,所以 \boldsymbol{} ( X T X ) − 1 X T M = 0 \left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{M}=0 (XTX)−1XTM=0 。根据上述引理知 ( X T X ) − 1 X T μ \left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{\mu} (XTX)−1XTμ 和 μ T M μ \boldsymbol\mu^{\rm T}\boldsymbol{M}\boldsymbol{\mu} μTMμ 独立,所以 β ^ \hat{\boldsymbol\beta} β^​ 和 σ ^ 2 \hat\sigma^2 σ^2 也是独立的。

最后我们可以写出
β ^ j − β j s e ( β ^ j ) = β ^ j − β j s d ( β ^ j ) / s e ( β ^ j ) s d ( β ^ j ) = β ^ j − β j s d ( β ^ j ) / σ ^ 2 σ 2 ∼ t ( n − k − 1 ) . \frac{\hat\beta_j-\beta_j}{{\rm se}(\hat\beta_j)}=\frac{\hat\beta_j-\beta_j}{{\rm sd}(\hat\beta_j)}\bigg/\frac{{\rm se}(\hat\beta_j)}{{\rm sd}(\hat\beta_j)}=\frac{\hat\beta_j-\beta_j}{{\rm sd}(\hat\beta_j)}\bigg/\sqrt{\frac{\hat\sigma^2}{\sigma^2}} \sim t(n-k-1) \ . se(β^​j​)β^​j​−βj​​=sd(β^​j​)β^​j​−βj​​/sd(β^​j​)se(β^​j​)​=sd(β^​j​)β^​j​−βj​​/σ2σ^2​ ​∼t(n−k−1) .
这个定理通过严格的数理统计的推导证明了我们用 σ ^ \hat\sigma σ^ 代替 σ \sigma σ 并构造 t t t 统计量的合理性。

至此,我们完成了经典假设下从简单回归模型到多元回归模型的全部知识介绍,并利用矩阵形式对其中的部分统计性质进行了严格的推导证明。其中涉及的矩阵运算以及数理统计的相关性质,在此不过多介绍。不熟悉的读者可以查阅线性代数和数理统计相关教材。

【计量经济学导论】03. 矩阵形式的线性回归模型相关推荐

  1. 【计量经济学导论】01. 简单回归模型

    文章目录 简单回归模型 相关程度的度量 简单线性回归模型 简单线性回归的基本假定 普通最小二乘法 OLS 估计的代数性质 总变差的分解 拟合优度检验 参数的统计分布 变量的显著性检验 对数函数形式 简 ...

  2. 回归方程的拟合优度检验_计量经济学第四讲(多元线性回归模型:基本假定,参数估计,统计检验)...

    第三章.经典单方程计量经济学模型:多元线性回归模型 3.1多元线性回归模型及其基本假定 3.1.1多元回归模型及其表示 解释变量至少有两个的线性回归模型,一般形式为 如果不作说明, 是不包括常数项的解 ...

  3. 《计量经济学》学习笔记之多元线性回归模型

    导航 上一章:一元线性回归模型 下一章:放宽基本假定的模型 文章目录 导航 3.1多元线性回归模型 一.多元线性回归模型 二.多元线性回归的基本假设 3.2多元线性回归模型的参数估计 四.参数统计量的 ...

  4. 三、多元线性回归模型(计量经济学学习笔记)

    ①多元线性回归模型及古典假定 1.1多元线性回归模式 多元线性回归模型是指对各个回归参数而言是线性的,而对于变量既可以是线性的,也可以不是线性的. 一般地,由n个单位构成的总体,包含被解释变量Y和k- ...

  5. 二、简单线性回归模型(计量经济学学习笔记)

    研究经济变量之间相互数量关系最基本的方法之一是回归分析. ①回归分析与回归函数 1.1相关分析与回归分析 1.1.1函数关系与相关关系 经济变量之间的相互依存关系有两种:1.确定性的函数关系 2.不确 ...

  6. 《计量经济学》学习笔记之一元线性回归模型

    注意:本笔记以文字概括为主,公式为辅,问为啥,因为贴图片和打公式对于我来说,太烦啦~所以,就只把每个章节里觉得重要的一些概念记下来. 书籍:<计量经济学(第三版)>–李子奈 导航 下一章: ...

  7. 计量经济学-简单的一元线性回归模型之一

    一元回归模型 回归分析和相关分析之间的差别 相关分析研究的是变量之间的线性相关性,而回归分析要研究的是解释变量和被解释变量之间的平均关系.相关分析中,变量都是随机变量:而回归分析中,解释变量是确定的, ...

  8. 【计量经济学导论】02. 多元回归模型

    文章目录 多元回归模型 经典线性回归模型的假定 排除其他变量影响的方法 无偏性的证明 估计量的方差计算 估计量方差的成份 多元回归模型 经典线性回归模型的假定 在这一节中,我们将把回归模型由一元扩展到 ...

  9. 计量经济学——一元线性回归模型(例题)

    题目:对一元线性回归模型 Y i = β 0 + β 1 X i + μ i Y_{i}=\beta_{0}+\beta_{1}X_{i}+\mu_{i} Yi​=β0​+β1​Xi​+μi​,试证明 ...

最新文章

  1. 深入探究Kubernetes - 初识容器
  2. php获取指定日期的万年历,分享3个php获取日历的函数
  3. mysql 单机双实列_{ mysql } MySQL单机多实例及主从复制
  4. [译] Subject 和 Observable + Observer 的混淆指北[ Android RxJava2 ] ( 这什么鬼系列 ) 第八话...
  5. 查找功能_苹果查找功能怎么查找另一台设备?很简单,只需这样操作
  6. Unity 数字跳动抽奖,且每次数字不重复!
  7. 基于yolov5与Deep Sort的流量统计与轨迹跟踪
  8. htc G18 一键解锁,3键root
  9. PC端/电脑端有没有识别二维码并分类的工具
  10. 第13届景驰-埃森哲杯广东工业大学ACM程序设计大赛.J强迫症的序列
  11. 国家法定节假日调整已形成方案
  12. python股票量化投资刑不行_【邢不行|量化小讲堂系列10-Python量化入门】量化投资中如何处理复权、除权问题...
  13. html 消除序号,JS实现删除一行数据页面序号重新排序功能。
  14. Crucible安装与使用(代码审查Code Review)
  15. msm8909 android5.1.1,MSM8909+Android5.1.1启动流程(1)---概述
  16. 微信Android如何实现计步数,微信运动步数是怎样计算的?终于有人研究出来了......
  17. 上万元游戏拼多多7块搞定 PICO防不住
  18. java循环控制语句,简述Java流程控制语句中的三种循环控制语句,并描述下它们的区别。...
  19. 随机产生单词java_JavaGUI实现随机单词答题游戏
  20. American Crew(R) ACUMEN™闪亮登场

热门文章

  1. 关于js数组的常用方法的总结
  2. php 点击 单元格,php – 表格中的contenteditable:选择单元格
  3. 关于通过Date.getTime()得到1970年01月1日0点零分问题验证
  4. R柱状图,叠图(排序)
  5. Unicode 14 标准发布
  6. 性能优化:弄懂goolg glog原理,提升程序性能
  7. 一个科研工作者怎么算很努力
  8. 大疆Tello UDP控制协议接口
  9. 前端小游戏页面性能优化
  10. LayUI-----动态选项卡