模型设定

变量X与Y有一组观测值（假设为简单随机样本）(Xi,Yi)(X_i, Y_i)(Xi,Yi)，i=1,2,...,Ni = 1,2, ... , Ni=1,2,...,N，并且观测值满足如下关系：
Yi=β0+β1Xi+ϵiY_i = \beta_0 + \beta_1 X_i + \epsilon_i Yi=β0+β1Xi+ϵi
该关系是被被解释变量Y关于解释变量X的回归方程。其中β0\beta_0β0和β1\beta_1β1是回归系数，ϵi\epsilon_iϵi是随机误差，E[ϵi]=0E[\epsilon_i]=0E[ϵi]=0，E[ϵiϵj]=δijσ2E[\epsilon_i \epsilon_j]=\delta_{ij} \sigma^2E[ϵiϵj]=δijσ2。δij\delta_{ij}δij是Kronecker符号，当且仅当i=ji=ji=j时，δij=1\delta_{ij}=1δij=1，否则为0。在该模型设定下，YiY_iYi同样是随机变量，
E[Yi]=E[β0+β1Xi+ϵi]=β0+β1Xi+E[ϵi]=β0+β1XiE[Y_i] = E[\beta_0 + \beta_1 X_i + \epsilon_i] = \beta_0 + \beta_1 X_i + E[\epsilon_i] = \beta_0 + \beta_1 X_i E[Yi]=E[β0+β1Xi+ϵi]=β0+β1Xi+E[ϵi]=β0+β1Xi
被称为模型的Mean Response。注意到
∂E[Yi]∂Xi=β1\frac{\partial E[Y_i]}{\partial X_i} = \beta_1 ∂Xi∂E[Yi]=β1
因此回归系数β1\beta_1β1的含义是在其他条件不变的情况下，变量X增加一单位造成的变量Y的变化的均值（期望存在时求偏导和求期望可以交换顺序），所以一元线性回归的一个作用是评估变量X对变量Y的效应。

最后介绍一下线性（linearity）的含义。把回归方程看成回归系数的函数f(β0,β1)f(\beta_0,\beta_1)f(β0,β1)，如果这个函数是线性的，那么设定的回归模型就是线性回归。也就是说线性不是解释变量的形态，而是回归系数的。

最小二乘法（Method of Least Square）

最小二乘法是估计回归系数的常用方法。它的思想是找到一组参数(β0,β1)(\beta_0, \beta_1)(β0,β1)使得观测值(Xi,Yi)(X_i, Y_i)(Xi,Yi)到直线Y=β0+β1XY = \beta_0 + \beta_1 XY=β0+β1X的距离之和最小。观测值(Xi,Yi)(X_i, Y_i)(Xi,Yi)在直线上对应点为(Xi,β0+β1Xi)(X_i, \beta_0 + \beta_1 X_i)(Xi,β0+β1Xi)，二者之间的距离为∣Yi−(β0+β1Xi)∣|Y_i - (\beta_0 + \beta_1 X_i)|∣Yi−(β0+β1Xi)∣。考虑到绝对值函数做优化不如二次函数方便，将绝对值换为平方[Yi−(β0+β1Xi)]2[Y_i - (\beta_0 + \beta_1 X_i)]^2[Yi−(β0+β1Xi)]2，记距离的平方和为QQQ，从而最小二乘法的目标可以表示为
minβ0,β1Q=∑i=1N[Yi−(β0+β1Xi)]2{min_{\beta_0, \beta_1}} Q=\sum_{i=1}^{N} [Y_i - (\beta_0 + \beta_1 X_i)]^2 minβ0,β1Q=i=1∑N[Yi−(β0+β1Xi)]2

Coefficients

一元线性回归的最小二乘法显然就是凸函数的自由极值问题而已。目标函数为全局凸函数，具有唯一的最小值。不妨设其解为(β^0,β^1)(\hat{\beta}_0, \hat{\beta}_1)(β^0,β^1)，则
∂Q∂β^0=−∑i=1N[Yi−(β^0+β^1Xi)]=0∑i=1NYi=Nβ^0+β^1∑i=1NXi\frac{\partial Q}{\partial \hat{\beta}_0} =-\sum_{i=1}^{N} [Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_i)]=0 \\ \sum_{i=1}^{N} Y_i = N \hat{\beta}_0 + \hat{\beta}_1 \sum_{i=1}^{N}X_i ∂β^0∂Q=−i=1∑N[Yi−(β^0+β^1Xi)]=0i=1∑NYi=Nβ^0+β^1i=1∑NXi
∂Q∂β^1=−∑i=1NXi[Yi−(β^0+β^1Xi)]=0∑i=1NXiYi=∑i=1NXiβ^0+β^1∑i=1NXi2\frac{\partial Q}{\partial \hat{\beta}_1} =-\sum_{i=1}^{N} X_i[Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_i)]=0 \\ \sum_{i=1}^{N} X_iY_i = \sum_{i=1}^{N}X_i \hat{\beta}_0 + \hat{\beta}_1 \sum_{i=1}^{N}X_i^2 ∂β^1∂Q=−i=1∑NXi[Yi−(β^0+β^1Xi)]=0i=1∑NXiYi=i=1∑NXiβ^0+β^1i=1∑NXi2
由此可以得到关于(β^0,β^1)(\hat{\beta}_0, \hat{\beta}_1)(β^0,β^1)的两个线性方程，求解可以得到
β^1=∑i=1NXiYi−NXˉYˉ∑i=1NXi2−NX2ˉ=∑i=1N(Xi−Xˉ)(Yi−Yˉ)∑i=1N(Xi−Xˉ)2β^0=Yˉ−β^1Xˉ\hat{\beta}_1 = \frac{\sum_{i=1}^{N} X_i Y_i - N\bar{X}\bar{Y}}{\sum_{i=1}^{N} X_i^2- N\bar{X^2}} = \frac{\sum_{i=1}^{N} (X_i -\bar{X}) (Y_i - \bar{Y})}{\sum_{i=1}^{N} (X_i - \bar{X})^2} \\ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{X} β^1=∑i=1NXi2−NX2ˉ∑i=1NXiYi−NXˉYˉ=∑i=1N(Xi−Xˉ)2∑i=1N(Xi−Xˉ)(Yi−Yˉ)β^0=Yˉ−β^1Xˉ

Mean Response and Residual

得到回归系数的估计值后，可以将估计的回归方程写成
Yi=β^0+β^1Xi+ϵiY_i = \hat{\beta}_0 + \hat{\beta}_1 X_i + \epsilon_i Yi=β^0+β^1Xi+ϵi
由于最小二乘法估计系数的策略是使观测值到回归方程的总距离最小，因此每个观测值(Xi,Yi)(X_i, Y_i)(Xi,Yi)同直线上与之对应的点(Xi,β^0+β^1Xi)(X_i, \hat{\beta}_0 + \hat{\beta}_1 X_i)(Xi,β^0+β^1Xi)之间的距离不一定为0。定义解释变量为XiX_iXi时的拟合值（fitted value）为Y^i=β^0+β^1Xi=E[Yi]\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i = E[Y_i]Y^i=β^0+β^1Xi=E[Yi]。定义第iii个拟合值的残差（residual）为ei=Yi−Y^ie_i = Y_i - \hat{Y}_iei=Yi−Y^i。关于残差与拟合值有如下三条性质：

性质一：残差和为零（由Q关于β^0\hat{\beta}_0β^0的偏导为0导出）
∑i=1Nei=∑i=1N(Yi−Y^i)=∑i=1NYi−∑i=1N(β^0+β^1Xi)=0\sum_{i=1}^{N} e_i = \sum_{i=1}^{N} (Y_i - \hat{Y}_i) = \sum_{i=1}^{N} Y_i - \sum_{i=1}^{N} (\hat{\beta}_0 + \hat{\beta}_1 X_i)=0 i=1∑Nei=i=1∑N(Yi−Y^i)=i=1∑NYi−i=1∑N(β^0+β^1Xi)=0
性质二：残差与被解释变量正交（正交的含义是相乘再求和为零，由Q关于β^1\hat{\beta}_1β^1的偏导为0导出）
∑i=1NXiei=∑i=1NXi(Yi−Y^i)=∑i=1NXiYi−∑i=1NXi(β^0+β^1Xi)=0\sum_{i=1}^{N} X_ie_i = \sum_{i=1}^{N} X_i(Y_i - \hat{Y}_i) = \sum_{i=1}^{N} X_iY_i - \sum_{i=1}^{N} X_i(\hat{\beta}_0 + \hat{\beta}_1 X_i)=0 i=1∑NXiei=i=1∑NXi(Yi−Y^i)=i=1∑NXiYi−i=1∑NXi(β^0+β^1Xi)=0
性质三：残差与拟合值正交（由性质一和性质二导出）
∑i=1NY^iei=∑i=1N(β^0+β^1Xi)ei=β^0∑i=1Nei+β^1∑i=1NXiei=0\sum_{i=1}^{N} \hat{Y}_ie_i = \sum_{i=1}^{N} (\hat{\beta}_0 + \hat{\beta}_1 X_i)e_i= \hat{\beta}_0 \sum_{i=1}^{N} e_i + \hat{\beta}_1 \sum_{i=1}^{N} X_ie_i =0 i=1∑NY^iei=i=1∑N(β^0+β^1Xi)ei=β^0i=1∑Nei+β^1i=1∑NXiei=0

这三条性质在之后做Residual Diagnostics的时候会起到很大的作用。

最大似然估计（Maximum Likelihood Estimation，MLE）

最大似然估计是另一种估计一元线性回归模型的方法。被解释变量的样本YiY_iYi服从N(β0+β1Xi,σ2)N(\beta_0 + \beta_1 X_i, \sigma^2)N(β0+β1Xi,σ2)，因此似然函数为
L(β0,β1,σ2∣{Xi})=∏i=1Nf(yi∣β0,β1,σ)L(β0,β1,σ2∣{Xi})=1(2πσ2)n/2exp[−12σ2∑i=1N(Yi−β0−β1Xi)2]L(\beta_0, \beta_1, \sigma^2|\{X_i\}) = \prod_{i=1}^{N} f(y_i | \beta_0, \beta_1, \sigma) \\ L(\beta_0, \beta_1, \sigma^2|\{X_i\}) = \frac{1}{(2 \pi \sigma^2)^{n/2}} exp[-\frac{1}{2 \sigma^2} \sum_{i=1}^{N}(Y_i - \beta_0 - \beta_1 X_i)^2] L(β0,β1,σ2∣{Xi})=i=1∏Nf(yi∣β0,β1,σ)L(β0,β1,σ2∣{Xi})=(2πσ2)n/21exp[−2σ21i=1∑N(Yi−β0−β1Xi)2]
最大似然估计的思想是寻找一组估计量(β^0,β^1,σ^2)(\hat{\beta}_0, \hat{\beta}_1, \hat{\sigma}^2)(β^0,β^1,σ^2)使得似然函数L(β0,β1,σ2∣{Xi})L(\beta_0, \beta_1, \sigma^2|\{X_i\})L(β0,β1,σ2∣{Xi})最大。由于似然函数中出现了指数，因此在实际计算时通常最大化对数似然函数
l(β0,β1,σ2∣{Xi})=−12σ2∑i=1N(Yi−β0−β1Xi)2−n2[ln(σ2)+ln(2π)]l(\beta_0, \beta_1, \sigma^2|\{X_i\}) = -\frac{1}{2 \sigma^2} \sum_{i=1}^{N}(Y_i - \beta_0 - \beta_1 X_i)^2 - \frac{n}{2}[ ln(\sigma^2)+ln(2 \pi)] l(β0,β1,σ2∣{Xi})=−2σ21i=1∑N(Yi−β0−β1Xi)2−2n[ln(σ2)+ln(2π)]
估计回归系数时得到的一阶条件与最小二乘法完全一致，估计值也完全相同，此处不再赘述。

Variance

在得到回归系数的估计值后可以将对数似然函数改写为
l(σ2∣β0,β1)=−12σ2∑i=1N(Yi−β^0−β^1Xi)2−n2[ln(σ2)+ln(2π)]l(σ2∣β0,β1)=−12σ2∑i=1Nei2−n2[ln(σ2)+ln(2π)]l(\sigma^2|\beta_0, \beta_1) = -\frac{1}{2 \sigma^2} \sum_{i=1}^{N}(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2 - \frac{n}{2}[ ln(\sigma^2)+ln(2 \pi)] \\ l(\sigma^2|\beta_0, \beta_1) = -\frac{1}{2 \sigma^2} \sum_{i=1}^{N}e_i^2 - \frac{n}{2}[ ln(\sigma^2)+ln(2 \pi)] l(σ2∣β0,β1)=−2σ21i=1∑N(Yi−β^0−β^1Xi)2−2n[ln(σ2)+ln(2π)]l(σ2∣β0,β1)=−2σ21i=1∑Nei2−2n[ln(σ2)+ln(2π)]
定义Sum of Squared Error为
SSE=∑i=1Nei2=∑i=1N(Yi−Y^i)2SSE = \sum_{i=1}^{N} e_i^2 = \sum_{i=1}^{N} (Y_i - \hat{Y}_i)^2 SSE=i=1∑Nei2=i=1∑N(Yi−Y^i)2
∂l(σ2∣β^0,β^1)∂σ2=SSE2σ4−n2σ2=0\frac{\partial l(\sigma^2| \hat{\beta}_0,\hat{\beta}_1)}{\partial \sigma^2} = \frac{SSE}{2 \sigma^4} - \frac{n}{2 \sigma^2} =0 ∂σ2∂l(σ2∣β^0,β^1)=2σ4SSE−2σ2n=0
因此方差的最大似然估计为σ^2=SSE/n\hat{\sigma}^2=SSE/nσ^2=SSE/n。值得注意的是这并非方差的无偏估计。假设不存在解释变量与回归模型，只有变量Y的一组简单随机样本，那么方差的无偏估计是样本方差S2=1N−1∑i=1N(Yi−Yˉ)2S^2= \frac{1}{N-1} \sum_{i=1}^N (Y_i-\bar{Y})^2S2=N−11∑i=1N(Yi−Yˉ)2。定义Total Sum of Square
SST=∑i=1N(Yi−Yˉ)2SST = \sum_{i=1}^N (Y_i-\bar{Y})^2 SST=i=1∑N(Yi−Yˉ)2
则S2=SSTN−1S^2= \frac{SST}{N-1}S2=N−1SST。观测值数量为N，但在计算SST时用了样本平均值Yˉ\bar{Y}Yˉ，相当于引入了一个约束，有一个自由度损失，因此SST对应的自由度应该修正为N−1N-1N−1。在回归模型中计算SSE时用了估计量β^0\hat{\beta}_0β^0与β^1\hat{\beta}_1β^1，有两个自由度损失，因此SSE对应的自由度应该修正为N−2N-2N−2。定义Mean Squared Error为
MSE=SSEN−2MSE=\frac{SSE}{N-2} MSE=N−2SSE
后续会证明E[MSE]=σ2E[MSE]=\sigma^2E[MSE]=σ2，即MSE是方差的无偏估计。因此用MLE得到的方差估计在小样本时需要进行自由度修正才能得到无偏估计。

数值例子：女性肌肉量与年龄的关系

通常肌肉量会随着年龄增长而减少，为了探索这一结论在女性群体中是否成立，可以建立如下的一元线性回归：
Yi=β0+β1Xi+ϵiY_i = \beta_0 + \beta_1 X_i + \epsilon_i Yi=β0+β1Xi+ϵi
其中YiY_iYi表示女性个体的肌肉量，XiX_iXi表示女性个体的年龄。数据来源于Applied Linear Regression Models. Kutner et al 第一章二十七题。根据题干的声明，将40到79岁的女性按每十岁为一个年龄段分组，每一组随机抽取15个人组成样本，因此样本总量为60。首先设置R的工作路径并读取txt数据

// Set working dictionary
setwd("D:\\Stat PhD\\semester1\\regression\\Notes\\Ch1")// Read in data
Ex1 <- read.table("D:/Stat PhD/semester1/regression/Notes/Ch1/CH01PR27.txt", quote="\"", comment.char="")
Ex1 <- as.matrix(Ex1)
Y <- Ex1[,1]
X <- Ex1[,2]

然后用lm() 函数做一元线性回归，并用summary 查看回归结果

// Simple Linear Regression
Ex1.lm <- lm( Y~X )
summary(Ex1.lm)

灰框内的数值分别是残差的最小值，0.25分位点，中位数，0.75分位点和最大值。蓝框里面的数值是标准差的估计值σ^=MSE\hat{\sigma}=\sqrt{MSE}σ^=MSE，绿框内的数值是MSE的自由度。红框内的数值是β0\beta_0β0的估计值，黄框内的数值是β1\beta_1β1的估计值，由此可以看出在40岁到79岁的女性群体中，肌肉量的确是随着年龄的增长而减少的。然而统计学追求的是稳健的推断，因此仅凭估计值的结果并不能断言肌肉量与年龄之间的关系。因为估计量β^1=∑i=1N(Xi−Xˉ)(Yi−Yˉ)∑i=1N(Xi−Xˉ)2\hat{\beta}_1=\frac{\sum_{i=1}^{N} (X_i -\bar{X}) (Y_i - \bar{Y})}{\sum_{i=1}^{N} (X_i - \bar{X})^2}β^1=∑i=1N(Xi−Xˉ)2∑i=1N(Xi−Xˉ)(Yi−Yˉ)是一个随机变量，黄框内的数值相当于是这个随机变量的一组样本。如果想要复现这个试验，用同样的随机采样得到另一组样本进行计算，黄框内得到的数值就会变化，那么是否肌肉量和年龄之间的关系就因此变化了呢？显然不会！所以下一篇的内容就是怎么根据已有的样本对肌肉量与年龄之间的关系进行稳健的推断。

UA MATH571A 一元线性回归I 模型设定与估计相关推荐

UA MATH571A 多元线性回归I 模型设定与推断
UA MATH571A 多元线性回归I 模型设定与推断模型设定最小二乘法(Method of Least Square) 系数 Mean Response and Residual 多元回归的AN ...
UA MATH571A 一元线性回归IV 模型诊断
UA MATH571A 一元线性回归IV 模型诊断解释变量解释变量的可视化残差残差的性质 Semistudentized Residual 残差的可视化残差关于解释变量的图残差关于拟合值的 ...
UA MATH571A 一元线性回归II 统计推断2
UA MATH571A 一元线性回归II 统计推断2 β0\beta_0β0的分布拟合与预测拟合值的区间估计预测值的区间估计数值例子:女性肌肉量与年龄的关系 β0\beta_0β0的分布 ...
UA MATH571A 一元线性回归III 方差分析与相关性分析
UA MATH571A 一元线性回归III 方差分析与相关性分析 ANOVA Table F检验回归系数的F检验 F检验与t检验等价广义线性检验方法 R2R^2R2 数值例子:女性肌肉量与年龄的关 ...
UA MATH571A 一元线性回归II 统计推断1
UA MATH571A 一元线性回归II 统计推断1 β1\beta_1β1的假设检验与置信区间 Gauss-Markov定理检验的势双边检验,单边检验与置信区间置信区间双边检验单边检验 ...
UA MATH571A 多元线性回归II 变量选择
UA MATH571A 多元线性回归II 变量选择多项式回归与交互项回归阶数的确定含质量型变量的回归含质量型变量的交互项二值变量与二值变量的交互项二值变量与数量型变量的交互项变量选择的准 ...
UA MATH571A 多元线性回归IV 广义线性模型
UA MATH571A 多元线性回归IV 广义线性模型广义线性模型二值被解释变量 Probit模型 Logit模型系数的最大似然估计系数的推断 Wald检验似然比检验二项回归拟合优度检验 ...
UA MATH571A 多元线性回归V 自相关与非线性模型简介
UA MATH571A 多元线性回归V 自相关与非线性模型简介一阶误差自相关模型 Durbin-Watson检验一阶自相关的消去 Cochrane-Orcutt方法 Hildreth-Lu方法非 ...
UA MATH 571B 回归 QE练习题一元线性回归理论
UA MATH 571B 回归 QE练习题一元线性回归理论 2015/1/5 2015/5/5 2016/5/6 2017/1/5 2017/5/6 这是2015年1月第五题,2015年5月第五题, ...

UA MATH571A 一元线性回归I 模型设定与估计