前言
本科期间已经系统的学习过线性回归模型,奈何本菜鸡记性太差,每次用到还要重新找资料。。。近期,由于研究需要,又重新把线性回归模型学了一遍,也有了更深的理解,借此机会,系统性的总结一遍,免得用的时候又到处找资料。

文章目录

  • 一元线性回归模型
    • 模型及基本假设
    • 最小二乘法
    • OLS估计量的性质
    • 残差项的正交性
    • 判定系数
    • 假设检验
    • 估计和预测
  • 多元线性回归模型
    • 模型及古典模型假设
    • OLS估计量
    • OLS的小样本性质
    • 小样本下的统计推断
    • 大样本OLS
    • 大样本统计推断
  • 参考书目

一元线性回归模型

模型及基本假设

对于具有线性关系的两个随机变量,可以用一个线性方程来表示它们之间的关系。描述因变量y如何依赖自变量x和误差项ε\varepsilonε的方程就称为回归模型。一元回归模型可表示为:
y=β0+β1x+εy=\beta_{0}+\beta_{1}x+\varepsilon y=β0​+β1​x+ε
其中,误差项ε\varepsilonε包含遗漏的其他因素,变量的测量误差、回归函数的设定误差以及人类行为的内在随机性等。

线性回归模型的基本假设有:
(1)E(ε)=0E(\varepsilon)=0E(ε)=0
(2)Var(εi)=Var(εj)=σ2Var(\varepsilon_{i})=Var(\varepsilon_{j})=\sigma^2Var(εi​)=Var(εj​)=σ2
(3)Cov(εi,εj)=0Cov(\varepsilon_{i},\varepsilon_{j})=0Cov(εi​,εj​)=0
(4)ε∼N(0,σ2)\varepsilon\sim N(0,\sigma^2)ε∼N(0,σ2)

根据回归模型中的假定,有E(y)=β0+β1xE(y)=\beta_{0}+\beta_{1}xE(y)=β0​+β1​x,即y的期望值是x的线性函数,称此式为一元线性回归方程。

对于以上线性回归模型,考虑的统计推断问题为:
(1)对于未知参数β0,β1,σ2\beta_{0},\beta_{1},\sigma^2β0​,β1​,σ2进行估计;
(2)对关于β0,β1\beta_{0},\beta_{1}β0​,β1​的某种假设,以及y服从线性模型的假设进行检验;
(3)对y进行预测和控制。

最小二乘法

普通最小二乘法(Ordiany Least Squares, OLS)就是选择使得残差平方和最小的β0、β1\beta_{0}、\beta_{1}β0​、β1​:
min∑i=1nei2=∑i=1n(yi−β0−β1xi)2min \sum_{i=1}^{n}e_{i}^2=\sum_{i=1}^{n}(y_{i}-\beta_{0}-\beta_{1}x_{i})^2 mini=1∑n​ei2​=i=1∑n​(yi​−β0​−β1​xi​)2
分别对β0、β1\beta_{0}、\beta_{1}β0​、β1​求偏导,并联立方程组,求得:
β0^=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−xˉ)2;β1^=yˉ−β0^xˉ\hat{\beta_{0}}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}; \hat{\beta_{1}}=\bar{y}-\hat{\beta_{0}}\bar{x} β0​^​=∑i=1n​(xi​−xˉ)2∑i=1n​(xi​−xˉ)(yi​−yˉ​)​;β1​^​=yˉ​−β0​^​xˉ

OLS估计量的性质

无偏性,一致性,最小方差性
β0^、β1^\hat{\beta_{0}}、\hat{\beta_{1}}β0​^​、β1​^​为β0、β1\beta_{0}、\beta_{1}β0​、β1​的最佳线性无偏估计量(BLUE);

残差项的正交性

1.残差向量与所有解释变量(1′,x′1',x'1′,x′)正交,即
1′e=0,x′e=01'e=0, x'e=01′e=0,x′e=0

∑i=1nei=0,∑i=1neixi=0\sum_{i=1}^{n} e_{i}=0, \sum_{i=1}^{n} e_{i} x_{i}=0 i=1∑n​ei​=0,i=1∑n​ei​xi​=0

(由OLS求解过程中建立的方程组可得)
2.残差向量与拟合值向量 y^\hat{y}y^​ 正交
∑yi^ei=∑(β0^+β^1xi)ei=0\sum \hat{y_{i}} e_{i}=\sum (\hat{\beta_{0}}+\hat{\beta}_{1} x_{i}) e_{i}=0 ∑yi​^​ei​=∑(β0​^​+β^​1​xi​)ei​=0

判定系数

1.平方和分解公式
TSS (Total Sum of Squares)=∑i=1n(yi−yˉ)2\sum_{i=1}^{n}(y_{i}-\bar{y})^2∑i=1n​(yi​−yˉ​)2
ESS (Explained Sum of Squares)=∑i=1n(yi^−yˉ)2\sum_{i=1}^{n}(\hat{y_{i}}-\bar{y})^2∑i=1n​(yi​^​−yˉ​)2
RSS (Residual Sum of Squares)=∑i=1nei2\sum_{i=1}^{n}e_{i}^2∑i=1n​ei2​
TSS=ESS+RSSTSS=ESS+RSS TSS=ESS+RSS
2.拟合优度(判定系数、可决系数)
R2=∑(yi^−yˉ)2∑(yi−yˉ)2=1−∑ei2∑(yi−yˉ)2R^2=\frac{\sum(\hat{y_{i}}-\bar{y})^2}{\sum(y_{i}-\bar{y})^2}=1-\frac{\sum e_{i}^2}{\sum(y_{i}-\bar{y})^2} R2=∑(yi​−yˉ​)2∑(yi​^​−yˉ​)2​=1−∑(yi​−yˉ​)2∑ei2​​
3.相关系数
Corr(yi−yi^)=∑(yi−yˉ)(yi^−yˉ)∑(yi−yˉ)2∑(yi^−yˉ)2Corr(y_{i}-\hat{y_{i}})=\frac{\sum (y_{i}-\bar{y})(\hat{y_{i}}-\bar{y})}{\sum(y_{i}-\bar{y})^2 \sum(\hat{y_{i}}-\bar{y})^2} Corr(yi​−yi​^​)=∑(yi​−yˉ​)2∑(yi​^​−yˉ​)2∑(yi​−yˉ​)(yi​^​−yˉ​)​
注: 拟合优度等于yi−yi^y_{i}-\hat{y_{i}}yi​−yi​^​之间相关系数的平方

假设检验

1.β0^,β1^\hat{\beta_{0}},\hat{\beta_{1}}β0​^​,β1​^​的概率分布

2.ttt检验
H0:β1=0⟷H1:β1≠0H_{0}:\beta_{1}=0\longleftrightarrow H_{1}:\beta_{1}\neq 0 H0​:β1​=0⟷H1​:β1​=0
构建检验统计量:
t=(β1^−β1)/[σ/∑(xi−xˉ)2]SSE/(n−2)σ2=β1^−β1Sβ1^∼t(n−2)t=\frac{(\hat{\beta_{1}}-\beta_{1})/[\sigma /\sqrt{\sum(x_{i}-\bar{x})^2}]}{\sqrt{SSE/(n-2)\sigma^2}}=\frac{\hat{\beta_{1}}-\beta_{1}}{S_{\hat{\beta_{1}}}} \sim t(n-2) t=SSE/(n−2)σ2​(β1​^​−β1​)/[σ/∑(xi​−xˉ)2​]​=Sβ1​^​​β1​^​−β1​​∼t(n−2)
拒绝法则:
(1)P值:P值≤α\le α≤α,则拒绝H0H_{0}H0​
(2)临界值法:若t≤−tα/2t\le-t_{\alpha /2}t≤−tα/2​或t≥tα/2t\ge t_{\alpha/2}t≥tα/2​,则拒绝H0H_{0}H0​
3.第I类错误和第II类错误

4.F检验
H0:β1=0⟷H1:β1≠0H_{0}:\beta_{1}=0 \longleftrightarrow H_{1}:\beta_{1}\neq 0 H0​:β1​=0⟷H1​:β1​=0
构造检验统计量:
F=MSRMSE=SSR/1SSE/(n−2)∼F(1,n−2)F=\frac{MSR}{MSE}=\frac{SSR/1}{SSE/(n-2)}\sim F(1,n-2) F=MSEMSR​=SSE/(n−2)SSR/1​∼F(1,n−2)
拒绝法则同上。

注:
(1)拒绝H0H_{0}H0​只能得到x和y之间存在显著性关系,并不意味着x与y的因果关系和线性关系;
(2)显著性检验仅仅能说明在x的样本观测范围内,x和y是相关的,而且这个线性关系只是在x的样本观测值范围里,解释了y的变异性的显著部分。

估计和预测

  1. y^\hat{y}y^​可以被用作y的平均值(E(y))的一个点估计
    若令x∗x^*x∗为自变量x的给定值,y∗y^{*}y∗为x=x∗x=x^*x=x∗时,y的可能值(是一个随机变量),E(y∗)E(y^*)E(y∗)为x=x∗x=x^*x=x∗时,因变量y的平均值或期望值;y^∗=β0^+β1x∗\hat{y}^*=\hat{\beta_{0}}+\beta_{1}x^*y^​∗=β0​^​+β1​x∗为x=x∗x=x^*x=x∗时,E(y∗)E(y^*)E(y∗)的点估计值和y∗y^*y∗的一个预测值。

2.置信区间(E(y∗)E(y^*)E(y∗)的区间估计)

3.预测区间(y∗y^*y∗的区间估计)

多元线性回归模型

模型及古典模型假设

1.一般的多元线性回归模型可写为
yi=β1xi1+β2xi2+...+βKxiK+ϵi=Xβ+ϵy_{i}=\beta_{1}x_{i1}+\beta_{2}x_{i2}+...+\beta_{K}x_{iK}+\epsilon_{i} =X \beta+\epsilon yi​=β1​xi1​+β2​xi2​+...+βK​xiK​+ϵi​=Xβ+ϵ
2. 模型假设
(1)线性假定:
总体模型如上式,线性假设的含义是每个解释变量对yty_{t}yt​的边际效应为常数。
(2)严格外生性
E(ϵi∣X)=E(ϵi∣x1,...,xn)=0,(i=1,2,...,n)E(\epsilon_{i}|X)=E(\epsilon_{i}|x_{1},...,x_{n})=0, (i=1,2,...,n) E(ϵi​∣X)=E(ϵi​∣x1​,...,xn​)=0,(i=1,2,...,n)
即ϵi\epsilon_{i}ϵi​均值独立于所有解释变量的观测数据,而不仅仅是同一观测数据xix_{i}xi​中的解释变量。
(3)不存在“严格多重共线性”,即数据矩阵X列满秩。
(4)球形扰动项,即扰动项满足同方差、无自相关, 所以ϵ\epsilonϵ的协方差矩阵满足:
Var(ϵ∣X)=σ2InVar(\epsilon|X)=\sigma^2 I_{n} Var(ϵ∣X)=σ2In​
(5)在给定X的情况下,ϵ∣X\epsilon|Xϵ∣X服从正态分布,即ϵ∣X∼N(0,σ2In)\epsilon|X \sim N(0,\sigma^2 I_{n})ϵ∣X∼N(0,σ2In​).

OLS估计量

对β1,β2,...,βK\beta_{1}, \beta_{2},..., \beta_{K}β1​,β2​,...,βK​分别求偏导得:
β^=(X′X)−1X′y\hat{\boldsymbol{\beta}}=(X'X)^{-1}X'y β^​=(X′X)−1X′y

OLS的小样本性质

小样本性质指,无论样本容量多少,这些性质都成立。根据以上古典模型假设,有:

小样本下的统计推断

- 对单个系数的t检验
同一元回归
- F检验
(1)根据沃尔德检验原理
对于多元线性回归,原假设为:
H0:β2=...=βK=0H_{0}:\beta_{2}=...=\beta_{K}=0 H0​:β2​=...=βK​=0
写成向量形式,即为:
H0:Rβ=rH_{0}:\boldsymbol{R \beta=r} H0​:Rβ=r
其中r为(K-1)维列向量, R为(K-1)*K维矩阵,且rank(R)=K-1.
根据沃尔德检验原理,由于β^\hat{\beta}β^​ 是β\betaβ的估计量,故如果H0成立,则(Rβ^−r)(\boldsymbol{R\hat{\beta}-r})(Rβ^​−r)应该比较接近于零向量,这种接近程度可用其二次型来衡量:
(Rβ^−r)′[Var(Rβ^−r)]−1(Rβ^−r)(\boldsymbol{R\hat{\beta}-r})'[Var(\boldsymbol{R\hat{\beta}}-r)]^{-1}(\boldsymbol{R\hat{\beta}}-r) (Rβ^​−r)′[Var(Rβ^​−r)]−1(Rβ^​−r)
其中
Var(Rβ^−r)=Var(Rβ^)=RVar(β^)R′=σ2R(X′X)−1R′\begin{aligned} Var(\boldsymbol{R\hat{\beta}}-r)=Var(\boldsymbol{R\hat{\beta}}) =\boldsymbol{RVar(\hat{\beta})R'} =\sigma^2 \boldsymbol{R(X'X)^-1 R'} \end{aligned} Var(Rβ^​−r)=Var(Rβ^​)=RVar(β^​)R′=σ2R(X′X)−1R′​
定理: 在假设5.1-5.5均满足,且原假设也成立的情况下,则F统计量服从自由度为(m,n-K)的F分布:
F=(Rβ^−r)′[R(X′X)−1R′]−1(Rβ^−r)/ms2∼F(m,n−K)F=\frac{\boldsymbol{(R\hat{\beta}-r)'[R(X'X)^{-1} R']^{-1}(R\hat{\beta}-r)}/m}{s^2} \sim F(m,n-K) F=s2(Rβ^​−r)′[R(X′X)−1R′]−1(Rβ^​−r)/m​∼F(m,n−K)
(2)似然比原理表达式
考虑以下约束极值问题:
minβ^SSR(β^),s.t.Rβ^=rmin_{\hat{\beta}} SSR(\boldsymbol{\hat{\beta}}), s.t. \boldsymbol{R\hat{\beta}=r} minβ^​​SSR(β^​),s.t.Rβ^​=r
记有约束回归的残差平方和为SSR *,无约束回归的残差平方和为SSR,在H0成立时,(SSR∗−SSR)(SSR^{*}-SSR)(SSR∗−SSR)不应很大,因此有:
F=(SSR∗−SSR)/(K−1)SSR/(n−K)F=\frac{(SSR^{*}-SSR)/(K-1)}{SSR/(n-K)} F=SSR/(n−K)(SSR∗−SSR)/(K−1)​
(3)借助平方和分解公式
如果原假设H0H_{0}H0​成立,则
MSR=SSR/(K−1),MSE=SSE/(n−K)MSR=SSR/(K-1), MSE=SSE/(n-K) MSR=SSR/(K−1),MSE=SSE/(n−K)
为σ2\sigma^{2}σ2的两个独立估计量,因此,它们的比值应该接近1。构造检验统计量如下:
F=SSR/(K−1)SSE/(n−K)∼F(K−1,n−K)F=\frac{SSR /(K-1)}{SSE/(n-K)} \sim F(K-1,n-K) F=SSE/(n−K)SSR/(K−1)​∼F(K−1,n−K)

大样本OLS

1.为何要发展大样本理论?
(1)小样本理论的假设过强

  • 严格外生性假设意味着解释变量与所有的扰动项均正交;
  • 小样本理论假设扰动项为正态分布,而现实中可能服从任何分布。

(2)在小样本理论的框架下,必须研究统计量的精确分布
(3)使用大样本理论的代价是要求样本容量大

2.OLS的大样本性质
(1)β^\hat{\beta}β^​为一致估计量

  1. 定义: 考虑参数β\betaβ的估计量βn^\hat{\beta_{n}}βn​^​,其中下标n表示样本容量,如果βn^\hat{\beta_{n}}βn​^​依概率收敛到β\betaβ,则称βn^\hat{\beta_{n}}βn​^​为β\betaβ的一致估计量。
    2. 证明过程如下:

    (2)β^\hat{\beta}β^​服从渐近正态分布
    (a)定义:如果n(β^n−β)→N(0,σ2)\sqrt{n}(\hat{\beta}_{n}-\beta)\rightarrow N(0,\sigma^2)n​(β^​n​−β)→N(0,σ2),则称βn^\hat{\beta_{n}}βn​^​为渐近正态,称σ2\sigma^2σ2为其渐近方差,记为Avar(β^n)Avar(\hat{\beta}_{n})Avar(β^​n​)。
    (b)渐近协方差矩阵 的表达式为:

大样本统计推断

参考书目

【1】 陈强,计量经济学及Stata应用,高等教育出版社.
【2】贾俊平,何晓群,金勇进, 统计学,中国人民大学出版社.
【3】戴维 安德森,丹尼斯 斯威尼,商务与经济统计(第十三版)

统计学|线性回归模型总结相关推荐

  1. 【统计学笔记】如何判断变量间相关关系,并建立一元线性回归模型?

    本章内容: 判断两个变量间是否有相关关系,且关系强度如何? 如何建立一元线性回归模型,且模型效果如何? 如何利用回归方程进行预测? 为什么要进行残差分析,及如何进行分析? 索引

  2. plor 回归的r方_简单线性回归模型

    点击"蓝字"关注我们吧 1 导言 回归分析是一个古老的话题.一百多年前,英国的统计学家高尔顿(F. Galton,1822-1911)和他的学生皮尔逊(K. Pearson,185 ...

  3. 机器学习实战4-sklearn训练线性回归模型(鸢尾花iris数据集分类)

    不贴图都没人看系列.... 线性回归推导: 上图求导部分有误,少些一个转置符号,更正为: 逻辑回归推导: (公式中"ln"和"log"表示一个意思,都是以&qu ...

  4. 如何衡量多元线性回归模型优劣

    转载自:http://datakung.com/?p=50 最近再做一些多元回归分析方面的分析,但对于得出的回归模型的好坏不知道如何才判断,于是查找了一下相关的教材书籍,找到了张文彤老师写的<S ...

  5. 预测分析:R语言实现2.4 评估线性回归模型

    2.4 评估线性回归模型 再次利用lm()函数,用线性回归模型来拟合数据.我们的两套数据集会用到上述数据框里剩下的所有输入特征.R提供了一种编写公式的简写方式,它可以把某个数据框里的所有列作为特征,除 ...

  6. 使用Excel创建线性回归模型

    作者|RAM DEWANI 编译|VK 来源|Analytics Vidhya 概述 你可以在Excel中执行建模,只需几个步骤 下面是一个教程,介绍如何在Excel中构建线性回归模型以及如何解释结果 ...

  7. 【项目实战】Python实现多元线性回归模型(statsmodels OLS算法)项目实战

    说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取. 1.项目背景 回归问题是一类预测连续值的问题,而能满足这样要求的数学模型称作回 ...

  8. 一元线性回归模型及其Python案例

    回归的概念:(其实就是用曲线拟合的方式探索数据规律) 回归问题的分类: 一元线性回归: 线性回归模型是利用线性拟合的方式探寻数据背后的规律.如下图所示,先通过搭建线性回归模型寻找这些散点(也称样本点) ...

  9. R语言构建多元线性回归模型预测汽车的耗油效率

    目录 确定研究目的以及确定因变量和自变量 数据预处理 缺失值处理 异常值处理 估计回归模型参数,建立模型 判断数据是否满足多重线性回归假设条件 (1).线性 (2).独立性 (3).正态性 (4).方 ...

最新文章

  1. 合肥工业大学—SQL Server数据库实验五:创建和删除索引
  2. 使用说明 vector_C++核心准则编译边学-F.20 输出结果时应该使用返回值
  3. JavaScript 同时建立多个websocket连接
  4. JDBC批量操作性能提升
  5. 华为平板wps语音朗读_打工人必备的手机端WPS小技巧
  6. DownList下的部门树
  7. SpringBoot 添加junit单元测试+Spring Boot 的测试类库
  8. Xshell 6免费版
  9. 有了BBdoc文档搜索,就不要使用DocFetcher 全文搜索了
  10. swift code银行代码怎么查询呢?
  11. oracle box怎么全屏,Oracle VM VirtualBox 虚拟机设置全屏与共享
  12. The 2019 ACM-ICPC China Shannxi Provincial Programming Contest B. Product(杜教筛+约数)
  13. 区块链技术可简化房地产交易流程
  14. html网站设计基础
  15. 110个常用的jquery特效和插件
  16. 剑灵认证服务器系统出错,剑灵手游程序错误怎么办 和服务器断开官方解决
  17. 牛客题目 - 白色相簿(并查集)
  18. c语言程序中复合句用什么表示,c语言程序设计(包云)c第1章概述
  19. 名词解释第七十讲:基金会
  20. 51自学网AutoCAD2014室内设计 AutoCAD2009施工图教程 CAD布局及规范作图教程 室内手绘入门教程...

热门文章

  1. JS实现浏览器打印PDF(使用HttpPrinter打印插件)
  2. 小程序申请体验版生成二维码
  3. java 网站服务器ip地址,java服务器ip地址
  4. Flutter插件开发-电池电量管理插件示例
  5. 利用微信第三方平台制作微信抽奖的优势以及一个成功的微信抽奖活动方案分享!
  6. 【2019年05月16日】A股最便宜的股票
  7. Word 2013 Bible 免积分下载
  8. WINCE里随时用HOT KEY切出中文输入法
  9. 远程水箱自动检测控制系统
  10. elbycheck.exe