计量笔记专栏

计量笔记(一) | OLS估计量推导

计量笔记(二) | OLS估计量性质

前言

前面通过计量笔记(一) | OLS估计量推导和计量笔记(二) | OLS估计量性质我们已经推导出了参数的OLS估计量的矩阵表达式即β^=(XτX)−1XτY\pmb{\hat\beta} = (X^{\tau}X)^{-1}X^{\tau}Yβ^​​β^​​​β^​=(XτX)−1XτY,以及证明了在经典假设成立的条件下参数的OLS估计量的矩阵表达式是最佳线性无偏估计量,以及随机扰动项σ2\sigma^2σ2的无偏估计σ^2\hat\sigma^2σ^2

接下来就是要对线性模型进行检验,所谓检验可以分为经济意义检验和统计准则检验,经济意义检验就是判断估计参数的正负号以及大小是否恰当,只有通过经济意义检验才能进行统计准则检验。统计准则检验包括拟合优度检验(R2R^2R2检验)、回归模型总体显著性检验(FFF检验)、回归系数的显著性检验(ttt检验)

拟合优度检验

拟合优度是指多元线性回归估计模型对观测值之间的拟合程度,直观上理解是观测值样本点离拟合回归直线上有多近。高斯-马尔可夫定理:在线性模型的经典假设下,参数的最小二乘估计量是线性无偏估计量中方差最小的估计量(BLUE估计量)。但是拟合程度有多好,需要构建拟合优度指标进行衡量

首先需要对YYY进行总变差分解:
∑(yi−y‾)2=∑[(yi−yi^)+(yi^−y‾)]2=∑ei2+2∑ei(yi^−y‾)+∑(yi^−y‾)2\sum{(y_i-\overline{y})^2}= \sum{[(y_i-\hat{y_i})+(\hat{y_i}-\overline{y})]^2}= \sum{e_i^2}+2\sum{e_i(\hat{y_i}-\overline{y})}+\sum{(\hat{y_i}-\overline{y})^2} ∑(yi​−y​)2=∑[(yi​−yi​^​)+(yi​^​−y​)]2=∑ei2​+2∑ei​(yi​^​−y​)+∑(yi​^​−y​)2
下面要先插入OLS的正交性问题

我们在计量笔记(一) | OLS估计量推导中得出Xτe=0X^{\tau}\pmb{e}=\pmb{0}Xτeee=000,由于Y^=Xβ^\hat{Y}=X\hat{\pmb{\beta}}Y^=Xβ​β​​β^​,所以可以得出下式
Y^τe=(Xβ^)τe=β^τXτe=β^τ⋅0=0\hat{Y}^{\tau}\pmb{e} =(X\hat{\pmb{\beta}})^{\tau}\pmb{e} =\hat{\pmb{\beta}}^{\tau}X^{\tau}\pmb{e} =\hat{\pmb{\beta}}^{\tau}\cdot\pmb{0} =0 Y^τeee=(Xβ​β​​β^​)τeee=β​β​​β^​τXτeee=β​β​​β^​τ⋅000=0
两个向量之间的积为0,说明两个向量之间是正交的,由此可见残差向量e\pmb{e}eee与常数向量1\pmb{1}111正交(残差之和为0)、与解释向量XτX^{\tau}Xτ正交,与拟合值向量Y^\hat{Y}Y^正交

如何理解残差向量e\pmb{e}eee与拟合值向量Y^\hat{Y}Y^正交?由Y=Y^+eY=\hat{Y}+\pmb{e}Y=Y^+eee可知,拟合值Y^\hat{Y}Y^为被解释变量YYY向解释变量超平面XXX的投影,而残差e\pmb{e}eee就是拟合值Y^\hat{Y}Y^到解释变量超平面XXX的点到平面的垂直距离(妙)

言归正传,根据OLS的正交性,残差向量与拟合值向量和常数向量正交∑ei(yi^−y‾)=∑eiyi^−∑eiy‾=0\sum{e_i(\hat{y_i}-\overline{y})}=\sum{e_i\hat{y_i}}-\sum{e_i\overline{y}}=0∑ei​(yi​^​−y​)=∑ei​yi​^​−∑ei​y​=0

由此,总变差方程式可以变成下式
∑(yi−y‾)2=∑(yi−yi^)2+∑(yi^−y‾)2\sum{(y_i-\overline{y})^2}= \sum{(y_i-\hat{y_i})^2}+\sum{(\hat{y_i}-\overline{y})^2} ∑(yi​−y​)2=∑(yi​−yi​^​)2+∑(yi​^​−y​)2
∑(yi−y‾)2\sum{(y_i-\overline{y})^2}∑(yi​−y​)2:总离差平方和,Total Sum of Squares, TSS,反映因变量观测值总的变异程度

∑(yi−yi^)2\sum{(y_i-\hat{y_i})^2}∑(yi​−yi​^​)2:残差平方和,Residual Sum of Squares, RSS,反映因变量回归估计值总的变异程度,它是因变量观测值总变差中由解释变量解释的那部分变差,也称解释变差

∑(yi^−y‾)2\sum{(\hat{y_i}-\overline{y})^2}∑(yi​^​−y​)2:回归平方和,Explained Sum of Squares, ESS,反映因变量观测值与估计值之间的总变差

综上分析可知,总离差平方和由残差平方和和回归平方和两部分构成。显然,在总离差平方和一定时,回归平方和越大,残差平方和就会越小,那么因变量回归估计值总的变异程度越能解释因变量观测值总的变异程度,即解释变差的解释能力越强,说明回归模型对观测值的拟合程度越高

定义可决系数R2R^2R2来描述拟合程度
R2=ESSTSS=1−RSSTSSR^2=\frac{ESS}{TSS}=1-\frac{RSS}{TSS} R2=TSSESS​=1−TSSRSS​
定义可决系数R2R^2R2有一个显著的特点:如果观测值YiY_iYi​不变,可决系数R2R^2R2将随着解释变量数目的增加而增大。

直观理解是随便加入一个解释变量(即使是对观测值YiY_iYi​影响很小)也会增强解释变差的解释能力,即使这个变量与观测值YiY_iYi​无关(即系数为0),可决系数R2R^2R2起码可以保持不变

那么是否意味着加入越多解释变量,对模型的拟合就越好呢?

在计量笔记(二) | OLS估计量性质随机干扰项方差估计中,我们用σ^2\hat\sigma^2σ^2对σ2\sigma^2σ2进行估计,即
σ^2=∑ei2n−k\hat{\sigma}^2= \frac{\sum{e_i^2}}{n-k} σ^2=n−k∑ei2​​
有些解释变量对观测值YiY_iYi​影响很小,增加这些变量对减少残差平方和没有多大作用,但是引入解释变量的数目越多,kkk越大,如果残差平方和减小不明显,那么σ2\sigma^2σ2估计值σ^2\hat\sigma^2σ^2就会增大,而σ^2\hat\sigma^2σ^2的增大对于推断参数β\pmb{\beta}β​β​​β的置信区间以及对于预测区间的估计,都意味着精度的降低。

为了解决这个问题,引入修正可决系数R‾2\overline{R}^2R2
R‾2=1−RSS/(n−k)TSS/(n−1)\overline{R}^2=1-\frac{RSS/(n-k)}{TSS/(n-1)} R2=1−TSS/(n−1)RSS/(n−k)​
如果增加一个对观测值YiY_iYi​影响较大的变量,那么残差平方和减小比(n−k)(n-k)(n−k)减小更显著,修正可决系数R‾2\overline{R}^2R2就会增大;如果增加一个对观测值YiY_iYi​影响较小的变量,那么残差平方和减小没有(n−k)(n-k)(n−k)减小显著,修正可决系数R‾2\overline{R}^2R2就会减小,说明不应该引入这个解释变量

修正可决系数R‾2\overline{R}^2R2与可决系数R2R^2R2有何联系
R‾2=1−n−1n−kRSSTSS=1−n−1n−k(1−R2)=1−n−1n−k+n−1n−kR2=n−1n−kR2−k−1n−k=(n−k)+(k−1)n−kR2−k−1n−k=R2−k−1n−k(1−R2)\begin{aligned} \overline{R}^2 & = 1-\frac{n-1}{n-k}\frac{RSS}{TSS} \\ & = 1-\frac{n-1}{n-k}(1-R^2) \\ & = 1-\frac{n-1}{n-k}+\frac{n-1}{n-k}R^2 \\ & = \frac{n-1}{n-k}R^2-\frac{k-1}{n-k} \\ & = \frac{(n-k)+(k-1)}{n-k}R^2-\frac{k-1}{n-k} \\ & = R^2-\frac{k-1}{n-k}(1-R^2) \end{aligned} R2​=1−n−kn−1​TSSRSS​=1−n−kn−1​(1−R2)=1−n−kn−1​+n−kn−1​R2=n−kn−1​R2−n−kk−1​=n−k(n−k)+(k−1)​R2−n−kk−1​=R2−n−kk−1​(1−R2)​
由于(k−1)(k-1)(k−1)、(n−k)(n-k)(n−k)、(1−R2)(1-R^2)(1−R2)均大于0,可知
R‾2≤R2\overline{R}^2\le R^2 R2≤R2

即修正可决系数R‾2\overline{R}^2R2不大于可决系数R2R^2R2

修正可决系数R‾2\overline{R}^2R2有可能是负值

修正可决系数R‾2\overline{R}^2R2有可能是一个负值,即R‾2<0\overline{R}^2< 0R2<0,这种情况下会有
R2<k−1n−k(1−R2)(1+k−1n−k)R2<k−1n−kn−1n−kR2<k−1n−kR2<k−1n−1R^2<\frac{k-1}{n-k}(1-R^2) \\ (1+\frac{k-1}{n-k})R^2<\frac{k-1}{n-k} \\ \frac{n-1}{n-k}R^2<\frac{k-1}{n-k} \\ R^2<\frac{k-1}{n-1} R2<n−kk−1​(1−R2)(1+n−kk−1​)R2<n−kk−1​n−kn−1​R2<n−kk−1​R2<n−1k−1​
所以,当R2<k−1n−1R^2<\frac{k-1}{n-1}R2<n−1k−1​时,R‾2<0\overline{R}^2< 0R2<0,这种情况下使用修正可决系数R‾2\overline{R}^2R2将失去意义,作R‾2=0\overline{R}^2= 0R2=0处理。所以修正可决系数R‾2\overline{R}^2R2只适用于因变量YYY与解释变量X2,X3,⋯,XkX_2,X_3,\cdots,X_kX2​,X3​,⋯,Xk​的整体相关程度比较高的情况,因为只有在这种情况下R2R^2R2才不会小于k−1n−1\frac{k-1}{n-1}n−1k−1​

参考资料

[1] 朱建平等,高级计量经济学导论

[2] 孙敬水,中级计量经济学

[3] 陈强,计量经济学与stata应用

计量笔记(三) | 线性模型的拟合优度检验相关推荐

  1. 应用统计学与R语言实现学习笔记(七)——拟合优度检验

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/ESA_DSQ/article/details/71513581 Chapter 7 Goodness ...

  2. 机器学习笔记(三)线性模型

    3.线性模型 3.1基本形式 线性模型(linearmodel)形式简单.易于建模,如果能把问题都用线性模型来刻画,那现今的世界就单调多了,好在我们的宇宙是如此的丰富,以至于需要通过更强大的非线性模型 ...

  3. 回归方程的拟合优度检验_计量经济学第四讲(多元线性回归模型:基本假定,参数估计,统计检验)...

    第三章.经典单方程计量经济学模型:多元线性回归模型 3.1多元线性回归模型及其基本假定 3.1.1多元回归模型及其表示 解释变量至少有两个的线性回归模型,一般形式为 如果不作说明, 是不包括常数项的解 ...

  4. 吴恩达《机器学习》学习笔记三——多变量线性回归

    吴恩达<机器学习>学习笔记三--多变量线性回归 一. 多元线性回归问题介绍 1.一些定义 2.假设函数 二. 多元梯度下降法 1. 梯度下降法实用技巧:特征缩放 2. 梯度下降法的学习率 ...

  5. 回归方程的拟合优度检验_判定一元线性回归方程拟合优度的判定系数R的取值范围...

    展开全部 (1)计算残差32313133353236313431303231363533e58685e5aeb931333431353333平方和Q=∑(y-y*)^2和∑y^2,其中,y代表的是实测 ...

  6. 2×3卡方检验prism_抽样分布之卡方分布02 – 分布拟合优度检验

    前一篇说了卡方分布的定义和来由,以及卡方统计量,这次介绍下如何像卡尔·皮尔逊(Karl·Pearson)一样通过卡方统计量来做分布拟合优度检验Goodness-of-fit Test for Dist ...

  7. 数据分析统计学原理第十二章:多个比例的比较、独立性及拟合优度检验 | 我的统计学原理复习日记

    个或多个总体比例的相等性的检验 例子: 三个或多个总体比例相等性的卡方检验的一般步骤 多重比较方法 我们使用卡方检验得到三个汽车车主总体的总体比例不全相等的结论.因此,有些总体比例之间存在差异,而且研 ...

  8. 计量经济学学习与Stata应用笔记(三)Stata入门实例

    计量经济学学习与Stata应用笔记(三)Stata入门实例 使用的版本为stata15. 电力行业规模报酬的经典研究 本例为Nerlove(1963)对电力行业规模的经典研究. 导入数据 Excel的 ...

  9. 回归方程的拟合优度检验_拟合优度检验

    可决系数 可决系数(coefficient of determination) 如果样本回归线对样本观测值拟合程度越好,各样本观测点与回归线靠得越近,由样本回归做出解释的离差平方和与总离差平方和越相近 ...

  10. J2EE学习笔记三:EJB基础概念和知识 收藏

    J2EE学习笔记三:EJB基础概念和知识 收藏 EJB正是J2EE的旗舰技术,因此俺直接跳到这一章来了,前面的几章都是讲Servlet和JSP以及JDBC的,俺都懂一些.那么EJB和通常我们所说的Ja ...

最新文章

  1. centos sqldeveloper 连接mysql,Oracle SQL Developer 连接 Mysql 等数据库
  2. 10大申请攻略+套磁技巧助你完胜美研申请
  3. LeetCode每日一题 116. 填充每个节点的下一个右侧节点指针
  4. Linux 进程详解
  5. Neo4j:遍历查询超时
  6. C#链接mysql 新手容易出错的问题
  7. Linux下搭建 kafka集群 + zookeeper集群部署 安装、启动、停止
  8. [古诗]有关日本留学生的那些古诗
  9. sendfile实现文件服务器,sendfile
  10. docker 部署 nacos2.x 镜像
  11. 淘宝有什么方法可以一键下载淘宝评论免费的
  12. 奇异秀App:奇异秀秀奇异,用大头视频来拜年
  13. h5支付不能打开支付宝 ios_iOS支付宝H5支付无法返回APP解决方案
  14. 操作系统中的故障恢复控制台意义非凡
  15. 第二章 软件测试基础
  16. Android几种定时任务实现方式汇总
  17. 我对社交电商的了解与看法
  18. surface pro 4恢复问题解决方案
  19. mysql st_contains实现_查看某一个点是否在某个多边形内 使用ST_Contains函数
  20. 【Python】配置Python环境

热门文章

  1. poi解析excel文件(支持xls和xlsx)java学习版
  2. 智鼎逻辑推理题及答案_PreTalent职场说|2020常见校招笔试题型解析
  3. 论文计算机制图,计算机制图教学设计运用论文
  4. cdrx8如何批量导出jpg_Coreldraw 8插件下载|Coreldraw x8高版本文件(保存为coreldraw 8.0版)最新插件_ - 极光下载站...
  5. 【AllenNLP】: 自定义predictor—输入文本输出中文
  6. 阿里邮箱企业版在电脑PC客户端设置方法汇总
  7. c语言调用数学函数根号,不调用库函数求根号x的计算方法(二分/三分/牛顿迭代法)...
  8. QCC3005芯片 Line IN 听歌的时候声音比较小
  9. 关于如何把支持VS2015的插件BabeLua改成支持VS2017
  10. 专科段《质量管理》课程复习资料(2)——单项选择题