回归标准差和残差平方和的关系_一文详解经典回归分析
在如今机器学习、数据科学、人工智能热潮下,回归分析似乎成了家喻户晓的东西。实际上回归分析自Galton爵士提出以及Pearson和Fisher的理论的加持,经过一百多年的发展,早已成了发现客观规律的有力武器。回归分析的文章已经多得数不胜数了,这篇文章也许会有点不同:我一直力求详细。这篇文章是一文详解t检验的延续,从一元线性回归的理论出发,涉及到回归系数的估计、无偏性的证明、方差的计算、显著性检验和预测,再推广到多元线性回归模型(用矩阵来研究会非常方便)。
从函数到回归模型
早在初中我们就学过一元一次函数:
给定
确定的直线,只需要两点就可以确定的直线,给出一个新的
只不过我们更习惯这样的表达:
要注意的是(1)式不是回归模型,(2)式才是。究其原因在于(1)式代表一条确定的直线,而(2)式含有未知的随机扰动项。只有含随机扰动项的才是回归模型。回归模型与直线的相同点是自变量和因变量都是线性关系,不同点在于前者是不确定的,后者是确定的。
世界纷繁复杂,确定相比不确定简直是小巫见大巫。(2)式是真实的客观规律,但是未知、不可观测的。但我们可以假设要研究的因变量
关于自变量
的条件期望是自变量
的确定的线性关系,即:
假设中的
回归系数。为了检验这个假设,我们要利用样本数据估计出
(4)式称为经验回归方程,这是对真实的、不可观测的(2)式的估计。
被解释变量(dependent variable)、响应变量(response)、内生变量,
解释变量(independent variable)、外生变量。但一般
是人为给定的常量,只有
是变量。
(2)、(3)和(4)可以推广到多个解释变量的情形:
基本假定
基本假定是对于随机扰动项
- 零均值、等方差、无自相关(Gauss-Markov假定)
- 正态分布、相互独立假定
相互独立
其中
这两个基本假定是不一样的。
由于
这一点在后面的推导中很有用。
一元线性回归模型
这部分我们结合向量来推导。对于
其中随机扰动项
其中
设计矩阵(Design Matrix):
这样模型可改写为:
1.利用最小二乘法估计回归系数并证明存在且唯一
估计回归系数的一种方法是最小二乘法(Least Square Method, LSE),为了与广义最小二乘法相区别,有人也称之为普通最小二乘(Ordinary Least Square, OLS)。如果回归方程对样本拟合得较好,能较好地反映客观规律,那么真实值
其中
只需要对于
这两式进一步化简:
解方程组(加帽子):
得到最小二乘估计:
实际上
不妨记:
那么(13)可以写为:
实际上(13)还可以改写为:
或者:
(14)在后面会用到。
有一个问题,这里求偏导数并令其为0得到的是
由于
我们定义残差
那么(9)和(10)说明了如下事实:
也就是说
2.极大似然估计
上面使用了最小二乘法来估计回归系数,也可以考虑极大似然估计(Maximum Likelihood Estimation, MLE)。由于
样本的似然函数:
其中
。
对数似然函数:
其中
令对数似然函数取得最大值的必要条件:
解得:
再将上式带回对数似然函数:
它取得最大值
3.一些性质
先证明
线性性质。由(14):
其中
则:
考察
说明了
无偏性。
由(11):
接着考虑回归系数的方差及它们的协方差。
首先给出引理:
Lemma 1
若
,,则:若
,则:
根据Lemma 1:
由Lemma 1、(18)和(19):
上式还可以接着化简:
由(11)、(17)、Lemma 1和(19),考察它们的协方差:
给定解释变量一个新的取值
实际上
一定要与真实值
4.假设检验
回到开始的问题,我们要验证建立这个模型的假设是否成立,也就是进行假设检验。有两个假设检验需要做,一个是对回归系数的显著性
要检验解释变量
当
当
我们首先回顾一下
若
相互独立,那么:
然而要构造一个
统计量有一个非常漫长的过程但这是值得的,在这个过程中我们还能定义一些概念,方便
相互独立的标准正态变量和卡方变量。
我们首先就定义
总离差平方和:
回归平方和:
残差平方和:
实际上
总离差平方和分解式
考虑上式中的最后两项,由(8)和(15)、(16)的向量化表达:
从而:
根据(4)、(15)、(16),上式左边等于:
由:
两式相减得到:
我们先给出
考虑它的期望,要用到(19):
我们再考虑
计算它的期望,其中用到(15)、(16)、(19)、(20)和(22):
下面考虑
再考虑
由(25)、(26)得到:
将(28)、(29)带入(25)得到:
(30)式实际上说明了
是
的无偏估计,记作
这一点在构造
统计量中非常关键。在之后我会给出它的另一个证明(见(42))。
接着就是寻找一个卡方变量,这一部分在一文详解t检验中的4.回归系数的显著性检验和附录2.3已经给出,只需取
附录2.4):
其中
我们只需对它标准化:
那么
实际上:
是
回到假设检验:
给定显著性水平
实际上也可以对
类比
假设检验和置信区间的步骤也是类似的。
关于线性回归方程整体的显著性
检验可以参考一文详解F检验中的3.线性回归方程整体的显著性检验。只需取
当
对于一元线性回归,
这说明
实际上对于一元线性回归,还有一种检验:相关系数检验可以做。相关系数的定义:
对这个定义稍加推导:
得到
为了说明这一点,我们首先给出决定系数(Coefficient of Determination)**的概念:
根据第一个等号,直观上它的意义就是
回归方程能解释的被解释变量的变差占被解释变量总变差的比例。显然这个值越接近1说明拟合效果越好,但未必拟合效果越好的就越实用,也许模型是有结构性问题的。
实际上又有一个结论:对于一元线性回归,可决系数等于相关系数的平方(神奇的一元线性回归!),利用(24)容易得到证明:
利用(34)、(35)和(36)我们就可证明
(37)说明了
或
需要强调的是,(34)到上式的这些结论只对一元线性回归成立。
接下来我们研究残差
的性质,并利用由此导出的一些结论研究响应变量新值的预测问题。回顾一下残差的定义:
由(15)和(16)很自然地可以得到:
由此可以导出残差向量与1向量和x向量正交,这也是之前就提到过的。下面计算残差的平方:
其中
上述步骤中有
残差和预测值不相关。残差的方差:
另一种方法考虑向量化运算,先定义除第
那么:
根据Lemma 1:
与之前的结果一致。我们将括号中的定义为:
称作杠杆值。它可以用来度量第
高杠杆点(high leverage case),是离群点、异常点。
结合杠杆值的定义,残差的平方可以写为:
之前说过要给出(30)的另一种证明。回顾这个定义:
那么:
预测值的方差可以写为:
说明高杠杆点的响应变量的预测值的方差较大。说明高杠杆点不仅影响回归方程也影响自身预测值的波动程度。下面就来考察一下给定解释变量新值
,响应变量新值
的点估计(也可叫预测)、区间估计和响应变量新值的期望的区间估计。之前遗漏了一个简单但很重要的结论:
也即
但要注意的是,
是随机变量,不能说
是
的无偏估计,只能说
是
的无偏估计,或者说
是
关于
的条件期望的无偏估计。
实际上还有:
之前也得到了:
实际上
但
由于新值
从而新值的期望的
从(49)和(50)可知新值的预测区间和新值的期望的预测区间只相差根号下的1。
多元线性回归模型
模型形式:
写为矩阵形式:
其中:
除了两个基本假定:
- 零均值、等方差、无自相关(Gauss-Markov假定)
- 正态分布、相互独立假定
相互独立
多元的情形还需增加一条:
- 是满秩矩阵,即。且要求样本量大于解释变量的个数:。
有关回归系数的估计值、系数显著性和方程显著性的假设检验详见一文详解t检验和一文详解F检验。这里给出:
令
其中
总离差平方和:
回归平方和:残差平方和:
令:
表示解释变量的新值。类似一元的情形,响应变量新值的区间预测和响应变量新值的期望的区间预测:
接着要介绍广义
检验。实际上上述
为了加以区分,我们将
可以发现它的残差平方和:
是等于
分母仍然是原始
等价于:
其中:
那么:
分别计算这两个残差平方和,带入计算、查表即可做检验。实际上,“
广义
检验
这部分详细内容见线性回归模型中的一般的F检验
一般地,对于矩阵
其
该检验的意义与
再举一个例子加深印象。对于回归模型:
作检验:
这等价于:
其中:
且
实际上可以令
再计算两个模型的残差平方和
实际上广义
检验可以与
检验等价。也就是作检验:
等价于:
其中
说明了两种检验的等价性。
拟合优度
多元线性回归也有决定系数的概念:
但它不等于
修正的决定系数(Adjusted Coefficient of Determination):
实际上就是对两个平方和分别除以它的自由度。容易证明:
这个概念给了两个解释变量个数不同的模型的比较以依据。修正的决定系数越大,拟合优度越好。
回归标准差和残差平方和的关系_一文详解经典回归分析相关推荐
- 回归标准差和残差平方和的关系_期望、方差、标准差、协方差、相关系数、协方差矩阵、残差、残差平方和(SSE)、标准化残差,残差分析...
通过学习,结合网络上搜索, 把相关概念整理了一下. 1.期望(均值.数学期望) 期望是 度量数据的集中趋势的一个重要指标,是研究随机变量的一个重要数字特征 离散型 随机变量Xi,其对因的概率P(Xi) ...
- 回归标准差和残差平方和的关系_用回归来理解方差分析(三):Ⅰ型平方和与Ⅲ型平方和...
阅读提示 为了更好理解这篇文章,你可能需要了解:两因素方差分析 平方和的分解 方差分析模型 虚拟变量 推荐先阅读 文中涉及到的代码只是为了验算,如果不熟悉代码的同学可以忽略,直接看结果就行.也可以自己 ...
- 没有执行此操作所需的足够可用空间。_一文详解 MySQL 高可用之 DRBD | 原力计划...
作者 | wzy0623责编 | 屠敏出品 | CSDN 博客大多数MySQL高可用解决方案都是基于MySQL自带的各种复制技术.本质上是将一个实例上的数据更新或事务,在其它实例上进行重放,从而完成数 ...
- 回归标准差和残差平方和的关系_ISLR实验:简单线性回归
本文源自<统计学习导论:基于R语言应用>(ISLR) 中<3.6 实验:线性回归>章节 简单线性关系 通过拟合计算模型参数 \beta_{0} 和 \beta_{1},使用下面 ...
- R 多变量数据预处理_超长文详解:C语言预处理命令
一 前言 预处理(或称预编译)是指在进行编译的第一遍扫描(词法扫描和语法分析)之前所作的工作.预处理指令指示在程序正式编译前就由编译器进行的操作,可放在程序中任何位置. 预处理是C语言的一个重要功能 ...
- nacos 本地测试_一文详解 Nacos 高可用特性
简介:我今天介绍的 Nacos 高可用,是 Nacos 为了提升系统稳定性而采取的一系列手段.Nacos 的高可用不仅仅存在于服务端,同时也存在于客户端,以及一些与可用性相关的功能特性中,这些点组装起 ...
- c++ 多重背包状态转移方程_动态规划入门——详解经典问题零一背包
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是周三算法与数据结构专题的第12篇文章,动态规划之零一背包问题. 在之前的文章当中,我们一起探讨了二分.贪心.排序和搜索算法,今天我们来 ...
- hfss仿真时间过长怎么解决_一文详解相控阵天线仿真技术
天线是移动通信系统的重要组成部分,随着移动通信技术的发展,天线形态越来越多样化,并且技术也日趋复杂.进入5G时代,大规模MIMO.波束赋形等成为关键技术,促使天线向着有源化.复杂化的方向演进.天线设计 ...
- 狄利克雷分布公式_一文详解隐含狄利克雷分布(LDA)
一.简介 隐含狄利克雷分布(LatentDirichletAllocation,简称LDA)是由DavidM.Blei.AndrewY.Ng.MichaelI.Jordan在2003年提出的,是一种词 ...
- l298n电机哪一端为正_一文详解电机倒顺开关接法!
现在的开关种类多种多样,接线原理虽然大同小异,但很多人依然不太会接.今天小编给大家分享的是倒顺开关的接法,希望对大家有所帮助. 一.倒顺开关作用 首先我们需要明白倒顺开关的作用,它的作用主要是连通.断 ...
最新文章
- GitLab CI流水线配置文件.gitlab-ci.yml详解(三)
- 服务器oracle11g卸载,卸载Oracle11g步骤详解
- 用MyEclipse开发Spring入门
- c++以空格分开的输入数组_技术贴,MATLAB矩阵与数组汇总讲解
- 图形界面报错“已拒绝X11转移申请”的解决方法
- iOS网络编程-配置iCloud-图文解说
- mybatis的批量操作
- Python 学习笔记 (8)—— sys模块
- Windows 注册表开机启动总结
- id3决策树_信息熵、信息增益和决策树(ID3算法)
- 前端学习(2155):htmlwebpackplugin的使用
- linux游戏调试,LINUX游戏服务器的安装与调试.doc
- Python crypto模块实现RSA和AES加密解密
- 安卓学习笔记20:Fragment入门
- mysql完备_mysql简单完备脚本
- macOS Big Sur在APFS格式的驱动器上支持Time Machine有几个问题?
- IC前端数字验证导学
- python内置函数用来返回列表、元组、字典_python程序设计第一章基础知识 题库及选解...
- 实现嵌入式linux自动同步网络时间---NTP
- 磨金石教育分享:43款字体设计工具大集合,超赞!
热门文章
- Windows远程访问Linux (Ubuntu)服务器
- 论文简述 | Line Flow Based SLAM
- 深度强化学习DQN(附DQN训练Flappy Bird源代码)
- 一步步教你轻松学主成分分析PCA降维算法
- ABP框架系列之四十九:(Startup-Configuration-启动配置)
- jquery实现无限滚动瀑布流实现原理
- SpringMVC,3种不同的URL路由配置方法 [转]
- uva 12086 树状数组
- David Cutler,VMS和Windows NT的首席设计师 (zz.is2120)
- 机器学习第五回——学习方法与学习曲线