一元线性回归决定系数_回归分析|笔记整理(1)——引入,一元线性回归(上)...
大家好!
新学期开始了,不知道大家又是否能够适应新的一学期呢?先祝所有大学生和中小学生开学快乐!
本学期我的专业课是概率论,回归分析,偏微分方程,数值代数,数值逼近,金融时间序列分析,应用金融计量学和商务英语。在所有的这些课程中,回归分析其实相对来说是比较友好的。但是学统计的人应该都会有感觉就是,回归分析这一门课无论是在理论还是课后的软件实践上,都是非常重要的一门统计课。这也是我决定好好花点时间,整理整理这一门课的笔记的原因。
这一份笔记需要有《概率论》和《数理统计》的先修知识。如果你修过工科的《概率统计》应该也够了。因为个人数学专业的缘故,所以这一系列的笔记大部分会关注回归分析的理论而不是实践。个人认为,虽然现在关于回归已经有非常多的软件能够实现,但是只有真正了解它的本质,才能在研发和创新上有路可走。因此这一部分笔记其实非常适合了解回归内容,会使用软件跑回归,但是不太清楚回归的一些基本参数和原理的人去阅读。
我们在之前的《统计学笔记》系列也确实有简单提到过回归分析(第7节),但是远没有这一份笔记来的系统。而且那一篇笔记只是一个简单的勾勒,在具体的原理细节上都说的很不清楚。因此这一系列的笔记,如果会一直更新的话,将会在《统计学笔记》的基础上做进一步系统而深入的细化,并努力把相关的理论解释清楚。
因为暑假的时间很紧张(带孩子去了……),自己的之后的研究规划什么的还没有完全确定,因此暑假其实没有太大的贡献。当然我自己还不清楚会有什么其余的打算。但是不管怎么说,虽然别的内容是否总结整理我还没有定,但是这一系列笔记,我会尽力的去跟上教授的进度,并展现在这里。
我们学校的《回归分析》是根据教授自己的slides进行授课的。所以我们的所有的笔记内容都会与教授的讲义有关。如果需要一本参考书的话,推荐人大的《应用回归分析》。但是教授自己也说了,这书很不理论……
《回归分析》是我上的真正意义上的第一门统计专业的理论课。不可避免的是相比真正的统计学,我的笔记因为自己的理解很多,所以不能保证所有的内容都是“正确无误”的。如果发现了一些问题,也欢迎在评论区指正!
好了,废话就说到这里了,我们开始本节的内容吧。
目录
- 引言——关系与回归的由来
- 一些回归的概念
- 三大基本假设
- 一元线性回归
- 参数估计
- 最小二乘估计
- 最大似然估计
- 参数的统计性质
- 残差关系式
- 的相关性质与统计量
- 最佳线性无偏估计
- 参数估计
- 小结
引言——关系(Correlation)与回归的由来
研究代数方向或者学基础数学的人可能会把“关系”与集合论联系到一起?为了防止出现这个误解,我标注了一下英文……
任何一个合格的大学生,都肯定在高中数学的《选修2-3》中接触过回归(regression),在那个时候我们就知道,回归分析就是给了一些数据点,根据这些数据点画一条直线,然后我们就根据这条直线去做预测。所有学统计的人也应该都会有一种感觉,就是说,统计一定程度上,破坏了数学的严谨性。出现这一条鄙视链的原因是,统计研究的是一种非确定性关系。
作为一个学数学的人,在没接触统计学之前,最烦的就是“不确定”。一加一等于几,你不能说它又是2,又是3。抽象一层来说,就有点“函数”的意思。在初中第一次接触函数就知道,给定一个自变量
确定性关系。它不打马虎眼的,结果是确定的。
那么为什么说统计“不严谨”呢?比方说你研究一个人身高与体重的联系,这个时候,你告诉我一个人的身高
世界的概率和未知。换句话说,世界上任何一个事情,都是有自己的概率分布的。比如说“太阳不可能从西边升起”这句话,实际上暗含的意思是“太阳从西边升起的概率为0”(当然细究一下这句话确实也不够严谨,因为概率为0并不代表不会发生)。所以只能说使用统计去找到某一个“最有可能发生的地方”,然后认为这个“概率最大”的地方就是我们要的结果。比如说我告诉你我身高是184cm,那么通过统计,你可以认为我“最有可能”体重是75kg,那么一般来说,如果作预测,你可能就会说,你“预测”我是75kg。但是实际上不一定是75kg的。
那么回归分析是怎么回事呢?如果我知道对于每一个
概率分布,你就会发现坏事了。下面一个图展现了这个问题,也展现了具体的“非确定性关系”。
为了勾勒出这种“非确定性关系”,我们引入了相关分析和回归分析。相关分析就是很单纯的,研究两个变量之间的关系。我当然可以认为两个变量都是随机变量。但是回归分析,是要研究因果关系的。要求给定的
回归分析的三大基本假设之一。而回归分析,本质上,就是把可能概率最大的点给找出来,然后画在图上。这个我们之后的细节也会涉及到。
其实回归这个词本身也有它自己的来历,感兴趣的可以关注下高尔顿的农场实验。关于关系,就废话这么多。所以感觉学统计就是好,随随便便说废话也没人管我。不像纯数学怎么编废话都编不了几句……
一些回归的概念
首先要说明什么是回归函数。我们之前说了,给定一个
那么什么是线性回归呢?请注意,它是针对回归系数要求线性。比方说常见的多元回归
那么什么是回归方程呢?讲白了,如果回归函数的形式我们找到了,那它就变成回归方程了。比方说我们发现
说到回归方程,就又多了两个概念——理论回归方程和经验回归方程。什么意思?理论回归方程,就是说我们知道了具体的形式,但是不知道系数。一般写成
有人问,为什么说是“经验”回归方程?没有错,通过这么一个回归函数,我们确实可以有法子,在给定我的
能确定
?放心吧,统计学家早就放弃这个打算了。所以实际上我们确实找到了回归系数,但是我们一定是没办法找到“正确的”系数的,因为你没有办法捕获所有的影响
也正是这个原因,我们认为,无论你怎么写回归函数,最终的结果都是有偏差的,这也是引入误差项的原因之一,也就正好引入了回归方程的一般形式:
三大基本假设
勾画出具体的两个变量之间的关系,不做点假设你从哪里下手?所以我们在回归之前,做了三个基本假设。
Notation 1: Three basic assumptions of regression analysis
(1)非随机。(2)
(Gauss-Markov条件)(3)
(正态分布假定)
第一个假设的意思就是“原因要明确”,我们在之前的引言有说。第二个假设是为什么呐?我们做一个数学推导就能看出来。
Deduction 1:
看出来了吗?中间我们用了假设
当然有人问,那如果
第二个假设的第二条是为什么呐?这里的我们的假设的意思相当于,允许有一定的方差,但是误差项之间协方差必须为0,且误差项本身的方差必须在每一个点都相等。一方面,如果几个数据点之间有关系了是什么一个情况?一个经典的例子就是多重共线性。我们不在这里给出这方面的细节,但是我们之后的笔记中会具体的说明有关多重共线性的内容。当然,另一方面,如果每一个点的方差不一样怎么办?这个我们有专门的说法叫异方差性。出现了这种情况的话,统计学家也有自己的方法去解决它,之后的笔记里会涉及到。
第三个假设也很好理解,如果残差项之间不是无关的,那么出现的问题,上一段已经说过了。为什么要假定为“正态分布”呢?除去正态分布的满足的比较好的一些性质以外,还有一个考虑是,它让回归“有办法”能够捕获到“概率最大”的点。下面的图就说明了这一点。
所以,我们差不多算是说完了回归的最基本的一些东西。现在开始,我们要坐上数学的车了……
一元线性回归
参数估计
一元线性回归的基本形式就是
我们之前说过,回归函数就是用来预测非确定性关系的。但是你作为一个函数,总不能连系数都不知道吧?所以才有了估计系数的说法。对于一元线性回归,估计系数自然就是估计
估计参数的方法自然不少,这里主要说两种。
最小二乘估计(OLSE)
要知道,回归分析的基本操作原理是“捕获信息”。也就是说,我们需要通过已有的信息,去推测出新的未知的信息。那么什么是“已有的信息”?自然就是给定的一些数据点了。我们在之前解释过,我们根本不可能完全预测准确,对于给定的
减小误差”的。而最小二乘估计的目的就是去减少这种误差。数学公式表示出来就是
那么为什么要使用平方呢?有人问我用
你怎么求它的极值呢?别忘了,我们既然要“减小误差”,那自然就是需要去寻找它“最小”的时候。怎么寻找极值,所有的高中生都知道应该使用导数。行了,绝对值处处可导吗?好像不是吧。基于这个考虑,我们使用了平方。
好的,回到正题,要注意的地方是
具体的推导细节,在《统计学笔记》的第7节中可以找到,这里我们直接给出推导的结果。
Notation 2:
因为这里我们找到了这两个具体的系数,所以自然,系数的符号要改为
最大似然估计(MLE)
只要你学过《概率统计》,就不会感到陌生。
我们之前对
显然这个函数直接求导是不切实际的,因此我们取一下对数,得到
当然了,这并不会让很多人觉得简单很多,因为看上去还是存在一定的复杂度的。但是别忘了,什么是最大似然估计?意思就是要最大化
有没有感觉似曾相识?对,这就是OLSE了,所以实际上,最后我们得到的结果,
要估计
Notation 3:
参数的统计性质
其实在之前,我们就已经涉及到了不少新的参数,它们自然也有自己的性质,我们一一介绍。
残差关系式
我们回到最小二乘估计的过程中去,求偏导得到的两个式子是什么?
Notation 4:
别忘了,估计完
Notation 5:
首先是线性性。我们来看一下
它实际上就是
。这样的话,
其次是无偏性。我们先证明
Deduction 2:
(想想为什么,我们之前有说过)
最后一条需要注意到
根据这个,我们来看看
Deduction 3:
最后一步注意到
OK,下面是一个更刺激的东西——方差。这么说的原因是它的运算相比期望来说要更加复杂一些,我们继续看它们方差的推导。一样,先看看
Deduction 4:
(注意每一个之间的协方差为0)(关于而言,之前一大串都是常数,可以直接从var()内拿出来)
根据这个,
Deduction 5:
(注意两个常数之间协方差为0)
下一步,是关于两个参数的分布。这没什么好说的,因为
最后也是最有技巧的部分——协方差。这个推导如果找错了方法,是很要人命的。这里给一个我同学想出的比较容易的推导过程。
Deduction 6:
到目前为止,我们过完了所有的参数相关的统计量。也因为参数是具有统计量的,因此这就暗示了我们估计的参数,实际上也是不确定的。
在说之后的内容之前,我们事先给定一些记号。这些记号已经在《统计学笔记》中出现过,引入它们只是为了方便(而且是大大的方便……)。
Notation 6:
最佳线性无偏估计(BLUE)
这是关于
Definition 1:Best Linear Unbiased Estimation
对于参数的一个无偏估计,如果对于任何一个它的无偏估计,都有,则称是的最佳线性无偏估计。
那么下面这个大定理要说的就是
Theorem 1:
在G-M条件(回归三大基本假设的第二个)下,是对应的最佳线性无偏估计。
我们证明一下这个结论。
显然我们要关注的重点就是,是否对于任意的一个无偏估计
下面我们做一点推导。
Deduction 7:
我们需要注意的是,第二个式子针对任意的
Notation 7:
现在我们来考虑方差,不妨设
Deduction 8:
显然,如果我们需要得到方差的这个结论,我们只需要考虑
下面,我们主要来推导最后的协方差。
Deduction 9:
(能放在外面的原因是,每一个之间协方差为0)
也就是说,我们推导出协方差其实是0。这就说明,
通过这些不太显然的性质,相信大家也不难明白为什么线性回归现在依然很火了。另外,请不要在意求和号的一些细节,我只是懒得把上下标打上去了……
小结
这一节是一节相对来说比较偏引入的笔记。因为统计学科相对比较贴近实际,也有很高的实用性,因此大家的阅读难度没有之前的几个专题笔记那么大,并且我也有充分的理由说一大堆的废话……但是因为统计毕竟也算是数学(虽然有的人并不认为它是数学),所以也还是会涉及到一定量的定理和性质。在回归分析中,很多运算的技巧是需要记住的,这些都在笔记中有所体现。
我们之后有可能会补充一些习题作为性质的补充,但是这一节就暂时没有了。
感谢大家的支持~我会继续抽时间去贡献高质量有诚意的创作!
——————————————————广告——————————————————
本专栏为我的个人专栏,也是我学习笔记的主要生产地。任何笔记都具有著作权,不可随意转载和剽窃。
个人微信公众号:cha-diary,你可以通过它来有效的快速的获得最新文章更新的通知。
本人最近在寻找与数据科学,计算数学,统计有关的科研和实习机会。希望各路大佬神仙如果有看得上我的可以和我联系下~谢谢你们!
专栏目录:笔记专栏|目录
想要更多方面的知识分享吗?欢迎关注专栏:一个大学生的日常笔记。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~
一元线性回归决定系数_回归分析|笔记整理(1)——引入,一元线性回归(上)...相关推荐
- 多元线性回归的缺陷_回归分析|笔记整理(7)——多元线性回归(下),违背基本假设的情况...
大家好!我又出现了(*^__^*) 嘻嘻.刚结束PDE考试(不可避免的凉凉)我就赶紧过来完成了这一篇文章. 这一节我们会结束多元线性回归的内容,并且会努力结束下一个部分--违背基本假设的情况的相关内容 ...
- 主成分回归之后预测_回归分析|笔记整理(B)——主成分回归(下),偏最小二乘回归...
大家好! 上一节我们给主成分回归开了一个头,这一节我们会继续介绍它的有关内容,并且同时会介绍另一种新的回归方法:偏最小二乘回归.这一节的理论性也比较强,主要关注了相关回归的理论上的性质与相关证明. 提 ...
- c++求n的几次方_数理统计|笔记整理(E)——Ch7-C习题课
上一节笔记传送门:数理统计|笔记整理(D)--Ch1-6习题课 -------------------------------------- 大家好!这一节我们依然会补充一些习题,内容则是正文的后半部 ...
- 四阶代数余子式怎么求_老笔记整理五:C实现10阶内通过展开代数余子式求行列式的值...
这个分为两部分,先是写出了C实现计算三阶行列式,然后过了一段时间突然有了思路才写下了10阶内这段代码.真怀念那段写代码的日子. 一:C实现计算三阶行列式 最近高数课在上线性代数,二阶的还能口算,三阶的 ...
- python多元线性回归实例_利用Python进行数据分析之多元线性回归案例
线性回归模型属于经典的统计学模型,该模型的应用场景是根据已知的变量(自变量)来预测某个连续的数值变量(因变量).例如,餐厅根据每天的营业数据(包括菜谱价格.就餐人数.预定人数.特价菜折扣等)预测就餐规 ...
- r语言 线性回归 相关系数_基于R语言的lmer混合线性回归模型
原文 基于R语言的lmer混合线性回归模型tecdat.cn 混合模型适合需求吗? 混合模型在很多方面与线性模型相似.它估计一个或多个解释变量对响应变量的影响.混合模型的输出将给出一个解释值列表,其 ...
- vs需要迁移_赛尔笔记 | 自然语言处理中的迁移学习(上)
点击上方"MLNLP",选择"星标"公众号 重磅干货,第一时间送达 作者:哈工大SCIR 徐啸 转载自公众号:哈工大SCIR 来源:Transfer Learn ...
- 线性回归分析学习笔记第一篇:一元线性回归
目录 1.线性回归分析究竟是啥? 2. 线性回归分析原理 2.1 残差 2.2 最小二乘法 2.3 求解参数 1.线性回归分析究竟是啥? 首先要弄懂什么是回归分析: 在大数据分析中,回归分析是一种预测 ...
- python数据挖掘笔记】十八.线性回归及多项式回归分析四个案例分享
python数据挖掘课程]十八.线性回归及多项式回归分析四个案例分享 #2018-03-30 18:24:56 March Friday the 13 week, the 089 day SZ SSM ...
最新文章
- 安卓9 怎么运行老程序_这些安卓应用程序一直在后台运行,即使您关了它
- VC控件自绘制三步曲
- vb 绘制图形/蝴蝶动画
- Oracle入门(十二A)之数据类型
- 基于微信小程序开发的仿微信demo
- 基于C++中常见内存错误的总结
- iOS-最全的App上架教程
- poj2991(Crane)线段树+计算几何
- 网上照片之博客照片与网店照片拍摄心得
- pygame检测精灵与精灵的碰撞_Pygame(三)--走出黑暗的洞穴(2)
- Java版点餐小程序2022最新版笔记,Springboot+Mysql+Freemarker+Bootstrap+微信小程序实现扫码点餐小程序
- 面试题:Android 为什么设计只有主线程更新UI
- 结构光激光器选择时应该注意的问题二:功率
- DELL新版BIOS重装系统win10
- Jest encountered an unexpected token This usually means that you are trying to import a file which J
- 多模态自编码器从EEG信号预测fNIRS静息态
- 15个Python入门小程序,同事准时下班“小技巧”被我发现了
- 超过一半美国车主下一辆仍想买燃油车,中国新能源汽车市场接受度明显高,续航里程均是首要关注 | 美通社头条...
- 文献 | 你的狗狗是否也很擅长“察言观色”?
- android 全景播放器,Android VR Player(全景視頻播放器) [5]:簡單的歡迎界面