• 最小二乘法在统计学的线性回归分析中是使用最广和最常见的方法。本博文主要讲最小二乘法在一元线性回归中的推算过程,当然多元线性回归的推算过程与一元线性回归是类似的。
  1. 首先,讲一下什么是回归分析:回归分析是对具有因果关系的变量(因变量、自变量)进行数理统计分析。当自变量与因变量确实存在某种关系时,我们所建立的回归方程才有意义。因此,自变量的因素对因变量的预测值是否有关?相关程度如何,以及判断这种相关程度的把握性多大,就成为回归分析中必须要解决的问题。
  2. 进行相关程度分析时,一般要求出相关关系,以相关系数的大小(皮尔逊系数R,范围在【-1,1】)来判断自变量和因变量的相关的程度。
  • 在上面讲的回归分析中有一个重要的步骤就是建立回归方程,既然是回归方程,那么必然会有截距项b和回归系数a(指一元线性回归:Y=aX + b)决定,换句话来说,只要我们把a、b求出来,这个回归方程就可以写得出来。那么如何来求a和b?用什么方法来求?所用的方法需要达到什么样的条件才使建立的回归方程更好的描述这两个变量的关系?

  • 所有的方法就是最小二乘法,先来看定义:最小二乘法(又称最小平方法)是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。

  • 如下图所示,代表真实值,虚线代表所建立的回归方程,真实值与虚线之间的红线代表误差(残差),即误差=真实值-误差值。
    那么根据最小二乘法的要求:最小化误差的平方。我们可以看作是以误差为边长的正方形并求这些正方形的面积的和就是最小化误差的平方,如下图所示。

    所有图形的面积之和即是:(Y1真实值-Y1预测值)^2+ (Y2真实值-Y2预测值)^2+ …… +(Yn真实值-Yn预测值)^2的和最小。
    我们用数学式子来表达就是:
    把上式的z函数拆开:

    然后我们将:

    带入上式得如下的简洁式子:

    接下来是对该简洁的式子进行分别对a和b求偏导,且令偏导等于0如下所示:


    最后将上式两边除以2n整理后,可得求a,b的式子:

    这就是用最小二乘法求回归方程的回归系数b和截距项a的推导过程,但是做为统计学专业的博主来说,觉得这只是计算回归方程的一种方法,最重要的还是分析得了回归方程后的步骤,前面我们也说了,得到这样一条回归方程,它的拟合程度如何?是不是还有更好的方法去求该回归模型?
    那用什么统计量去判定拟合程度的好坏?我们一般使用R^2,
    先给结论:R^2=SSR/SST, R^2的取值在0,1之间,越接近1说明拟合程度越好。(
    SSR代表回归平方和:
    SST代表偏差平方和:

    还有一个使用SSE来表式R^2:
    R^2=1-SSE/SST,
    其是由:SST(总偏差)=SSR+SSE与R^2=SSR/SSTS换算而来。
    如果所有的真实值点都在回归线上,说明SSE为0,则R^2等于1,
    意味着Y的变化100%由X的变化引起,没有其他因素会影响Y,回归线能够完全解释Y的变化。如果R^2很低,说明X和Y之间可能不存在线性关系

  • 变量的剔除
    如果在多元中,即由多个自变量式,有些变量对因变量的解释度很低,我们可以把该类的变量进行剔除,使得回归模型简洁。所以这步就需要进行变量的显著性检验。对变量的显著性检验的思想:用到了统计学中必学的数理统计课程,涉及到太深的理论知识,这里不讲。我们记下结论就好:

  • T检验
    T检验用于对某(单个)自变量Xi对于Y的线性显著性,如果该Xi不显著,意味着可以从模型中剔除这个变量。

  • F检验
    F检验用于对所有的自变量X从整体上看对于Y的线性显著性。

T检验看的是统计结果中的P-value值,F检验看的是统计结果中的Significant F值,这两个值一般要与显著性水平比较,小于显著性水平说明显著,当然越小越显著(显著性水平是人为设定的,一般常用的有两个显著性水平分别式0.05和0.01)。

最小二乘法在回归分析中的演算过程相关推荐

  1. 最小二乘法在编程中的实现

    最小二乘法在编程中的实现 一.说明 最近做项目的时候,需要用到最小二乘法,去拟合曲线,现在把在这个过程中的一些总结分享给大家.其中把一些实现和验证用到的内容也一起分享了,可能涉及到使用Matlab.C ...

  2. spss回归分析_回归分析中的简单斜率检验:用SPSS或jamovi实现

    哈哈,不简单的"简单效应",How old are you? 之前的两篇文章,我们已经深入探讨了如何用SPSS做方差分析中的简单效应检验,并且最终得到结论:要用GLM语句,不需要再 ...

  3. 线性回归分析中的哑变量

    最近偶尔在重温统计学,发现自己工作后用了各种高级的统计分析方法,各种统计模型,却忽视了统计学中一些最基础的知识,而这些知识是所有这些高级方法的基础,基础不扎实,高级方法用起来真觉得底气不足,今天看到哑 ...

  4. python中读取文件过程中seek()函数的使用

    python中读取文件过程中seek()函数的使用 目录 概述: 语法: 参数: 返回值: 实例: 概述: seek() 方法用于移动文件读取指针到指定位置. 语法: seek() 方法语法如下: 文 ...

  5. R语言使用car包的influencePlot函数将回归分析中的离群点(outlier)、杠杆(leverage)和影响(influence)的信息组合成一个高度信息量丰富的合成图

    R语言使用car包的influencePlot函数将回归分析中的离群点(outlier).杠杆(leverage)和影响(influence)的信息组合成一个高度信息量丰富的合成图 目录

  6. ORACLE11G 将dataguard的rman备份恢复到测试环境的单机oracle中的详细过程

    2019独角兽企业重金招聘Python工程师标准>>> ORACLE11G 将dataguard的rman备份恢复到测试环境的单机oracle中的详细过程 原创 2015年08月21 ...

  7. 在电脑上安装python的步骤-python中pygame安装过程(超级详细)

    安装时是需要设置python环境变量的,下载python的时候底下有个小框框(没有默认选中) Add Python 3.7 to PATH需要选择的,如果没有选择的话,需要自己设置,我一般比较懒,卸载 ...

  8. H.264中的量化过程

    在H.264算法中,量化主要是针对 4*4的残差矩阵进行的. 基本原理是利用经过修正的DCT. 基本框图如下所示: 由于无修正的DCT变换将导致变换结果均为实数,对实数的DCT,由于在解码端的浮点运算 ...

  9. 【转载】ERP系统中的存货计价过程

    ERP系统中的存货计价过程 本文主要以SAP为例,论述在ERP系统的物料移动过程中,移动平均法和标准价格法这两种存货计价方法的应用. 企业的各种存货,由于是分散购入或分批生产形成,同一次领用或发出的存 ...

最新文章

  1. fiddler教程:抓包带锁的怎么办?HTTPS抓包介绍。
  2. Python学习笔记1环境搭建
  3. libevent之Reactor模式详解
  4. VC内存对齐准则(Memory alignment)
  5. 学习Asp.Net经常会用到的函数集
  6. 使用ASP.NET Core,JavaScript,PostegreSql和ChartJs的动态仪表板Web应用程序
  7. 如何使用计算机改进生产线,计算机系统结构复习资料
  8. 读《About Face 4 交互设计精髓》16
  9. linux常识 菜鸟教程
  10. 什么是CRM客户管理系统?
  11. 新年新气象,新的一年新的开始,给自己定个小小的目标,以此为证
  12. Python办公自动化 | Task 01 文件自动化处理邮件批量处理
  13. 牛客小白月赛24 J—建设道路
  14. 【Jquery】Jquery判断客户端请求来源于PC端还是移动端
  15. 脑裂的产生与解决方案
  16. 复合类型(compound type)
  17. 医药数字化的中国实践
  18. 用计算机指挥挖掘机炒菜,幽默段子:我能用计算机控制挖掘机炒菜……
  19. 智能制造 | AIRIOT智慧工厂管理解决方案
  20. 库卡机器人外部紧急关断已按_茂名市维修川崎机器人示教器中心

热门文章

  1. Cause: java.lang.NoSuchMethodException: com.taiji.dao.UserDao<init>错误
  2. 变电所的常见故障和解决方案
  3. 锂电池移动电源等电信终端产品配套用电源适配器/充电器产品纳入CCC范围
  4. 网站关键词排名丢失了该如何解决?
  5. Photoshop 2020 64位
  6. 一句话木马拿shell原理及菜刀的使用
  7. csp-s模拟【模拟】【倍增lca+计数】【dp+kmp】
  8. http之Redirect
  9. 都江堰市建成区块链场景创新实验室!
  10. 外媒:苹果Apple Watch7电源芯片将采用双面SiP