数学建模:线性回归模型

1.多重线性回归模型

1.1 引入

线性回归分类

  • 简单线性回归(一个自变量)
  • 多重线性回归(多个自变量)

线性回归的前提条件:

  • 线性(散点图,散点图矩阵)
  • 独立性
  • 正态性(回归分析过程中可以确定)
  • 方差齐性(回归分析过程中可以确定):建模中存在的误差

两个变量:X和Y

例1:人体的身高和体重

X:人体的身高

Y:人体的体重

身高X大时,体重Y也会倾向于增大,但是X不能严格地决定Y

1.2相关关系

相关关系:自变量的取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系。

相关关系是一种非确定关系。对具有相关关系的两个变量进行统计分析的方法称为回归分析。

1.3经验回归方程

X:自变量或者预报变量

Y:因变量或者响应变量
Y{X能够决定的部分f(x)其他未考虑的因素e:误差Y\begin{cases} X能够决定的部分f(x)\\ 其他未考虑的因素e:误差 \end{cases} Y{X能够决定的部分f(x)其他未考虑的因素e:误差​
​ 则得到下面的模型:
Y=f(x)+e,E(e)=0特别的,当f(X)=β0+β1X时是线性函数β0和β1都称作回归系数Y = f(x) + e,E(e) = 0\\ 特别的,当f(X) = \beta_0+\beta_1X时是线性函数\\ \beta_0和\beta_1都称作回归系数 Y=f(x)+e,E(e)=0特别的,当f(X)=β0​+β1​X时是线性函数β0​和β1​都称作回归系数

  • 第一步:确定模型
  • 第二步:观测模型

于是有n组观测值(xi , yi ),如果Y与X 满足回归系数时,则(xi , yi )满足:
yi=β0+β1xi+ei,i=1,2,...,ny_i = \beta_0+\beta_1x_i+e_i,\qquad i=1,2,...,n yi​=β0​+β1​xi​+ei​,i=1,2,...,n

  • 第三步:确定未知参数值

    根据第二步得到的方程组,应用用统计方法,可以得到β0\beta_0β0​和β1\beta_1β1​的估计值β^0\hat\beta_0β^​0​和β^1\hat\beta_1β^​1​

  • 第四步:求得经验方程

    将估计值β^0\hat\beta_0β^​0​和β^1\hat\beta_1β^​1​带入线性回归方程,略去误差项:
    Y=β^0+β^1XY = \hat\beta_0+\hat\beta_1X Y=β^​0​+β^​1​X
    称为经验回归方程

1.4多元线性模型

多元线性回归的一般形式:
Y=β0+β1x+...++βp−1x+eiY = \beta_0+\beta_1 x+...++\beta_{p-1} x+e_i Y=β0​+β1​x+...++βp−1​x+ei​
同样β0\beta_0β0​为常数项,$\beta_1,…,\beta_{p-1} 为回归系数,为回归系数,为回归系数,e$为随机误差.

  • 观测数据

    多元线性模型就是有多个未知数β\betaβ
    y=[y1y2⋮yn],X=[1x11⋯x1,p−11x21⋯x2,p−1⋮⋮⋮⋮1xn1⋯xn,p−1],β=[β0β1⋮βp−1],e=[e1e2⋮en]y=\begin{bmatrix}y_1\\y_2\\\vdots \\y_n\end{bmatrix},X=\begin{bmatrix}1&x_{11}&\cdots&x_{1,p-1}\\1&x_{21}&\cdots&x_{2,p-1}\\\vdots&\vdots&\vdots&\vdots\\1&x_{n1}&\cdots&x_{n,p-1}\end{bmatrix},\beta=\begin{bmatrix}\beta_0\\\beta_1\\\vdots \\\beta_{p-1}\end{bmatrix},e=\begin{bmatrix}e_1\\e_2\\\vdots \\e_n\end{bmatrix} y=⎣⎢⎢⎢⎡​y1​y2​⋮yn​​⎦⎥⎥⎥⎤​,X=⎣⎢⎢⎢⎡​11⋮1​x11​x21​⋮xn1​​⋯⋯⋮⋯​x1,p−1​x2,p−1​⋮xn,p−1​​⎦⎥⎥⎥⎤​,β=⎣⎢⎢⎢⎡​β0​β1​⋮βp−1​​⎦⎥⎥⎥⎤​,e=⎣⎢⎢⎢⎡​e1​e2​⋮en​​⎦⎥⎥⎥⎤​

  • 确定回归系数

  • 求经验回归方程

设β^=(β^0,β^1,⋯,β^p−1)′\hat\beta = (\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_{p-1})'β^​=(β^​0​,β^​1​,⋯,β^​p−1​)′为β\betaβ的一种估计,则经验方程是:
Y=β^0+β^1X1+⋯+β^p−1Xp−1Y= \hat\beta_0+\hat\beta_1X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y=β^​0​+β^​1​X1​+⋯+β^​p−1​Xp−1​

1.5 非线性模型

非线性模型经过适当变换,转换为线性模型:比如两边取对数
ln⁡Qt=ln⁡a+bln⁡Lt+cln⁡Kt\ln\limits Q_t=\ln\limits a+b\ln\limits L_t+c\ln\limits K_t lnQt​=lna+blnLt​+clnKt​

yt=ln⁡Qt;xt1=ln⁡Lt,β0=ln⁡a,β1=b,β2=cy_t = \ln\limits Q_t;x_{t1} = \ln\limits L_t,\beta_0 = \ln\limits a,\beta_1 = b,\beta_2 = c yt​=lnQt​;xt1​=lnLt​,β0​=lna,β1​=b,β2​=c

加上误差项即是线性关系

2.参数估计(最小二乘法)

在高等数学中有最小二乘法的介绍。简单地说就是要通过确定一系列的系数β\betaβ,使所有情况下的误差最小,即:
e=∣y−Xβ∣e = |y-X\beta| e=∣y−Xβ∣
的值最小。由于绝对值不好处理,这里转化成平方形式:
e=(y−Xβ)2e = (y-X\beta)^2 e=(y−Xβ)2
上式展开,对β\betaβ求偏导,使其为0,得到线性方程组,解出βi\beta_iβi​即可,这一组β\betaβ即是估计出的参数值。即是通过这一步最终得到了经验方程:
Y^=β^0+β^1X1+⋯+β^p−1Xp−1\hat Y = \hat\beta_0+\hat\beta_1 X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y^=β^​0​+β^​1​X1​+⋯+β^​p−1​Xp−1​
上述方程还需要进一步做统计分析,来确定是否, 描述了因变量与自变量的真实关系。

另外,进行线性回归之前,为了消除量纲等因素的影响,我们通常会对数据进行预处理。预处理有

  • 中心化
  • 标准化

3.回归方程假设检验

但是经验回归方程是否真正刻画了因变量与自 变量之间的关系?——回归方程的显著性检验

因变量和所有自变量之间是否存在显著的关系?——回归系数的显著性检验

异常点检验

3.1回归方程的显著性检验

正态线性回归模型:
yi=β^0+β^1xi1+⋯+β^p−1xi,p−1+eiei——N(0,σ2),i=1,⋯,ny_i = \hat\beta_0+\hat\beta_1 x_{i1}+\cdots+\hat\beta_{p-1}x_{i,p-1}+e_i\\ e_i——N(0,\sigma^2),i = 1,\cdots,n yi​=β^​0​+β^​1​xi1​+⋯+β^​p−1​xi,p−1​+ei​ei​——N(0,σ2),i=1,⋯,n
经验方程是否正确刻画因变量与自变量之间的关系需要进行回归方程的显著性检验:
假设检验:所有回归系数都为0,即H:β1=β2=,...,=βp−1=0H:\beta_1 = \beta_2 = ,...,=\beta_{p-1} = 0H:β1​=β2​=,...,=βp−1​=0

拒绝原假设:至少有一个βi\beta_iβi​不等于0

接受原假设:所有的βi\beta_iβi​都等于0,相对误差而言,所有自变量对因变量Y 的影响是不重要的。

  • 显著性检验

    设m=p−1m = p-1m=p−1,检验假设H:β1=⋯=βp−1=0\beta_1 = \cdots=\beta_{p-1} = 0β1​=⋯=βp−1​=0的统计量为:
    F回=SS回/p−1RSS/n−pF_回 = \frac{{SS_回}/{p-1}}{{RSS}/{n-p}} F回​=RSS/n−pSS回​/p−1​
    当原假设成立时,F回F_回F回​~Fp−1,n−pF_{p-1,n-p}Fp−1,n−p​

    对于某一置信度α\alphaα,F回>Fp−1,n−p(α)F_回>F_{p-1,n-p}(\alpha)F回​>Fp−1,n−p​(α)时,拒绝原假设,否则就接受H

  • 回归系数的显著性检验

  • 异常点检验

4.衡量多重回归模型优劣的标准

4.1判定系数

SST=SSE+SSR{SST=∑i=1n(yi−y‾)2SSE=∑i=1n(yi−y^i)2SSR=∑i=1n(y^i−y‾)2SST = SSE+SSR\begin{cases}SST = \sum\limits_{i=1}^{n}(y_i-\overline y)^2\\ SSE = \sum\limits_{i=1}^{n}(y_i-\hat y_i)^2\\ SSR = \sum\limits_{i=1}^{n}(\hat y_i-\overline y)^2\\\end{cases} SST=SSE+SSR⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧​SST=i=1∑n​(yi​−y​)2SSE=i=1∑n​(yi​−y^​i​)2SSR=i=1∑n​(y^​i​−y​)2​

另外我们定义了R2R^2R2
R2=SSRSST,0≤R2≤1R^2 = \frac{SSR}{SST},0≤R^2≤1 R2=SSTSSR​,0≤R2≤1
R2R^2R2越接近1,表示X和Y有较大的相依关系

5.回归自变量的选择

6.多重复共线性判断

一些大型线性回归问题(自变量较多),最小二乘估计有时表现不理想 :

  • 有些回归系数的绝对值异常大
  • 回归系数的符号与实际意义相违背

复共线性:回归自变量之间存在着近似线性关系。

复共线性严重程度的判断

①方阵X′XX'XX′X的条件数:最大特征值与最小特征值的比值
k=λ1λpk=\frac{\lambda_1}{\lambda_p} k=λp​λ1​​
有下面的判断标准:

②方差膨胀因子

方差膨胀因子

数学建模:线性回归模型相关推荐

  1. 数学建模——支持向量机模型详解Python代码

    数学建模--支持向量机模型详解Python代码 from numpy import * import random import matplotlib.pyplot as plt import num ...

  2. 数学建模——线性规划模型详解Python代码

    数学建模--线性规划模型详解Python代码 标准形式为: min z=2X1+3X2+x s.t x1+4x2+2x3>=8 3x1+2x2>=6 x1,x2,x3>=0 上述线性 ...

  3. 数学建模传染病模型_数学建模| 时间序列模型

    1 数学建模 时间序列模型 1.与实践有关系的一组数据,叫做时间序列: 2.得到时间序列的数据后,要构建模型,其中平稳时间序列的模型,是本节课重点介绍的: 3.y=at+季节性+周期性 一.     ...

  4. 数学建模常用模型04:灰色关联分析法

    数学建模常用模型04:灰色关联分析法 灰色关联分析法 本文所用的资料参考来源:美赛资料网:美赛资料网 与灰色预测模型一样,比赛不能优先使用,灰色关联往往可以与层次分析结合使用.层次分析用在确定权重上面 ...

  5. 数学建模常用模型(一):灰色预测法

    数学建模常用模型(一):灰色预测法 灰色预测法是一种用于处理少量数据.数据质量较差或者缺乏历史数据的预测方法.它适用于一些非线性.非平稳的系统,尤其在短期预测和趋势分析方面有着广泛的应用.灰色预测法作 ...

  6. 数学建模常见模型总结

    数学建模常见模型总结 一.插值 当已有数据量不够,需要补充,且认定已有数据可信时,通常利用函数插值方法. 常用插值方法 拉格朗日插值 分段线性插值 Hermite 三次样条插值 克里金法 matlab ...

  7. 数学建模优化模型简单例题_数学建模之优化模型:存储模型

    点击上方「蓝字」关注我们 最近,为申报市级精品课程,我为我校"数学建模与科学计算"课程录制了讲课视频,下面是3.1节优化模型的第一个例子:存储模型.敬请大家批评指正! 优化模型是数 ...

  8. MATLAB数学建模-规划模型总结| MATLAB求解

    目录 1 线性规划问题(LP) 风格1 风格2 2 非线性规划 3 动态规划 A星算法 基于dijkstra的概率路线图 4 多目标规划 帕累托最优 支配(Dominace) 不可支配解集 帕累托最优 ...

  9. 数学建模-分类模型(基于logistic回归)

    基于logistic回归的分类模型: 对于二分类模型,采用基础逻辑回归(logistic regression) 对于多分类模型,采用多分类逻辑回归 模型要求(针对01 logistic) 假设1:因 ...

  10. 【数学建模常用模型】图论专题

    图论是研究点.线间关系的一门学科.现实生活中,凡是涉及到事物间的关系,都可以抽象为图论模型.图论模型也是各大数学建模中常见的一种模型,主要用于计算.规划最短距离.路线等问题.下面介绍几个基本概念和算法 ...

最新文章

  1. 使用Spring Boot和RxJava的构建响应式REST API
  2. 1.8 编程基础之多维数组 22 神奇的幻方 python
  3. 三种主流的Kubernetes部署方式
  4. golang java耗内存_golang websocket内存泄漏
  5. Android应用程序插件化研究之DexClassLoader
  6. Office之Word
  7. 2021年PTCMS4.3最新采集规则13条
  8. Revit二次开发——模型线
  9. Django读取图片
  10. Win10连接NAS网络存储器失败解决方法
  11. Oracle 12.2 Flex ASM安装RU后ASM、GIMR等资源未启动, 手动启动提示CRS-2549“it is not a valid candidate as per the place
  12. PDF图纸怎么转成CAD?这个方法了解一下
  13. Bridging the Gap between Training and Inference for Neural Machine Translation翻译
  14. 利用dsp电机测速及详解
  15. java怎么修改支付宝步数_支付宝怎么修改运动步数?刷步数最新方法
  16. JDBC读写oracle大字段BLOB
  17. DEVOPS架构师 -- 03Kubernetes进阶实践
  18. 【python标准库】os.path详解
  19. Less学习笔记(尚硅谷前端less教程)
  20. 图片转base64跨域问题

热门文章

  1. matlab 没有vartestn,2013五一赛数学建模论文.docx
  2. c语言 大数开方,c语言求一个数的平方根
  3. MySql服务无法连接
  4. 最新StrongShop跨境电商系统源码+支持多语言
  5. python关键词共现图谱_Python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——人物关系可视化...
  6. 易语言 安装目录没有VC98linker 编译不成功 VC98linker静态连接器(迷你版),易语言VC98linker破解工具,修复静态编译。
  7. 普林斯顿微积分读本05第四章--求解多项式的极限问题
  8. 解决GLIDE4.0和圆角裁剪CENTERCROP冲突
  9. 线性时间选择算法(Java)
  10. python图像量化及采样处理