【数学建模】-多元线性回归分析
文章目录
- 回归的思想
- 回归分析:研究X和Y之间相关性的分析。
- 相关性
- 因变量Y
- 自变量X
- 回归分析的使命
- 回归分析的分类
- 数据的分类
- 一元线性回归
- 对于线性的理解
- 回归系数的解释
- 内生性的探究
- 内生性的蒙特卡罗模拟
- 核心解释变量和控制变量
- 回归系数的解释
- 什么时候取对数?
- 四类模型回归系数的解释
- 特殊的自变量:虚拟变量X
- 多分类的虚拟变量设置
- 含有交互项的自变量
- 回归实例
- 数据的描述性统计
- 定量数据
- 定性数据
- Excel中数据透视表
- 11个指标的总体情况介绍![在这里插入图片描述](https://img-blog.csdnimg.cn/48165298a3e044daaaf08c0d386ffa97.png)
- Stata回归的语句
- 拟合优度 R^2^较低怎么办
- 标准化回归系数
学习来源:清风老师
回归分析的任务就是,通过研究 自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去 预测Y的目的。
常见的回归分析有五类: 线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。
回归的思想
回归分析:研究X和Y之间相关性的分析。
相关性
相关性 ≠ 因果性
在绝大多数情况下,我们没有能力去探究严格的因果关系,所以只好退而求其次,改成通过回归分析,研究相关关系
因变量Y
- 经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)。
- P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变量,Y=0时代表可以还款,Y=1时代表不能还款(0‐1型变量)。
- 消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表示有点喜欢,5表示非常喜欢)(定序变量)。
- 管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就是一个非负的整数。(计数变量)
- 研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁,
现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的寿命为60+,那这种数据就是截断的数据)(生存变量)
自变量X
回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
回归分析的使命
使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的?
使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。
第一、识别重要变量;
第二、判断相关性的方向;
第三、要估计权重(回归系数)。
回归分析的分类
数据的分类
横截面数据:在某一时点收集的不同对象的数据。
例如:
(1)我们自己发放问卷得到的数据
(2)全国各省份2018年GDP的数据
(3)大一新生今年体测的得到的数据
时间序列数据:对同一对象在不同时间连续观察所取得的数据
例如:
(1)从出生到现在,你的体重的数据(每年生日称一次)。
(2)中国历年来GDP的数据。
(3)在某地方每隔一小时测得的温度数据。
面板数据:横截面数据与时间序列数据综合起来的一种数据资源。
例如:
2008‐2018年,我国各省份GDP的数据。
数据的收集
一元线性回归
对于线性的理解
回归系数的解释
内生性的探究
包含了所有与y相关,但未添加到回归模型中的变量
如果这些变量和我们已经添加的自变量相关,则存在内生性
内生性的蒙特卡罗模拟
%% 蒙特卡洛模拟:内生性会造成回归系数的巨大误差
times = 300; % 蒙特卡洛的次数
R = zeros(times,1); % 用来储存扰动项u和x1的相关系数
K = zeros(times,1); % 用来储存遗漏了x2之后,只用y对x1回归得到的回归系数
for i = 1: timesn = 30; % 样本数据量为nx1 = -10+rand(n,1)*20; % x1在-10和10上均匀分布,大小为30*1u1 = normrnd(0,5,n,1) - rand(n,1); % 随机生成一组随机数x2 = 0.3*x1 + u1; % x2与x1的相关性不确定, 因为我们设定了x2要加上u1这个随机数% 这里的系数0.3我随便给的,没特殊的意义,你也可以改成其他的测试。u = normrnd(0,1,n,1); % 扰动项u服从标准正态分布y = 0.5 + 2 * x1 + 5 * x2 + u ; % 构造yk = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的kK(i) = k;u = 5 * x2 + u; % 因为我们回归中忽略了5*x2,所以扰动项要加上5*x2r = corrcoef(x1,u); % 2*2的相关系数矩阵R(i) = r(2,1);
end
plot(R,K,'*')
xlabel("x_1和u'的相关系数")
ylabel("k的估计值")
核心解释变量和控制变量
无内生性(no endogeneity)要求所有解释变量均与扰动项不相关。 在本专栏的第六篇数学建模学习笔记(六)多元回归分析算法(matlab)博文中,记录了如何用matlab进行多元回归分析.本篇则将使用spss软件达到同样的效果,且使用起来比matlab更为方便. 空谈 ... 多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制, ... 多元线性回归分析 概念 目的:作出以多个自变量估计因变量的多元线性回归方程. 资料:因变量为定量指标:自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换. 用途:解释和预报. 意义:由于事物 ... 多元线性回归分析 1.回归分析的地位.任务和分类 2.数据的分类 3.对线性的理解.系数的解释和内生性 4.取对数预处理.虚拟变量和交互效应 5.使用Stata进行多元线性回归分析 6.异方差 7.多 ... 多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想解决 回归分析的任务:通过研究自变量X和因变量Y的相关关系(注意相关性≠因果性),尝试解释 ... 概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法.当自变量与因变量之间存在线性关系时,称为多元线性回归分析. 下面我就举几个例子来说明一下 ... 一.多元线性回归分析(Multiple regression) 1.与简单线性回归相比较,具有多个自变量x 2.多元回归模型 其中是误差值,与简单线性回归分析中的要求特点相一致.其余的系数和截距为参数 ... 一文搞懂--多元线性回归分析 回归分析定义 回归的使命 回归分析的分类 数据的分类 数据的收集 线性回归 对于线性的理解 回归系数的解释 核心解释变量和控制变量 四类模型回归系数的解释 特殊的自变量: ... 回归分析的定义:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法.运用十分广泛.其表达形式为y = w'x+e,e为误差服从均值为0的正态分布.回归分析中,只包括一个自变量和一个 ... 原始数据在这里 1.观察数据 首先,用Pandas打开数据,并进行观察. import numpy import pandas as pd import matplotlib.pyplot as pl ...
这个假定通常太强,因为解释变量一般很多(比如,5‐15个解释变量),且需要保证它们全部外生。
是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为核心解释变量与控制变量两类。
核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的
一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。
控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也
放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。
在实际应用中,我们只要保证核心解释变量与
【数学建模】-多元线性回归分析相关推荐
最新文章
热门文章