文章目录

  • 回归的思想
    • 回归分析:研究X和Y之间相关性的分析。
      • 相关性
      • 因变量Y
      • 自变量X
  • 回归分析的使命
  • 回归分析的分类
  • 数据的分类
  • 一元线性回归
    • 对于线性的理解
    • 回归系数的解释
    • 内生性的探究
    • 内生性的蒙特卡罗模拟
    • 核心解释变量和控制变量
    • 回归系数的解释
    • 什么时候取对数?
  • 四类模型回归系数的解释
  • 特殊的自变量:虚拟变量X
    • 多分类的虚拟变量设置
    • 含有交互项的自变量
  • 回归实例
    • 数据的描述性统计
      • 定量数据
      • 定性数据
    • Excel中数据透视表
    • 11个指标的总体情况介绍![在这里插入图片描述](https://img-blog.csdnimg.cn/48165298a3e044daaaf08c0d386ffa97.png)
    • Stata回归的语句
    • 拟合优度 R^2^较低怎么办
    • 标准化回归系数

学习来源:清风老师
回归分析的任务就是,通过研究 自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去 预测Y的目的。
常见的回归分析有五类: 线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。

回归的思想

回归分析:研究X和Y之间相关性的分析。

相关性

相关性 ≠ 因果性

在绝大多数情况下,我们没有能力去探究严格的因果关系,所以只好退而求其次,改成通过回归分析,研究相关关系

因变量Y

  • 经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)。
  • P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变量,Y=0时代表可以还款,Y=1时代表不能还款(0‐1型变量)。
  • 消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表示有点喜欢,5表示非常喜欢)(定序变量)。
  • 管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就是一个非负的整数。(计数变量)
  • 研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁,
    现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的寿命为60+,那这种数据就是截断的数据)(生存变量)

自变量X

回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。

回归分析的使命

使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的?
使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。
第一、识别重要变量;
第二、判断相关性的方向;
第三、要估计权重(回归系数)。

回归分析的分类

数据的分类

横截面数据:在某一时点收集的不同对象的数据。
例如:
(1)我们自己发放问卷得到的数据
(2)全国各省份2018年GDP的数据
(3)大一新生今年体测的得到的数据
时间序列数据:对同一对象在不同时间连续观察所取得的数据
例如:
(1)从出生到现在,你的体重的数据(每年生日称一次)。
(2)中国历年来GDP的数据。
(3)在某地方每隔一小时测得的温度数据。
面板数据:横截面数据与时间序列数据综合起来的一种数据资源。
例如:
2008‐2018年,我国各省份GDP的数据。

数据的收集

一元线性回归

对于线性的理解

回归系数的解释

内生性的探究

包含了所有与y相关,但未添加到回归模型中的变量
如果这些变量和我们已经添加的自变量相关,则存在内生性

内生性的蒙特卡罗模拟

%% 蒙特卡洛模拟:内生性会造成回归系数的巨大误差
times = 300;  % 蒙特卡洛的次数
R = zeros(times,1);  % 用来储存扰动项u和x1的相关系数
K = zeros(times,1);  % 用来储存遗漏了x2之后,只用y对x1回归得到的回归系数
for i = 1: timesn = 30;  % 样本数据量为nx1 = -10+rand(n,1)*20;   % x1在-10和10上均匀分布,大小为30*1u1 = normrnd(0,5,n,1) - rand(n,1);  % 随机生成一组随机数x2 = 0.3*x1 + u1;   % x2与x1的相关性不确定, 因为我们设定了x2要加上u1这个随机数% 这里的系数0.3我随便给的,没特殊的意义,你也可以改成其他的测试。u = normrnd(0,1,n,1);  % 扰动项u服从标准正态分布y = 0.5 + 2 * x1 + 5 * x2 + u ;  % 构造yk = (n*sum(x1.*y)-sum(x1)*sum(y))/(n*sum(x1.*x1)-sum(x1)*sum(x1)); % y = k*x1+b 回归估计出来的kK(i) = k;u = 5 * x2 + u;  % 因为我们回归中忽略了5*x2,所以扰动项要加上5*x2r = corrcoef(x1,u);  % 2*2的相关系数矩阵R(i) = r(2,1);
end
plot(R,K,'*')
xlabel("x_1和u'的相关系数")
ylabel("k的估计值")

核心解释变量和控制变量

无内生性(no endogeneity)要求所有解释变量均与扰动项不相关。
这个假定通常太强,因为解释变量一般很多(比如,5‐15个解释变量),且需要保证它们全部外生。
是否可能弱化此条件?答案是肯定的,如果你的解释变量可以区分为核心解释变量与控制变量两类。
核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的
一致估计(当样本容量无限增大时,收敛于待估计参数的真值 )。
控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也
放入回归方程,主要是为了 “控制住” 那些对被解释变量有影响的遗漏因素。
在实际应用中,我们只要保证核心解释变量与

【数学建模】-多元线性回归分析相关推荐

  1. 数学建模暑期集训6:用SPSS对数据进行多元线性回归分析

    在本专栏的第六篇数学建模学习笔记(六)多元回归分析算法(matlab)博文中,记录了如何用matlab进行多元回归分析.本篇则将使用spss软件达到同样的效果,且使用起来比matlab更为方便. 空谈 ...

  2. 【数学建模笔记】【第七讲】多元线性回归分析(一): 回归分析的定义、对于线性的理解以及内生性问题的探究

    多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制, ...

  3. 【数学建模】多元线性回归分析

    多元线性回归分析 概念 目的:作出以多个自变量估计因变量的多元线性回归方程. 资料:因变量为定量指标:自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换. 用途:解释和预报. 意义:由于事物 ...

  4. 数学建模学习笔记(9)多元线性回归分析(非常详细)

    多元线性回归分析 1.回归分析的地位.任务和分类 2.数据的分类 3.对线性的理解.系数的解释和内生性 4.取对数预处理.虚拟变量和交互效应 5.使用Stata进行多元线性回归分析 6.异方差 7.多 ...

  5. 数学建模-7.多元线性回归分析

    多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想解决 回归分析的任务:通过研究自变量X和因变量Y的相关关系(注意相关性≠因果性),尝试解释 ...

  6. 用R进行多元线性回归分析建模

    概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法.当自变量与因变量之间存在线性关系时,称为多元线性回归分析. 下面我就举几个例子来说明一下 ...

  7. 基于Python的多元线性回归分析

    一.多元线性回归分析(Multiple regression) 1.与简单线性回归相比较,具有多个自变量x 2.多元回归模型 其中是误差值,与简单线性回归分析中的要求特点相一致.其余的系数和截距为参数 ...

  8. 多元线性回归分析详细介绍

    一文搞懂--多元线性回归分析 回归分析定义 回归的使命 回归分析的分类 数据的分类 数据的收集 线性回归 对于线性的理解 回归系数的解释 核心解释变量和控制变量 四类模型回归系数的解释 特殊的自变量: ...

  9. 多元线性回归matlab代码_医学统计|多元线性回归分析

    回归分析的定义:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法.运用十分广泛.其表达形式为y = w'x+e,e为误差服从均值为0的正态分布.回归分析中,只包括一个自变量和一个 ...

  10. python多元线性回归实例_关于多元线性回归分析——PythonSPSS

    原始数据在这里 1.观察数据 首先,用Pandas打开数据,并进行观察. import numpy import pandas as pd import matplotlib.pyplot as pl ...

最新文章

  1. 广联达加密锁驱动_广联达(GGJ)安装教程
  2. python http服务器_超简单的Python HTTP服务
  3. 自动唤醒解锁电脑 bat_吉行贴士 | 一键解锁智能语音新姿势
  4. 关于MVC4项目从32位机移到64位机编译报错解决方案
  5. 把 Spring Cloud 给拆了!详解每个组件的作用
  6. 实时计算 Flink 版应用场景解读
  7. 牛客网暑期ACM多校训练营(第一场)J Different Integers
  8. POJ2886线段树 Joseph游戏(单点更新)
  9. 连接数据库时提示归档器失败 ORA-00257: archiver error
  10. 物资申请php,php学生捐赠物品管理系统
  11. ST_LINK/V2 SWIM和SWD、JTAG下载口说明
  12. android手机常用功能,Windows Phone 7/Android手机常用功能对比
  13. 【学习笔记】OSG 基本几何图元
  14. 学习笔记---将Asp.Net网站发布到IIS的四种方法及注意事项
  15. 用户体验报告(Echo)
  16. 74LV165与74HC595 使用
  17. kindeditor编辑器一键保存远程图片
  18. Linux 经典书籍推荐
  19. 代理IP是什么意思?浏览器代理和代理服务器是什么(小白必看,看了必会,不看血亏)
  20. 写在2016的尾巴上

热门文章

  1. Rust Tokio hyper 协程下载文件工具
  2. 追涨而不被套的4大绝招[转载]
  3. Latex从.dtx文件分解得到.sty文件
  4. 为什么ASIC的频率可以达到GHz,而FPGA只能达到几百MHz?
  5. 微博只显示来自android,修改手机发新浪微博显示的来源
  6. Java实现简单二维码制作
  7. [转载] 财经郎眼20120623:房地产松绑疑云
  8. 进销存系统_用户信息更新密码修改(3)
  9. 学友新碟private corner迷你音乐会CD/DVD超赞呀
  10. UE4之替换第三人称模板