关于回归的基础知识

1.回归分析用来研究变量X和Y之间的相关性
2.Y俗称因变量,即核心变量:连续数值型变量,0-1型变量,定序变量(数字代表了程度),计数变量(到访的次数),生存变量(年龄)。 X为解释变量,Y为被解释变量。
3.回归分析的目的:识别重要的解释变量,判断相关性的方向,估计权重(即回归系数)。
4.回归分析的分类:

5.数据的分类:横截面数据,时间序列数据,面板数据。(本次的多元回归分析用于解决横截面数据)
6.对于线性的理解:有的模型可以通过变量代换进行转换成线性模型。如含有平方项和交互项的模型。(所以一个模型中可以含有一个变量的多种形式,如平方,三次方,交互项。因为在回归中各个解释变量之间可以有相关性)
7.注意模型构建成功之后,要对模型进行解释,如回归系数的解释:在保持其它变量不变的情况下,xixixi每增加一个单位,因变量增加(或减少)多少个单位。
8.关于内生性:遗漏变量会导致内生性,即同一个解释变量前后回归系数变化很大,导致模型分析不准确,不满足无偏和一致性(样本数足够多时,拟合值会趋近于观测值的期望)
y=β0+β1x1+β2x2+∧+βkxk+uy=\beta 0+\beta1 x_{1}+\beta 2x_{2}+\wedge +\beta kx_{k}+uy=β0+β1x1​+β2x2​+∧+βkxk​+u
u为无法观测且满足一定条件的扰动项,其中包含了所有与Y有关但是没有添加到回归模型中的变量。如果这些变量与我i们已经添加的自变量相关,则会存在内生性·。
使用蒙纳卡罗模拟发现某一自变量与u的相关系数越大,回归系数的估计值与正确值偏差越大。
9.模型无内生性不显示,可以弱化。将解释变量分为两类,一类是核心解释变量(我们所关注的变量),一类是控制变量。在实际应用中,只要保证核心解释变量与u不相关即可。
10.对变量取对数构造新的变量,
(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取 了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义。
11.对四类模型回归系数的解释:
一元线性回归。
双对数模型:x每增加1%,y平均变化b%
半对数模型:x每增加1个单位,y平均变化(100b)%(对y取对数)
半对数模型:x每增加1%,y平均变化b/100。(对x取对数)
12.在回归中对定性变量的解释
虚拟变量的引入(0-1型变量)
定性变量前的回归系数是在控制其他变量不变的情况下,该虚拟变量与对照组的差异。
为了避免多重共线性的影响引入虚拟变量的个数是分类数-1。
加入虚拟变量使用软件Stata回归,stata会自动检测完全多重共线性问题
注意整理表格,修改字体,不要直接把截图放到论文里。
13.对二值因变量常常使用probit回归。

对数据进行预处理(数据可视化)

使用excel对数据进行预处理,将区域转换为表格,便于管理。修改定性和定量数据的背景,进行总览,制成一个简单的表格放入论文中,进行一个总体情况的介绍·。
在excel中复制由公式得到的某一行或某一列时,注意粘贴为数值。
折线图与柱状图的结合使用。

对数据进行描述性统计

可以用·excel,SPSS,stata.
注意Stata中的语法(符号是英文)
导入数据,保存代码在do-file中。分别对定量数据和定性数据进行描述性统计,顺便可以设置虚拟变量。
注意tabulate每次只能对一个定性变量进行描述性统计
得到结果后,粘贴到Excel中美化(三线表)
当定性数据太多,只能放到附录中,每一个数据对应的分类进行频数统计绘制饼状图(excel)更加直观放入论文中。(数据透视表)做柱状图时注意对数据进行排序。使用数据透视表可以进行交互的分析。

利用Stata进行回归分析

  1. 在Stata中用reg进行回归时,默认使用OLS普通最小二乘法进行回归。
  2. Model代表SSR;Residual代表SSE;Total代表总体平方和SST;SS代表;df代表自由度;Coef代表回归系数;Std.Err.代表标准误差(它的作用在于构造t统计量——回归系数除以标准误差)
  3. 首先要进行联合显著性检验(F统计量),检验这K个自变量前的回归系数是否都等于零。原假设是全部等于零·。
  4. 用t检验来检验回归系数的显著性,比较P值。(由于量纲的影响单看回归系数的大小没有意义,不能看出显著性)
  5. 置信区间包含原点说明回归系数的显著性不强。
  6. 回归用的是定量数据的变量和虚拟变量。
  7. 注意解读图标和某些数据的意义。(注意虚拟变量回归系数的解读)
  8. 将回归后得到的表格存到word文档中时,美化表格改变字体·,分析回归系数的意义。
  9. 回归模型的拟合优度很低,调整后通常更低,回归分为解释型回归(更多关注整体显著性,拟合优度小没有影响),预测型回归(唯拟合优度大是论)。也可以通过对模型进行调整,如·对数据取对数或者平方后进行回归(不要轻易改变变量,否则难以解释或者有内生性问题)
  10. 使用调整后拟合优度:因为引入的自变量越多,拟合优度越大。我们更倾向于使用调整后的拟合优度,如果新引入的自变量对SSE的减少程度比较小,那么调整后的拟合优度反而会变小。

利用Stata进行标准化回归(剔除量纲的影响)b

1.标准化回归是用来比较各个自变量对因变量的重要程度。
2.对数据进行标准化,就是将原始数据减去他的均数之后,再除以该变量的标准差,计算得到的新的变量的值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化的回归系数。(只关注显著的回归系数,标准化系数的绝对值越大,说明对因变量影响越大)即先用未标准化的回归系数进行显著性检验,在通过标准化的回归系数进行变量的重要性判断。

对模型进行稳健性检验

1.更改研究对象(针对某一问题,没有固定研究对象)。
2.更改计量方法。
3.加入其他的控制变量。

扰动项问题

1.我们通常把扰动项看成是便于我们分析的球型扰动项,它满足“同方差”和“无自相关”的条件。但是横截面数据容易出现异方差的问题,时间序列数据容易出现自相关(ui和uj的协方差不为零)的问题。
2.若扰动项中包含与自变量相关的变量会造成内生性,使模型不准确。

关于异方差

1.异方差:异方差性是相对于同方差而言的。所谓同方差(主对角线元素相同),是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定:总体回归函数中的随机误差项(扰动项)满足同方差性,即它们都有相同的方差。如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。
简单来说就是对于不同的观测值,扰动项的方差不同
2.存在异方差的后果:OLS 估计出来的回归系数仍然是无偏的,一致的,但是假设检验无法使用,因为假设检验构造的t统计量是回归系数除以标准误,而标准误由于异方差的影响而不准确。OLS 不再是最优线性无偏估计量。例如:当自变量x增大时,数据越来越发散。
3.解决异方差的办法:(1)使用OLS和稳健的标准误差(常用)(2)使用广义最小二乘法(分配不同的权重)。
4.检验异方差:画散点图(看数据波动的程度);BP检验和怀特检验(应用范围更广)(原假设是不存在异方差)。

多重共线性的问题

1.多重共线性是指某一自变量与其他自变量的相关性很大。
2.严格的多重共线性往往不存在,完全多重共线性stata会自动识别并删去。非严格的多重共线性往往更常见,会使得对系数的估计不准确。往往表现在:模型的拟合优度很大,联合性检验也很显著,但是但是单个系数的t检验不显著,或者系数的估计值不合理,甚至符号和预期相反。也可能是增减解释变量对系数的估计值影响很大(类似于内生性)。
多重共线性的主要后果是对单个系数的解释不准确,可能使它不显著。
3.检验多重共线性:方差膨胀因子VIF。
4.多重共线性的处理方法

逐步回归分析(解决多重共线性的问题)

向前逐步回归与向后逐步回归(更好),数模时可以用。
逐步回归时,要提前手动删除完全多重共线性的变量(在做一般回归时,stata自动删除过)。

建模之多元线性回归分析相关推荐

  1. 【数学建模】多元线性回归分析

    多元线性回归分析 概念 目的:作出以多个自变量估计因变量的多元线性回归方程. 资料:因变量为定量指标:自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换. 用途:解释和预报. 意义:由于事物 ...

  2. 数学建模-7.多元线性回归分析

    多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想解决 回归分析的任务:通过研究自变量X和因变量Y的相关关系(注意相关性≠因果性),尝试解释 ...

  3. 数学建模7 多元线性回归分析

    1.回归思想 相关性(不是因果性) Y:因变量,常常是我们需要研究的核心变量,分为连续值型,0-1型,定序变量,计数变量,生存变量 X:自变量(解释变量) 回归分析:研究x和y之间的相关性的分析,尝试 ...

  4. 【数学建模】-多元线性回归分析

    文章目录 回归的思想 回归分析:研究X和Y之间相关性的分析. 相关性 因变量Y 自变量X 回归分析的使命 回归分析的分类 数据的分类 一元线性回归 对于线性的理解 回归系数的解释 内生性的探究 内生性 ...

  5. 数学建模暑期集训6:用SPSS对数据进行多元线性回归分析

    在本专栏的第六篇数学建模学习笔记(六)多元回归分析算法(matlab)博文中,记录了如何用matlab进行多元回归分析.本篇则将使用spss软件达到同样的效果,且使用起来比matlab更为方便. 空谈 ...

  6. 【数学建模笔记】【第七讲】多元线性回归分析(一): 回归分析的定义、对于线性的理解以及内生性问题的探究

    多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决.回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制, ...

  7. 数学建模学习笔记(9)多元线性回归分析(非常详细)

    多元线性回归分析 1.回归分析的地位.任务和分类 2.数据的分类 3.对线性的理解.系数的解释和内生性 4.取对数预处理.虚拟变量和交互效应 5.使用Stata进行多元线性回归分析 6.异方差 7.多 ...

  8. 用R进行多元线性回归分析建模

    概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法.当自变量与因变量之间存在线性关系时,称为多元线性回归分析. 下面我就举几个例子来说明一下 ...

  9. 基于Python的多元线性回归分析

    一.多元线性回归分析(Multiple regression) 1.与简单线性回归相比较,具有多个自变量x 2.多元回归模型 其中是误差值,与简单线性回归分析中的要求特点相一致.其余的系数和截距为参数 ...

最新文章

  1. Google Pixel 超分辨率--Super Resolution Zoom
  2. mysql临时开启二进制_关于MySQL二进制日志Binlog的认识
  3. 一种怪异的节点删除方式
  4. 机器学习之手把手实现第1部分:支持向量机的原理和实现
  5. polymer 绑定html元素,使用Polymer扩展本机HTML元素
  6. 博客园使用latex编辑公式
  7. Sql Server之旅——第六站 为什么都说状态少的字段不能建索引
  8. 传奇谢幕,回顾霍金76载传奇人生
  9. 马云卸任,张勇宣布未来五年目标:消费规模10万亿;华为发布基于5G和AI解决方案;新iPhone不支持5G 库克:市场不成熟……...
  10. 数字孪生体技术白皮书_数字孪生体的标准化之路
  11. 2021高考成绩答题卡查询,明天用的2021高考答题卡,提前瞅一眼
  12. 支付宝集成——如何在回调地址中使用自定义参数
  13. flash特效原理:图片滑动放大效果(3)
  14. vulhub靶场sql注入漏洞复现
  15. Ubuntu 16.04 升级到内核4.18 后 vmplayer 不能运行
  16. 如何管理计算机的字体,请同事吃了顿饭才要来的字体管理神器,电脑里的几百个字体有救了!...
  17. Keil4 基础使用
  18. java word 图片_java导出word(带图片)
  19. 分享美容美发预约下单小程序开发制作功能介绍
  20. 问卷设计二:问题设计要遵循哪些原则?

热门文章

  1. 七夕情人节送男朋友什么礼物合适、让男生瞬间感动的礼物清单
  2. Java实现RPG游戏
  3. 联想小新潮7000matlab,联想小新潮7000——多程序运行也可以很流畅
  4. 如何收集 小番茄的种子
  5. IP地址子网掩码与数值转换
  6. 水仙花数用计算机,水仙花数的计算机解法
  7. 【深度经验分享】我与伙伴云的成长之路
  8. 配置表测试框架搭建-②数据读取篇
  9. ESP8266 Arduino 串口监视器输出乱码原因
  10. python pandas的统计方法