多元线性回归分析(Stata)
本文借鉴了数学建模清风老师的课件与思路,可以点击查看链接查看清风老师视频讲解:清风数学建模:https://www.bilibili.com/video/BV1DW411s7wi
一、前言
二、回归分析简介
该问题可通过后文提到的标准化回归解决。
三、数据的简介
3.1 数据的分类
3.2 数据的收集
四、对数据的处理
详见《Excel对数据进行预处理》文件。
五、内生性的探究(实际操作时不是很重要)
六、分类变量的设置
在Stata里操作时,会自动设置对照组,从而避免多重共线性的影响。
七、案例背景
八、Stata实现多元线性回归
8.1 Stata基础
8.2 Stata里进行描述性统计分析
这里的数据为连续性数据,得到的结果在Excel里优化一下再放入论文中。
这里的数据为分类数据,tab命令可以得到分类数据的频数分布表,gen命令可以对该分类变量生成虚拟变量。
可将该指标总体情况放入论文中。
8.3 案例第1问求解
8.3.1 不加入分类变量时的回归
这里只用了两个自变量进行演示。
其中,第一个表里,联合显著性检验=0<0.05代表在95%的置信水平下(这里看你自己定为95%还是90%),拒绝原假设,模型通过了联合显著性检验,所以该线性模型才是有意义的。调整后的R^2为0.0346,这里因为是对其进行分析而不是预测,所以可不用关注R^2,在预测的时候再重点关注即可。
第二个表里,Coef一列为两个指标的回归系数。团购价的P值是在t检验下得到的,表示在95%的置信水平下,有一个自变量(团购价)是显著的,-35.39873代表在其他自变量不变的情况下,当团购价平均每增加1元,就会导致评价量平均减少35.39873,商品毛重该变量不显著,故不对其进行分析;_cons为常数项,也是显著的。
在回归之后,可以通过下面的命令将回归的结果保存到一个word里(详见stata里操作),其中,*** p<0.01 ** p<0.05 * p<0.1分别为在99%,95%,90%的置信水平下显著。
regress 评价量 团购价元 商品毛重kg
// 下面的语句可帮助我们把回归结果保存在Word文档中
// 在使用之前需要运行下面这个代码来安装下这个功能包(运行一次之后就可以注释掉了)
// ssc install reg2docx, all replace
// 如果安装出现connection timed out的错误,可以尝试换成手机热点联网,如果手机热点也不能下载,就不用这个命令吧,可以自己做一个回归结果表,如果觉得麻烦就直接把回归结果截图。
est store m1
reg2docx m1 using m1.docx, replace
// *** p<0.01 ** p<0.05 * p<0.1
word里的结果如下:
8.3.2 加入分类变量时的回归
这里Stata自动对多重共线性问题进行解决,即在分类变量里随机设置 一组对照组。
完整图见Stata里操作。和上面的没加入分类变量时的操作步骤类似,分析是一样的,说明联合显著性检验、调整后的R^2、回归系数和P值即可。
最终的结果为:
第一个表里,联合显著性检验=0<0.05代表在95%的置信水平下(,拒绝原假设,模型通过了联合显著性检验,所以该线性模型是有意义的。
第二个表里,Coef一列为两个指标的回归系数(这里可以参考Excel作图这篇文章里的对回归系数显不显著作可视化处理放入论文中)。团购价的P值是在t检验下得到的,表示在95%的置信水平下,自变量团购价和F1(分类=牛奶粉)是显著的,-29.77274代表在其他自变量不变的情况下,当团购价平均每增加1元,就会导致评价量平均减少29.77274, 14894.55代表在其他自变量不变的情况下,分类为牛奶粉的评价量比羊奶粉(因为羊奶粉为对照组)的评价量平均高出29.77274。
8.3.3 关于调整后R^2值太小怎么办
在论文中放入调整后R^2时,可以将调整后R^2的介绍放进去。
8.4 案例第2问求解
所谓的标准化回归就是在对数据标准化后再使用回归。
关于回归结果的可视化见 柱状图可视化回归结果
九、论文点评
9.1 一篇错误很多的论文《基于多元回归模型的大学生期末数学成绩影响因素探究》点评
其中,期末成绩为y,其他四个变量为x。
这里并没有对回归系数说明各自为多少,R^2也不是相关系数,是拟合优度,显著性也没告诉。在数据归一化后,在对回归系数解释那里就不好说了。
也不用加入平方项,只是对数据进行分析,不用这么复杂,如果是预测的话还行,加入平方项之后也不好解释。
数据也不用进行归一化。
这里就和上面案例第二问一样,求哪个x对影响最大,这里可以直接用标准化回归系数。
9.2 清风的毕业论文点评
详见清风的论文和答辩PPT。一定要去看!!!
十、异方差(回归之前检验数据是否存在异方差)
10.1 异方差介绍
10.2 检验异方差
10.2.1 图形检验
这里是通过绘制残差图来看,但并不严谨。图1为残差与拟合值的散点图,在拟合值较小时数据几乎没有波动,变大时波动就很明显,故数据存在异方差;图2为残差与自变量x(这里x可以随机给)的散点图,在团购价较小时,波动很大,而当团购价变大时,波动较小,故数据存在异方差。
stata保存图片的命令见 regress_stata
10.2.2 假设检验
(1)BP检验
(2)怀特检验(推荐使用这个检验)
10.3 异方差的处理方法
可以将蓝色字体写入论文中,然后使用第一种方法。
十一、多重共线性(回归结束后用)
11.1 多重共线性介绍
前文提到的完全多重共线性Stata会自动帮我们解决。红色框起来的为多重共线性带来的问题。
11.2 多重共线性检验
11.3 多重共线性的处理方法
(1):如果回归是用来预测的话,可以不管多重共线性,只管R^2即可。
(2):如果只关心回归系数也不用管。
(3):关心变量即核心解释变量,可以尝试删除这些变量。
十二、逐步回归
12.1 逐步回归简介
使用向后逐步回归就行。
12.2 Stata实现逐步回归
因为逐步回归不能有完全多重共线性,所以运行该数据时报错了,解决方法为:前面运行的回归Stata检测出了哪些变量为完全多重共线性的,此时只需剔除这些变量再重新运行即可。
上面两图为Stata里向前、向后逐步回归的演示。
12.3 逐步回归说明
(2)可以忽略,使用的时候就用向后逐步回归就行,然后分析显著的变量。
多元线性回归分析(Stata)相关推荐
- 数学建模学习笔记(9)多元线性回归分析(非常详细)
多元线性回归分析 1.回归分析的地位.任务和分类 2.数据的分类 3.对线性的理解.系数的解释和内生性 4.取对数预处理.虚拟变量和交互效应 5.使用Stata进行多元线性回归分析 6.异方差 7.多 ...
- 多元线性回归matlab代码_医学统计|多元线性回归分析
回归分析的定义:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法.运用十分广泛.其表达形式为y = w'x+e,e为误差服从均值为0的正态分布.回归分析中,只包括一个自变量和一个 ...
- 数学建模-7.多元线性回归分析
多元线性回归分析 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想解决 回归分析的任务:通过研究自变量X和因变量Y的相关关系(注意相关性≠因果性),尝试解释 ...
- 多元线性回归分析详细介绍
一文搞懂--多元线性回归分析 回归分析定义 回归的使命 回归分析的分类 数据的分类 数据的收集 线性回归 对于线性的理解 回归系数的解释 核心解释变量和控制变量 四类模型回归系数的解释 特殊的自变量: ...
- python多元线性回归实例_关于多元线性回归分析——PythonSPSS
原始数据在这里 1.观察数据 首先,用Pandas打开数据,并进行观察. import numpy import pandas as pd import matplotlib.pyplot as pl ...
- 数学建模暑期集训6:用SPSS对数据进行多元线性回归分析
在本专栏的第六篇数学建模学习笔记(六)多元回归分析算法(matlab)博文中,记录了如何用matlab进行多元回归分析.本篇则将使用spss软件达到同样的效果,且使用起来比matlab更为方便. 空谈 ...
- 用R进行多元线性回归分析建模
概念:多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法.当自变量与因变量之间存在线性关系时,称为多元线性回归分析. 下面我就举几个例子来说明一下 ...
- 5.1 多元线性回归分析
在本章中,我们将从线性回归模型开始,它是最简单的模型之一. 数据集来自于UIC数据集中的能效数据集,该数据及用来分析建筑的供热负荷能效和制冷负荷能效,其中自变量有8个,因变量有两个,实例主要分析8个自 ...
- R语言计量(一):一元线性回归与多元线性回归分析
文章目录 一.数据调用与预处理 二.一元线性回归分析 三.多元线性回归分析 (一)解释变量的多重共线性检测 (二)多元回归 1. 多元最小二乘回归 2. 逐步回归 (三)回归诊断 四.模型评价-常用的 ...
- SPSS Modeler 多元线性回归分析(指南 第九章)
今天,小编和大家一起使用SPSS Modeler 进行多元线性回归分析. 分析步骤: ① 分析变量关系,构建回归模型. ② 估计模型系数,求解回归模型. ③ 检查整体模型,确认是否显著. ④ 检验模型 ...
最新文章
- ii第六单元 文本处理工具
- golang string int int32 int64 float32 float64 time 互相转换
- XML文档类型定义DTD
- 安装飞利浦系统服务器,DOS系统安装Windows全攻略
- 当Project xCloud落地移动终端,云游戏靠手游撑起“当打之年”?
- Java进击C#——应用开发之Asp.net MVC
- 2016-08-05
- 145. 二叉树的后序遍历
- 微型计算机文献,微型计算机控制系统期刊文章参考文献 哪里有微型计算机控制系统参考文献...
- 传统行业生意,现在想要发财
- JavaScript开发规范要求
- sqlserve生成随机数
- 【Linux 内核】Linux 内核源码结构 ( 下载 Linux 内核源码 | 使用 VSCode 阅读 Linux 内核源码 )
- 淘宝客商城带分销APP源码(原生双端IOS+安卓+后台+数据 库+开发文档),用于学习或二开使用,开发语言:安卓java,苹果oc,后台php。
- 国美在线php面试题,国美电器面试经验
- 饮用水中如何去除硝酸盐 溴化物 铬 等有害物质
- Angular +Ionic实现关注与取消关注
- 读书笔记2区块链与大数据
- python实现DBSCAN聚类
- Methyltetrazine-DBCO,1802238-48-7该试剂可用于在无催化剂试剂的情况下,将含氮肽或蛋白质转化为四胺改性多肽或蛋白质