一、前期准备

1.研究目的

线性回归分析研究影响关系情况,回归分析实质上就是研究X(自变量)对Y(因变量,定量数据)的影响关系情况。当自变量为1个时,是一元线性回归,又称作简单线性回归;自变量为2个及以上时,称为多元线性回归。线性回归广泛的应用于自然科学、社会科学等各个领域中。例如:研究吸烟、肥胖、运动等因素是否影响高血压发病率;土壤、水分、光照是否影响植物生长等。

2.数据类型

线性回归要求因变量Y(被解释变量)一定是定量数据。如果因变量Y为定类数据,可以用“进阶方法”中的“logit回归”。

3.分析要求

(1)一般对于分析项的自变量个数没有要求,但是一般建议不要一次性放入太多,过多容易引起多重共线性,如果需要对哑变量进行处理,需要在SPSSAU“数据处理”中的“生成变量”,

(2)正态性检验

SPSSAU提供多种正态性检验的方法,例如:“通用方法”中的“正态性检验”(SPSSAU正态性检验);“可视化”中的“直方图”; “可视化”中的“P-P/Q-Q图"。

理论上要求线性回归中的因变量要满足“正态性”,但是若数据为问卷数据,建议可跳过正态性检验这一步。原因在于问卷数据属于等级数据,很难保证正态性,且数据本身变化幅度就不大,即使对数处理效果也不明显。

(3)线性趋势

线性回归模型要求自变量和因变量是呈线性关系的,可以通过SPSSAU中“可视化”中的“散点图”进行查看。如果不成线线性可以使用SPSSAU中的曲线回归

补充说明:相关分析和回归分析

一般来说,回归分析之前需要做相关分析,原因在于相关分析可以先了解是否有关系,回归分析是研究有没有影响关系,有相关关系但并不一定有回归影响关系。

二、SPSSAU上传数据

1.上传数据

登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。

2.拖拽分析项

在“通用方法”模块中选择“线性回归”方法,将Y定量数据放于上方分析框内,X自变量放于下方分析框内,点击“开始分析”即可。

补充说明:如果想一次拖拽多个分析项,则可以使用ctrl键不连续多选,shift键连续多选;左右拖拽。

3.选择参数

勾选后可以将残差和预测值保存起来,可用于进—步分析使用。

三、SPSSAU分析

背景:分析员工当前工资影响因素(数据已满足线性回归分析要求参考来源:SPSS统计分析第5版)。

1.线性回归分析结果

从上表可以看出,模型公式为:当前工资=-338.130 + 1.750*起始工资 + 710.927*受教育程度(年)-10.009*过去经验(月)-77.206*年龄,模型R方值为0.803,意味着起始工资,受教育程度(年),过去经验(月),年龄可以解释当前工资的80.3%变化原因。

对模型进行F检验时发现模型通过F检验(F=476.677,p=0.000<0.05),也即说明起始工资,受教育程度(年),过去经验(月),年龄中至少一项会对当前工资产生影响关系,另外,针对模型的多重共线性进行检验发现,模型中VIF值全部均小于5,意味着不存在着共线性问题;并且D-W值在数字2附近,因而说明模型不存在自相关性,样本数据之间并没有关联关系,模型较好。

具体分析:

(1)起始工资的回归系数值为1.750(t=29.259,p=0.000<0.01),意味着起始工资会对当前工资产生显著的正向影响关系。

(2)受教育程度(年)的回归系数值为710.927(t=4.190,p=0.000<0.01),意味着受教育程度(年)会对当前工资产生显著的正向影响关系。

(3)过去经验(月)的回归系数值为-10.009(t=-1.762,p=0.079>0.05),意味着过去经验(月)并不会对当前工资产生影响关系。

(4)年龄的回归系数值为-77.206(t=-1.535,p=0.126>0.05),意味着年龄并不会对当前工资产生影响关系。

补充说明如下:

(1)如果出现多重共线性问题,一般可有3种解决办法,一是使用逐步回归分析;二是使用岭回归分析,三是进行相关分析,手工移出相关性非常高的分析项,然后再做线性回归分析。

(2)D-W值常用于检验序列一阶自相关,一般不用考虑。

2.模型预测

SPSSAU提供模型预测,输入自变量X后就会得到相应的因变量Y,例如:假设某员工“起始工资”为3000,“受教育程度”10年,过去经验为12个月,年龄为25,则通过模型预测出当前工资约为9971元(数据结果仅供案例分析)。

3.模型结果图

可以直观的看到自变量与因变量的之间的关系(基于回归系数基础上)。

4.模型汇总

分析结果来源于SPSSAU

从上表可知,将起始工资,受教育程度(年),过去经验(月),年龄作为自变量,而将当前工资作为因变量进行线性回归分析,从上表可以看出,模型R方值为0.803,意味着起始工资,受教育程度(年),过去经验(月),年龄可以解释当前工资的80.3%变化原因。

5.ANOVA表格分析

对模型进行F检验时发现模型通过F检验(F=476.677,p=0.000<0.05),也即说明起始工资,受教育程度(年),过去经验(月),年龄中至少一项会对当前工资产生影响关系。

6.回归系数分析

总结分析可知:起始工资, 受教育程度(年)会对当前工资产生显著的正向影响关系。但是过去经验(月), 年龄并不会对当前工资产生影响关系。

PS:此外SPSSAU还提供了coefPlot

coefPlot展示具体的回归系数值和对应的置信区间,可直观查看数据的显著性情况,如果说置信区间包括数字0则说明该项不显著,如果置信区间不包括数字0则说明该项呈现出显著性。

四、常见问题说明

1.多个问卷量表题如何表示一个维度?

比如有两个题“我愿意向朋友推荐SPSSAU”,“我有需要会再来使用SPSSAU”,此两个题是“忠诚度”的体现。但现在需要“忠诚度”这个整体,而不是具体两个标题,

具体操作如下图:

2.多重共线性问题?

VIF值用于检测共线性问题,一般VIF值小于10即说明没有共线性(严格的标准是5),有时候会以容差值作为标准,容差值=1/VIF,所以容差值大于0.1则说明没有共线性(严格是大于0.2),VIF和容差值有逻辑对应关系,因此二选一即可,一般描述VIF值。

如果出现多重共线性问题,一般可有3种解决办法,一是使用逐步回归分析;二是使用岭回归分析,三是进行相关分析,手工移出相关性非常高的分析项,然后再做线性回归分析。

3.控制变量如何放置?

控制变量指可能干扰模型的项,比如年龄,学历等基础信息。从软件角度来看,并没有“控制变量”这样的名词。“控制变量”就是自变量,所以直接放入“自变量X”框中即可。

4.线性回归有效样本量不足,需要多少样本量?

有效样本不足是指分析时,可以进行分析的样本量低于方法需要的样本量。解决方法是加大样本量。一般来说,至少要求样本量起码是变量数的5-10倍,结果更具备参考意义。

5.回归结果看标准化还是非标准化?

标准化回归系数是消除了量纲影响后的回归系数,可以用来比较各个自变量的“重要性大小”。如果目的在于预测模型,一般使用非标准化回归系数。

五、总结

线性回归分析步骤总结如下:

第一步:首先对模型情况进行分析包括模型拟合情况(比如R ²为0.3,则说明所有X可以解释Y 30%的变化原因),模型共线性问题(VIF值小于5则说明无多重共线性),是否通过F 检验(F 检验用于判定是否X中至少有一个对Y产生影响,如果呈现出显著性,则说明所有X中至少一个会对Y产生影响关系)。

第二步:分析X的显著性如果显著(p 值判断),则说明具有影响关系,反之无影响关系。

第三步:判断X对Y的影响关系方向回归系数B值大于0说明正向影响,反之负向影响。

第四步:其它比如对比影响程度大小(回归系数B值大小对比X对Y的影响程度大小)。


以上就是本次分享的内容,登录SPSSAU官网了解更多。

线性回归分析步骤总结相关推荐

  1. Excel 2016 做线性回归分析【高尔顿数据集】与【Anscombe四重奏数据集】

    目录 一.高尔顿数据集回归分析 1.1 父子身高(一元线性回归) 1.2 母子身高(一元线性回归) 1.3 多元线性回归方程 二.Anscombe四重奏数据集回归分析 三.总结 四.参考资料 根据上一 ...

  2. python实现一元线性回归分析的全部过程

    目标:写清楚一元线性回归分析的全部过程. 一元线性回归分析步骤: 确定变量variable:independent variable and dependent variable 画散点图scatte ...

  3. spss非线性回归分析步骤_SPSS与简单线性回归分析

    对数据进行简单线性回归分析常按照以下步骤: 1根据研究目的确定因变量和自变量 现研究某服装店销售额和客流量的关系,销售额为因变量,客流量为自变量,共计36条数据. 2 判断有无异常值 判断方法:⑴通过 ...

  4. 统计|如何理解线性回归分析中残差检验的基本步骤

    本博文源于<商务统计>,旨在讲述如何对线性回归分析中已经拟合好的直线做残差分析.当谈起残差,必须了解残差是y的实际值和预测值之差. 线性回归模型的残差检验假定条件 线性假定:X与Y之间的关 ...

  5. 手把手教线性回归分析(附R语言实例)

    本文长度为8619字,建议阅读15分钟 本文为你介绍线性回归分析. 通常在现实应用中,我们需要去理解一个变量是如何被一些其他变量所决定的. 回答这样的问题,需要我们去建立一个模型.一个模型就是一个公式 ...

  6. excel多元线性拟合_Python一元线性回归分析实例:价格与需求的相关性

    来自烟水暖的学习笔记 回归分析(Regression analysis) 回归分析(Regression analysis),是研究因变量与自变量之间相关性的一种数学方法,并将相关性量化,即得到回归方 ...

  7. Python 散点图线性拟合_机器学习之利用Python进行简单线性回归分析

    前言:在利用机器学习方法进行数据分析时经常要了解变量的相关性,有时还需要对变量进行回归分析.本文首先对人工智能/机器学习/深度学习.相关分析/因果分析/回归分析等易混淆的概念进行区分,最后结合案例介绍 ...

  8. 线性回归用matlab怎么做,matlab中如何应用regress()函数进行线性回归分析?

    matlab中如何应用regress()函数进行线性回归分析?回归分析是研究一个随机变量与一个或多个普通变量之间的相关系的统计方法.如果做回归分析,有很多软件都已经封装好了的,我们只需直接调用就可以了 ...

  9. R语言计量(一):一元线性回归与多元线性回归分析

    文章目录 一.数据调用与预处理 二.一元线性回归分析 三.多元线性回归分析 (一)解释变量的多重共线性检测 (二)多元回归 1. 多元最小二乘回归 2. 逐步回归 (三)回归诊断 四.模型评价-常用的 ...

  10. SPSS Modeler 多元线性回归分析(指南 第九章)

    今天,小编和大家一起使用SPSS Modeler 进行多元线性回归分析. 分析步骤: ① 分析变量关系,构建回归模型. ② 估计模型系数,求解回归模型. ③ 检查整体模型,确认是否显著. ④ 检验模型 ...

最新文章

  1. 50道练习实践学习Pandas!
  2. hdu 5066 小球碰撞(物理题)
  3. leetcode-665-Non-decreasing Array
  4. 从高级程序员的角度来看,Rust 基础知识
  5. 从Windows文件夹到Linux分区
  6. System.Security.Cryptography.CryptographicException
  7. 7. JanusGraph服务
  8. 创建vue项目常用命令
  9. Pycharm工具下的数据可视化(图形绘制)
  10. 手把手教你用Gurobi求解一个数学模型
  11. 工业产品常用的长度单位有哪些?
  12. 需要rhce(redhat认证)证书的联系warehouse。无需自己考,直接拿证。
  13. ubuntu 12.04中搭建nfs服务器
  14. 天池比赛——新闻文本分类比赛(零基础入门NLP)
  15. Arnold材质节点篇-摄像机
  16. 2022-4-28作业
  17. 微信小程序直播服务器是用的腾讯的,使用微信小程序和腾讯云实现直播功能
  18. [Unity2D入门教程]简单制作仿植物大战僵尸游戏之①搭建场景
  19. arm对应hex_ARM 经典问答总结
  20. android 手机号码隐藏其中4位

热门文章

  1. 国产3G之父--------李世鹤
  2. JavaSE——多线程
  3. java学士后课程_java学士后课程
  4. 80后小学计算机课上的游戏,80后最值得回味的经典课间游戏
  5. 菜菜的sklearn-01决策树完整版
  6. Yandex-好用的以图搜图网站
  7. raid5换硬盘显示ready_服务器RAID磁盘坏道修复实战
  8. 手机5g什么时候普及_5G牌照发放仨月,5G手机扎堆上市,何时才能真正普及?
  9. 集中趋势度量Measures of Central Tendency
  10. jquery.seat-chartsMark在线选座插件使用