SPSS之相关分析与线性回归模型(图文+数据集)

在讲解线性回归模型之前,先来学习相关分析的知识点,因为相关分析与回归有着密切的联系

相关分析

  • 任意多个变量都可以考虑相关问题,不单单局限于两个变量,一次可以分析多个变量的相关性

  • 任意测量尺度的变量都可以测量相关强度,不单单仅可以测连续与连续变量的相关性,连续变量和有序分类变量,连续变量和无序分类变量都可以测量相关性,不过衡量指标我们不常接触而已

连续与连续变量的相关性常用术语

直线相关

两变量呈线性共同增大

呈线性一增一减

曲线相关

两变量存在相关趋势

并非线性,而是呈各种可能的曲线趋势

正相关与负相关

完全相关

相关分析对应SPSS位置(分析--相关)

双变量过程(例子:考察信心指数值和年龄的相关性)

§进行两个/多个变量间的参数/非参数相关分析

§如果是多个变量,则给出两两相关的分析结果

偏相关过程(例子:在控制家庭收入QS9对总信心指数影响的前提下,考察总信心指数值和年龄的相关性。)

§对其他变量进行控制

§输出控制其他变量影响后的相关系数

距离过程

§对同一变量内部各观察单位间的数值或各个不同变量间进行相似性或不相似性(距离)分析

§前者可用于检测观测值的接近程度

§后者则常用于考察各变量的内在联系和结构

§一般不单独使用,而是作为多维标度分析(multidimensional scaling ,MDS)的预分析过程

相关分析和回归分析的关系

研究两个变量间的紧密程度:相关分析

研究因变量随自变量的变化:回归分析

回归分析概述

因变量:连续变量

自变量:通常为连续变量,也可以是其他类型

  1. 研究一个连续性变量(因变量)的取值随着其它变量(自变量)的数值变化而变化的趋势
  2. 通过回归方程解释两变量之间的关系显的更为精确,可以计算出自变量改变一个单位时因变量平均改变的单位数量,这是相关分析无法做到的
  3. 除了描述两变量的关系以外,通过回归方程还可以进行预测和控制,这在实际工作中尤为重要

§回归分析假定自变量对因变量的影响强度是始终保持不变的,如公式所示:

§对于因变量的预测值可以被分解成两部分:

§常量(constant):x取值为零时y的平均估计量,可以被看成是一个基线水平

§回归部分:它刻画因变量Y的取值中,由因变量Y与自变量X的线性关系所决定的部分,即可以由X直接估计的部分

§Ŷ:y的估计值(所估计的平均水平),表示给定自变量的取值时,根据公式算得的y的估计值

§a:常数项,表示自变量取值均为0时因变量的平均水平,即回归直线在y轴上的截距(多数情况下没有实际意义,研究者也不用关心)

§b:回归系数,在多变量回归(多个自变量的回归)中也称偏回归系数。自变量x 改变一个单位,y估计值的改变量。即回归直线的斜率

§估计值和每一个实测值之间的差被称为残差。它刻画了因变量y除了自变量x以外的其它所有未进入该模型,或未知但可能与y有关的随机和非随机因素共同引起的变异,即不能由x直接估计的部分。

§为了方程可以得到估计,我们往往假定ei服从正态分布N(0,σ2),就是说相同

(大家可以发现和方差分析模型表达式几乎一模一样,a对应u,只不过bx是连续的,ai和bi是分类的)

线性回归模型适用范围

§线性趋势

§独立性

§样本量

§根据经验,记录数应当在希望分析的自变量数的20倍以上为宜

§实质上样本量和模型的决定系数有关,可通过迭代的方法进行计算

§正态性

§方差齐性

§如果只是探讨自变量与因变量间的关系,则后两个条件可以适当放宽

备注:由于是连续变量,不可能事先分组描述,分组检验,我们一般做事后残差分析来看检验模型的正态性及方差齐性

线性回归模型分析步骤

1.考察数据的分布,进行必要的预处理。即分析变量的正态性、方差齐等问题

2.进行直线回归分析

3.残差分析

残差间是否独立(Durbin-Watson检验)

残差分布是否为正态(图形或统计量)

如何进行残差分析

图一是正常的残差图

图二残差随着自变量的变大而增大,证明方差不齐,我们可以使用变量转换的方法或者加权最小二乘法(同理随着自变量的变大而减小也是)

图三可能是没有把高次项或者交互项放进模型建模分析

案例

§某专门面向年轻人制作肖像的公司计划在国内再开设几家分店,收集了目前已开设的分店的销售数据(Y,万元)及分店所在城市的16岁以下人数(X1,万人)、人均可支配收入(X2,元),试进行统计分析。

§实际上拟合的模型如下:(回归里面一般不考虑交互项,想加的话可以作为一个新变量x1*x2加进来)

数据集如下

  1.  
    17.44 6.85 1670
  2.  
    16.44 4.52 1680
  3.  
    24.42 9.13 1820
  4.  
    15.46 4.78 1630
  5.  
    18.16 4.69 1730
  6.  
    20.75 6.61 1820
  7.  
    15.28 4.95 1590
  8.  
    16.32 5.20 1720
  9.  
    14.54 4.89 1660
  10.  
    13.72 3.84 1600
  11.  
    24.19 8.79 1830
  12.  
    19.11 7.28 1710
  13.  
    23.20 8.84 1740
  14.  
    14.53 4.29 1580
  15.  
    16.11 5.25 1780
  16.  
    20.97 8.57 1840
  17.  
    14.64 4.13 1650
  18.  
    14.40 5.17 1630
  19.  
    23.26 8.96 1810
  20.  
    22.41 8.27 1910
  21.  
    16.65 5.23 1600

首先作所有自变量---因变量散点图

作散点图作用有三个:

1.观察有无趋势

2.是否是线性趋势

3.有无强离群点

图形----图表构建程序

选择散点图

发现销售收入--年轻人数有线性趋势,无强离群点

同理销售收入--人均可支配收入有线性趋势,可能有离群点,我们最后结合残差分析

建模(分析----回归---线性)

结果解读

决定系数R2(无限接近于1越好,简单来说衡量模型可用性与模型信息量的表达)

相应的相关系数的平方,用R2表示,它反映因变量y的全部变异中能够通过回归关系被自变量解释的比例

看sig.,加入sig.<0.05证明用这些因变量来预测是有价值的,但是具体哪一个变量有价值,要结合下面这张表格来看

年轻人人数、人均可支配收入sig.<0.05,证明都有意义,B就是回归模型的偏回归系数,标准系数就是偏回归系数消除量纲影响进行标准化

所以我们回归的方程为

y=-6.886+1.455*x1+0.009*x2

残差分析

  • 检验残差之间的独立性(Durbin-Watson检验)

分析--回归--线性--统计量

在结果的

一般Durbin-Watson取值在[0,4]

当Durbin-Watson为2时残差完全独立

当1<=Durbin-Watson<=3时,没有什么大问题

当Durbin-Watson<1 或者Durbin-Watson>3就有问题了

  • 残差分布是否为正态(图形或统计量)

作标准化残差图

正态性,由于样本量少,就不强求其正态分布了

P-P图也是检验其正态性的,数据要靠近那条线越好

最重要是这张图形 ,标准化残差图,我们可以从这图看数据有无极端值,一般在[-3,3]以没什么大问题

还有查看变量之间的相关性以及多重共线性

多重共线性(VIF>10或者条件索引>100就可能存在多重共线性)

所以分析到这里,这个案列就完成了

逐步回归

由于刚才那个案例两个自变量是我们定死的,一定要扔进去建模的,但是正常会有很多自变量,需要我们做变量的挑选

逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。

多变量的筛选策略较稳妥的方式

  • 单自变量回归模型,筛掉那些显然无关联的候选变量
  • 尝试建立多自变量模型,可手动、也可利用自动筛选方法,但使用后者时要谨慎
  • 多自变量和单自变量模型结果相矛盾时,以前者为准
  • 结果不符合专业知识时,尽量寻找原因

案例:固体垃圾排放量与土地种类的关系

本例来自Golueke and McGauhey 1970年对美国40个城市的固体垃圾排放量(吨)的调查资料,所关心的问题是不同种类土地使用面积(单位,英亩)与固体垃圾排放量之间的关系。可能的影响因素有:indust(工业区土地面积的大小)、metals(金属制造企业用地面积)、trucks(运输及批发商业用地面积)、retail(零售业用地面积)、restrnts(餐馆与宾馆用地面积)。试作逐步回归分析。

数据集如下

102.0 69.0 133.0 125.0 36.0 0.35741220.0 723.0 2616.0 953.0 132.0 1.9673139.0 138.0 46.0 35.0 6.0 0.1862221.0 637.0 153.0 115.0 16.0 0.381612.0 0.0 1.0 9.0 1.0 0.15121.0 50.0 3.0 25.0 2.0 0.14491046.0 127.0 313.0 392.0 56.0 0.47112032.0 44.0 409.0 540.0 98.0 0.6512895.0 54.0 168.0 117.0 32.0 0.66240.0 0.0 2.0 0.0 1.0 0.345725.0 2.0 24.0 78.0 15.0 0.335597.0 12.0 91.0 135.0 24.0 0.39821.0 0.0 15.0 46.0 11.0 0.20444.0 1.0 18.0 23.0 8.0 0.296942.0 4.0 78.0 41.0 61.0 1.151587.0 162.0 599.0 11.0 3.0 0.56092.0 0.0 26.0 24.0 6.0 0.11042.0 9.0 29.0 11.0 2.0 0.086348.0 18.0 101.0 25.0 4.0 0.1952131.0 126.0 387.0 6.0 0.0 0.16884.0 0.0 103.0 49.0 9.0 0.07861.0 4.0 46.0 16.0 2.0 0.09550.0 0.0 468.0 56.0 2.0 0.04867.0 0.0 52.0 37.0 5.0 0.08675.0 1.0 6.0 95.0 11.0 0.1403174.0 113.0 285.0 69.0 18.0 0.37860.0 0.0 6.0 35.0 4.0 0.0761233.0 153.0 682.0 404.0 85.0 0.8927155.0 56.0 94.0 75.0 17.0 0.3621120.0 74.0 55.0 120.0 8.0 0.17588983.0 37.0 236.0 77.0 38.0 0.269959.0 54.0 138.0 55.0 11.0 0.276272.0 112.0 169.0 228.0 39.0 0.324571.0 78.0 25.0 162.0 43.0 0.3737853.0 1002.0 1017.0 418.0 57.0 0.91145.0 0.0 17.0 14.0 13.0 0.259411.0 34.0 3.0 20.0 4.0 0.4284258.0 1.0 33.0 48.0 13.0 0.190569.0 14.0 126.0 108.0 20.0 0.23414790.0 2046.0 3719.0 31.0 7.0 0.7759

逐步回归建模两种方法

  • 手动自己一个一个去尝试,一般结果非常重要,建议手动,SPSS自动化错误率达到30%(这里就不演示了)
  • SPSS自动方法(向前法、向后法、逐步法),一般来说逐步法结合了向前法向后法是最好的(只演示逐步法)

可以看到每一个步骤

每一个步骤决定系数变化是我们最关注的,R2越大越好 ,也是我们筛选变量的标准

已排除变量这张表要讲一下,说的是加入这个因变量模型会变得更加好吗?sig.<0.05表示会

SPSS自动方法逐步法扔进变量和剔除变量的阈值是?

(转载)SPSS之相关分析与线性回归模型(图文+数据集)相关推荐

  1. SPSS(五)SPSS之相关分析与线性回归模型(图文+数据集)

    SPSS(五)SPSS之相关分析与线性回归模型(图文+数据集) 在讲解线性回归模型之前,先来学习相关分析的知识点,因为相关分析与回归有着密切的联系 相关分析 任意多个变量都可以考虑相关问题,不单单局限 ...

  2. SPSS(六)SPSS之回归分析衍生方法(图文+数据集)

    SPSS(六)SPSS之回归分析衍生方法(图文+数据集) 我们知道线性回归是有适用条件的 因变量的独立性 正态性 方差齐性 无极端值 自变量.因变量要有线性趋势 假如不满足以上的条件,还能做回归分析吗 ...

  3. 因变量 方差膨胀系数_SPSS技术:多重线性回归模型;极端值与多重共线性

    原标题:SPSS技术:多重线性回归模型:极端值与多重共线性 欢迎关注天善智能微信公众号,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区. 对商业智能BI.大数据分析挖掘.机器学习,pytho ...

  4. 基于sklearn的线性回归模型实现多变量决策树

    多变量决策树 1 多变量决策树简介 2 实现思路 3 代码中的函数说明 3.1 class TreeNode 3.2 trainLinear 3.3 binaryTrainSet 3.4 score ...

  5. (转载)SPSS之聚类分析(图文+数据集)

    SPSS之聚类分析(图文+数据集) 聚类分析简介 按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性. 为了得到比较合理的分类,首先要采用适当的 ...

  6. SPSS(十九)SPSS之时间序列模型(图文+数据集)

    SPSS(十九)SPSS之时间序列模型(图文+数据集) 时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列.正如人们常说,人生的出场顺序很重要,时间序列中隐藏着一些过去与未来的关系. ...

  7. SPSS(九)Logistic模型族进阶(图文+数据集)

    SPSS(九)Logistic模型族进阶 我么们知道logistic回归针对的是二分类的因变量 当因变量是无序多分类和有序多分类的情况呢?所以这篇博客介绍下面两种方法 无序多分类Logistic回归模 ...

  8. 多元线性回归分析spss结果解读_SPSS--回归-多元线性回归模型案例解析

    多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程 为: 毫无疑问,多元线性回归方程应该为: 上图中的 x ...

  9. 多元线性回归模型中多重共线性问题处理方法

    转载自:http://datakung.com/?p=46 多重共线性指自变量问存在线性相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示.若存在多重共线性,计算自变量的偏回归系数β ...

最新文章

  1. gff文件_GFF格式说明
  2. mysql和mariadb可以同时使用吗,MariaDB与MySQL在一台服务器同时运行
  3. PHP开发调试环境配置(基于wampserver+Eclipse for PHP Developers )
  4. Android学习笔记进阶十三获得本地全部照片
  5. centos7离线安装mysql_Red Hat6.4离线安装mysql安装手册
  6. 飞畅科技-工业交换机电源故障初探
  7. Python包管理工具小结
  8. 第九届河南省程序设计大赛-----表达式求值-------递归+模拟
  9. IMPROVING ADVERSARIAL ROBUSTNESS REQUIRES REVISITING MISCLASSIFIED EXAMPLES
  10. 深度学习论文翻译解析:YOLOv4: Optimal Speed and Accuracy of Object Detection
  11. 杀毒软件工作原理及现有主要杀毒技术
  12. Pytorch - masked_fill方法参数详解与使用
  13. 基于GNN网络的session推荐模型(知识图谱技术在推荐场景的应用)
  14. Unity Shader 学习记录(5) —— 实现漫反射光照模型
  15. php phpstudy虚拟域名配置
  16. 左眼跳或右眼跳吉凶对照表(必读)
  17. 技术人“结构化思维”训练的一点想法和实践
  18. FlashPro2000.C2000.TDS510.TI编程 器支持大部分TI芯片读写2812.28335等
  19. COUNT计算机公式,countif函数的使用方法(统计考勤函数计算公式)
  20. 优达twitter 清理_优达资源 | 12个数据可视化工具,人人都能做出超炫图表

热门文章

  1. 在Word中插入可编辑的CAD图形文件
  2. 计算函数:求和、平均值、最小值、最大值
  3. 视觉目标检测和识别之过去,现在及可能(2017.06.28)
  4. 绿盾终端申请解密,审批通过之后,右下角提示:解密失败,请手动下载解密文件
  5. python自动刷抖音视频_python+adb实现自动刷抖音视频
  6. Python作业题:组合数据类型(带有答案和详细分析过程)
  7. 【笔记】5.圆周卷积概念及其计算
  8. 定期清理执行垃圾回收代码
  9. VS2008--VS2013 各种版本下载地址(我的官方)
  10. docker tag详解