什么是虚拟变量?

虚拟变量又称哑变量,是人为设定的用于将分类变量引入模型中的方法。

为什么要使用虚拟变量

在回归分析中,自变量X既可以是定量数据也可以定类数据。回归分析计算时是将所有自变量X视为数字,但当数据为定类数据时,此时数字代表类别,数字大小本身没有比较意义。因此,这类数据在做回归分析时,需要设置成哑变量才能纳入回归分析正确分析数据。

如何使用虚拟变量

用一个例子说明:研究性别和工龄对基本工资的影响情况。

工龄是定量数据;性别为二分类数据,因而分析时性别不能直接放入回归模型,正确做法是将变量转化成取值为1和0的哑变量。

性别分为两类,因而需要设置2个虚拟变量(2列),分别表示男性和女性两个类别。

如果是男性,‘性别_男’虚拟变量取值为1,‘性别_女’虚拟变量取值为0。如果是女性则相反。

当变量分类超过两类时,也是类似的处理方式,在回归分析前将下面的“专业”类别转化为虚拟变量,结果如下图所示:

理科类取值=1代表专业为理科,0代表非理科

文科类取值=1代表专业为文科,0代表非文科

工科类取值=1代表专业为工科,0代表非工科

SPSSAU可直接一步生成虚拟变量,具体操作如下:

分析时,要注意少放入一个虚拟变量。如果分为两类就放入一个虚拟变量,三类就放入两个,以此类推。

原因在于虚拟变量包括数字0和1;0是对比参考项。如果2个类别都放入了,就没有参考类别了。

如何解释分析结果

线性回归分析结果

由上表可知,回归模型通过F检验,性别_男一项P<0.01,说明性别对基础工资确实存在显著的影响关系。

模型公式为:月基本工资=2403.834 + 42.659*工龄 + 1377.873*性别_男

当“性别_男”取值为1表示男性的月工资回归方程,0表示女性的月工资回归方程。回归系数值为1377.873,因此说明相同工龄下,男性的月基本工资比女性多1377.88元。

相反,放入的分析项若为性别_女,回归系数值应为-1377.873,代表同工龄的条件下,女性的月基本工资比男性少1377.88元

哪些分析方法会使用到虚拟变量

通常情况下,回归分析,逐步回归,分层回归,Logistic回归,PLS回归、调节作用等这类影响关系研究的方法时,才可能涉及到虚拟变量设置。

①回归分析/logistic回归

回归分析设置请参考上面的案例,注意留一项做参考项。

 

②调节作用

调节作用中,自变量或调节变量可以是定量数据,也可能是定类数据。

如果自变量X或者调节变量Z为定类数据,通常需要进行虚拟(哑)变量后才能分析,此过程被SPSSAU自动化处理,只需在【问卷研究】--【调节作用】里设置调节作用类型。

其他说明

1、将虚拟变量放入回归中,一定要少放一个虚拟变量,否则系统会提示存在多重共线性问题。

2、选择的“参照组”不同,会影响回归系数的大小,从而可能得出不同的结论。

“参照组”优先考虑最容易解释的选项。如学科分文科、理科、其他,三项中可以选“其他”作为参照项,方便解释。

3、SPSSAU会默认生成标题,设置完成后可进行‘标题修改’。

更多干货内容可登录SPSSAU官网查看。

SPSSAU | 回归分析思路总结

疑问解答 | 线性回归常见问题汇总

数据分析中的哑变量问题,该怎么处理?相关推荐

  1. 线性回归分析中的哑变量

    最近偶尔在重温统计学,发现自己工作后用了各种高级的统计分析方法,各种统计模型,却忽视了统计学中一些最基础的知识,而这些知识是所有这些高级方法的基础,基础不扎实,高级方法用起来真觉得底气不足,今天看到哑 ...

  2. SAS中生成哑变量的一段宏代码

    我们在建模时,可能经常会有一些将分类变量(categorical variable)转换成哑变量(dummy variable)的需求.例如"成绩"是一个分类变量,内容包含&quo ...

  3. 如何在SPSS中设置逻辑回归的哑变量

    哑变量,是一个人为设定的变量,通常取值为0到N,以职业分类来说,0代表学生,1代表工人,2代表老师等等,哑变量就是通过这种取值方式,以此来反映某个变量的不同属性. 哑变量的设置在各个回归模型中都非常重 ...

  4. python 分类变量转为哑变量_机器学习笔记——哑变量处理

    在机器学习的特征处理环节,免不了需要用到类别型特征,这类特征进入模型的方式与一般数值型变量有所不同. 通常根据模型的需要,类别型特征需要进行哑变量处理,即按照特征类别进行编码,一般一个类别为k的特征需 ...

  5. Python数据处理中关于离散变量的处理——因子化、One-Hot、哑变量

    为了这份Python数据预处理教程,我熬了三天三夜! Python机器学习-数据预处理技术(标准化处理.归一化.二值化.独热编码.标记编码) 在数据进行建模分析,无法直接把类别变量放入模型中去分析,因 ...

  6. python 分类变量转为哑变量_Python中的虚拟变量(dummyvariables)

    虚拟变量(dummy variables) 虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量.非数量因素可能产生的影响. ① 离散特征的取值之间有大小的意义 例如:尺寸(L.XL.XXL) 离散 ...

  7. R语言中哑变量的设置

    原文来源:https://www.sohu.com/a/199698358_489312 在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位, ...

  8. 分类变量回归: R语言中哑变量编码本质

    本篇描述分类变量如何进行回归(翻译自http://www.sthda.com/english/articles/40-regression-analysis/163-regression-with-c ...

  9. 在R中做含有哑变量的gam模型并可视化

    R中建立包含哑变量的gam模型需要使用mgcv包.下面是一个例子: library(mgcv) set.seed(1) # 生成模拟数据 n <- 100 x1 <- rnorm(n) x ...

最新文章

  1. php lyadmin,index.php
  2. Github上Pandas,Numpy和 Scipy三个库中20个最常用的函数
  3. JAVA客户端数据传输_java模拟TCP通信实现客户端上传文件到服务器端
  4. 全概公式和贝叶斯公式的理解及例题
  5. 【Elasticsearch】Elasticsearch 热点线程 hot_threads
  6. Windows终端(WT)添加conda命令行
  7. 计算机辅助设计实训报告范文,cad室内实训报告范文
  8. 13 MySQL--存储过程
  9. C#操作Win7/Win8的库、收藏夹
  10. Matlab绘图模板
  11. 信息收集之——FOFA网站常用搜索语法
  12. Node.js 种子下载器
  13. Phonetic symbol 单元音 - 短元音 ɒ(新)/ ɔ(旧) 与 长元音 ɔː
  14. Transact-SQL编程
  15. python的几种非线性回归
  16. php 字体如何加粗和调大小,如何在PHP中使文本变为粗体?
  17. 知识图谱认知智能理论与实战----------第一章 知识图谱概述
  18. esp8266 AP模式控制继电器开关
  19. 干货全拿走-用ExcelVBA做个股多模型交叉验证择时交易套利及回测系统
  20. 找个程序员做老公,最靠谱!

热门文章

  1. 《纽约比加州时间早3个小时》 | 一首火遍美国的小诗
  2. JS:引用数据类型(2021-09-18s)
  3. java使用POI的HSSFWorkbook导出excel模板添加各种校验
  4. 复变函数与积分变换matlab,MATLAB在复变函数与积分变换课程教学中的应用
  5. Windows Server2008 R2 设置NAT 让Hyper-V连接Internet
  6. 自来水供水实时监测系统 智慧水务建设方案 供水泵站无人值守控制方案
  7. 对rose框架的简单使用
  8. QQ注册界面仿写(HTML+CSS+JS)
  9. wireshark三次握手抓包
  10. 作团队感悟(15)----培养危机感