数据分析中的哑变量问题,该怎么处理?
什么是虚拟变量?
虚拟变量又称哑变量,是人为设定的用于将分类变量引入模型中的方法。
为什么要使用虚拟变量
在回归分析中,自变量X既可以是定量数据也可以定类数据。回归分析计算时是将所有自变量X视为数字,但当数据为定类数据时,此时数字代表类别,数字大小本身没有比较意义。因此,这类数据在做回归分析时,需要设置成哑变量才能纳入回归分析正确分析数据。
如何使用虚拟变量
用一个例子说明:研究性别和工龄对基本工资的影响情况。
工龄是定量数据;性别为二分类数据,因而分析时性别不能直接放入回归模型,正确做法是将变量转化成取值为1和0的哑变量。
性别分为两类,因而需要设置2个虚拟变量(2列),分别表示男性和女性两个类别。
如果是男性,‘性别_男’虚拟变量取值为1,‘性别_女’虚拟变量取值为0。如果是女性则相反。
当变量分类超过两类时,也是类似的处理方式,在回归分析前将下面的“专业”类别转化为虚拟变量,结果如下图所示:
理科类取值=1代表专业为理科,0代表非理科
文科类取值=1代表专业为文科,0代表非文科
工科类取值=1代表专业为工科,0代表非工科
SPSSAU可直接一步生成虚拟变量,具体操作如下:
分析时,要注意少放入一个虚拟变量。如果分为两类就放入一个虚拟变量,三类就放入两个,以此类推。
原因在于虚拟变量包括数字0和1;0是对比参考项。如果2个类别都放入了,就没有参考类别了。
如何解释分析结果
![](/assets/blank.gif)
由上表可知,回归模型通过F检验,性别_男一项P<0.01,说明性别对基础工资确实存在显著的影响关系。
模型公式为:月基本工资=2403.834 + 42.659*工龄 + 1377.873*性别_男
当“性别_男”取值为1表示男性的月工资回归方程,0表示女性的月工资回归方程。回归系数值为1377.873,因此说明相同工龄下,男性的月基本工资比女性多1377.88元。
相反,放入的分析项若为性别_女,回归系数值应为-1377.873,代表同工龄的条件下,女性的月基本工资比男性少1377.88元
哪些分析方法会使用到虚拟变量
通常情况下,回归分析,逐步回归,分层回归,Logistic回归,PLS回归、调节作用等这类影响关系研究的方法时,才可能涉及到虚拟变量设置。
①回归分析/logistic回归
回归分析设置请参考上面的案例,注意留一项做参考项。
②调节作用
调节作用中,自变量或调节变量可以是定量数据,也可能是定类数据。
如果自变量X或者调节变量Z为定类数据,通常需要进行虚拟(哑)变量后才能分析,此过程被SPSSAU自动化处理,只需在【问卷研究】--【调节作用】里设置调节作用类型。
其他说明
1、将虚拟变量放入回归中,一定要少放一个虚拟变量,否则系统会提示存在多重共线性问题。
2、选择的“参照组”不同,会影响回归系数的大小,从而可能得出不同的结论。
“参照组”优先考虑最容易解释的选项。如学科分文科、理科、其他,三项中可以选“其他”作为参照项,方便解释。
3、SPSSAU会默认生成标题,设置完成后可进行‘标题修改’。
更多干货内容可登录SPSSAU官网查看。
SPSSAU | 回归分析思路总结
疑问解答 | 线性回归常见问题汇总
数据分析中的哑变量问题,该怎么处理?相关推荐
- 线性回归分析中的哑变量
最近偶尔在重温统计学,发现自己工作后用了各种高级的统计分析方法,各种统计模型,却忽视了统计学中一些最基础的知识,而这些知识是所有这些高级方法的基础,基础不扎实,高级方法用起来真觉得底气不足,今天看到哑 ...
- SAS中生成哑变量的一段宏代码
我们在建模时,可能经常会有一些将分类变量(categorical variable)转换成哑变量(dummy variable)的需求.例如"成绩"是一个分类变量,内容包含&quo ...
- 如何在SPSS中设置逻辑回归的哑变量
哑变量,是一个人为设定的变量,通常取值为0到N,以职业分类来说,0代表学生,1代表工人,2代表老师等等,哑变量就是通过这种取值方式,以此来反映某个变量的不同属性. 哑变量的设置在各个回归模型中都非常重 ...
- python 分类变量转为哑变量_机器学习笔记——哑变量处理
在机器学习的特征处理环节,免不了需要用到类别型特征,这类特征进入模型的方式与一般数值型变量有所不同. 通常根据模型的需要,类别型特征需要进行哑变量处理,即按照特征类别进行编码,一般一个类别为k的特征需 ...
- Python数据处理中关于离散变量的处理——因子化、One-Hot、哑变量
为了这份Python数据预处理教程,我熬了三天三夜! Python机器学习-数据预处理技术(标准化处理.归一化.二值化.独热编码.标记编码) 在数据进行建模分析,无法直接把类别变量放入模型中去分析,因 ...
- python 分类变量转为哑变量_Python中的虚拟变量(dummyvariables)
虚拟变量(dummy variables) 虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量.非数量因素可能产生的影响. ① 离散特征的取值之间有大小的意义 例如:尺寸(L.XL.XXL) 离散 ...
- R语言中哑变量的设置
原文来源:https://www.sohu.com/a/199698358_489312 在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位, ...
- 分类变量回归: R语言中哑变量编码本质
本篇描述分类变量如何进行回归(翻译自http://www.sthda.com/english/articles/40-regression-analysis/163-regression-with-c ...
- 在R中做含有哑变量的gam模型并可视化
R中建立包含哑变量的gam模型需要使用mgcv包.下面是一个例子: library(mgcv) set.seed(1) # 生成模拟数据 n <- 100 x1 <- rnorm(n) x ...
最新文章
- php lyadmin,index.php
- Github上Pandas,Numpy和 Scipy三个库中20个最常用的函数
- JAVA客户端数据传输_java模拟TCP通信实现客户端上传文件到服务器端
- 全概公式和贝叶斯公式的理解及例题
- 【Elasticsearch】Elasticsearch 热点线程 hot_threads
- Windows终端(WT)添加conda命令行
- 计算机辅助设计实训报告范文,cad室内实训报告范文
- 13 MySQL--存储过程
- C#操作Win7/Win8的库、收藏夹
- Matlab绘图模板
- 信息收集之——FOFA网站常用搜索语法
- Node.js 种子下载器
- Phonetic symbol 单元音 - 短元音 ɒ(新)/ ɔ(旧) 与 长元音 ɔː
- Transact-SQL编程
- python的几种非线性回归
- php 字体如何加粗和调大小,如何在PHP中使文本变为粗体?
- 知识图谱认知智能理论与实战----------第一章 知识图谱概述
- esp8266 AP模式控制继电器开关
- 干货全拿走-用ExcelVBA做个股多模型交叉验证择时交易套利及回测系统
- 找个程序员做老公,最靠谱!
热门文章
- 《纽约比加州时间早3个小时》 | 一首火遍美国的小诗
- JS:引用数据类型(2021-09-18s)
- java使用POI的HSSFWorkbook导出excel模板添加各种校验
- 复变函数与积分变换matlab,MATLAB在复变函数与积分变换课程教学中的应用
- Windows Server2008 R2 设置NAT 让Hyper-V连接Internet
- 自来水供水实时监测系统 智慧水务建设方案 供水泵站无人值守控制方案
- 对rose框架的简单使用
- QQ注册界面仿写(HTML+CSS+JS)
- wireshark三次握手抓包
- 作团队感悟(15)----培养危机感