SPSS教程——分箱功能将连续数据离散化
“分箱法”相信学过统计学的小伙伴们都不会陌生,它的主要作用就在于对噪音数据进行剔除,同时将连续型数据进行离散处理。在模型分析开始前,我们经常需要使用到分箱法来处理和清洗数据。
作为一款功能全面、专业性强的统计分析软件,IBM SPSS Statistic同样具备分箱功能,下面我们一起来通过一篇教程了解一下。
图1是我们准备要分箱的数据,我们将对年龄列进行分箱,按照每10岁为一个标准进行分箱。
图1:要分箱的数据
点击“转换”中的“可视分箱”,进入分箱设置界面。
图2:可视分箱
将“年龄”拉入到“要分箱的变量”中,然后点击“继续”。
图3:拉入要分箱的变量
在图4所示界面,我们可以看到要扫描的个案数共34个,其中最大的变量值为67,最小为22,也就是说要分箱的数据年龄段在22到67岁之间。
我们在“分箱化变量”中,填入“年龄段”,作为一个之后新生成的变量,随后点击“生成分割点”按钮。
图4:分箱化变量
按照我们的分箱目的,我们要每隔10岁分组一次,最小的年龄为22岁,则我们需要在第一个分割点位置填写“20”,然后在宽度填写“10”,此时点击键盘Tap键,SPSS会自动生成分割点数的值为“5”,如图5所示。
这样子SPSS会自动帮我们将20到30、30到40、40到50、50到60、60到70的年龄段进行分组,一共5组。
图5:生成分割点
点击“应用”按钮后,回到“可视分箱”界面中,我们可以在图6红框位置看到后续的分箱值,标签栏默认是空值,我们可以进行自定义填写,如设置20的分箱标签为2。
图6:设置自定义标签
最后点击“确定”按钮,开始进行数据分箱,分箱后的新数据结果如图7所示,生成了新的“年龄段”列,数据也非常正确地进行了分箱,如年龄为27的那行数据,被正确地设置到了标签为2的分箱中。
图7:分箱结果
以上就是使用IBM SPSS Statistic对演示数据中的年龄指标,按照每隔10岁的标准,进行分箱的全部教程,上述演示的是等距分箱,小伙伴也可以自己动手在IBM SPSS Statistic中尝试一下不等距分箱哦。
SPSS教程——分箱功能将连续数据离散化相关推荐
- 数据处理之连续数据离散化
一些数据挖掘算法,比如Apriori算法等,要求数据是分类属性形式,需要进行连续数据离散化. 连续数据离散化就是在数据的取值范围内,设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同 ...
- R语言caret包构建xgboost模型实战:特征工程(连续数据离散化、因子化、无用特征删除)、配置模型参数(随机超参数寻优、10折交叉验证)并训练模型
R语言caret包构建xgboost模型实战:特征工程(连续数据离散化.因子化.无用特征删除).配置模型参数(随机超参数寻优.10折交叉验证)并训练模型 目录
- 利用SPSS可视化分箱轻松给数据进行等分分组
我们在临床研究中,经常需要对数据进行转换,有时需要把连续变量转换成分类变量,然后观察分类变量的之间关系.例如下图按照百分位把数据分成了5组 我们今天通过SPSS数据可视化分箱来演示怎么进行连续数据等分 ...
- SemiBin宏基因组半监督分箱工具中GTDB数据的下载与配置
最近想学一学宏基因组的分箱工具使用(讲真的,感觉bin还是挺复杂的,不是我这种小白该去涉猎的),本来想看看老牌工具metaWRAP的使用细节,奈何微信推送了一条新的分箱工具--SemiBin,还是基于 ...
- 《Python金融大数据风控建模实战》 第6章 变量分箱方法
<Python金融大数据风控建模实战> 第6章 变量分箱方法 本章引言 Python代码实现及注释 本章引言 变量分箱是一种特征工程方法,意在增强变量的可解释性与预测能力.变量分箱方法主要 ...
- 数据挖掘:银行评分卡制作——数据分箱、WOE、IV的意义
在银行评分卡的项目中,通常都会需要把数据分箱,分箱后并不是对数据进行哑变量处理,而是用WOE值去替换,再放入模型中. 学习的过程中会对这些操作有些疑问,比如,数据分箱有什么意义,WOE和IV值是干什么 ...
- 数据科学猫:数据预处理 之 数据分箱(Binning)
进击的橘子猫正式改名上线啦! 我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat 也欢迎大家搜索微信公众号"进击的橘子猫",我也会定期 ...
- 数据预处理的分箱操作
介绍 我们在建立模型前,一般需要对特征变量进行离散化,特征离散化后,模型会更稳定,降低模型过拟合的风险.尤其是采用 logsitic 建立评分卡模型时,必须对连续变量进行离散化.而特征离散化处理通常采 ...
- 系统学习机器学习之特征工程(四)--分箱总结
首先from wiki给出一个标准的连续特征离散化的定义: 在统计和机器学习中,离散化是指将连续属性,特征或变量转换或划分为离散或标称属性/特征/变量/间隔的过程.这在创建概率质量函数时非常有用 - ...
最新文章
- 6小时完成,Jeff Dean领衔AI设计芯片方案登Nature,谷歌第四代TPU已用 芯快递 今天...
- 信号处理:CTFS-CTFT
- maven pom resources标签的使用示例
- 服务器无法执行该事务_分布式事务、MVCC、事务隔离级别
- 构建嵌入式LINUX的NFS【ZT】
- 监管码服务器维修,云风的 BLOG
- python中格式化输出_python如何实现格式化输出
- Macfee 迈克菲尔CPU占用高解决办法,Macfee配置,优化和暂时关闭保护方法
- Java版通用身份证验证
- PHP zip 文件压缩、解压
- 基于MATLAB的手机定位精度评估算法的仿真
- Unity3D 场景切换
- 利用pyecharts实现中国省与市之间的跳转
- 零基础系统化学习白帽黑客技术
- 精品丨DAX性能优化问题
- Shiro session过期跳转到登录页面问题
- App性能测试揭秘(Android篇)
- Go语言基础数据类型所占内存大小
- 一个人的孤独,一群人的狂欢!
- Object.assign 原理及其实现
热门文章
- 2天300+作品,Midjourney将彻底颠覆食品包装设计!
- MMU 和 IOMMU
- 【目标检测】55、YOLOv8 | YOLOv5 团队 Ultralytics 再次出手,又实现了 SOTA
- SQL Server 中 EXEC全称execute 与 SP_EXECUTESQL动态执行sql代码语句 的区别
- 详解C/C++中的的:#pragma pack(push) 、#pragma pack(pop) 和#pragma pack()
- 开源淘客APP源码抖客京东客多多客uniapp开发模板
- CH32V3xx USART 空闲中断+DMA接收
- vue中Mapbox的字体本地化部署解决方案
- JavaCompiler实战:将Java源代码字符串动态编译成java类
- 一文详解 HTTP 协议