“分箱法”相信学过统计学的小伙伴们都不会陌生,它的主要作用就在于对噪音数据进行剔除,同时将连续型数据进行离散处理。在模型分析开始前,我们经常需要使用到分箱法来处理和清洗数据。

作为一款功能全面、专业性强的统计分析软件,IBM SPSS Statistic同样具备分箱功能,下面我们一起来通过一篇教程了解一下。

图1是我们准备要分箱的数据,我们将对年龄列进行分箱,按照每10岁为一个标准进行分箱。

图1:要分箱的数据

点击“转换”中的“可视分箱”,进入分箱设置界面。

图2:可视分箱

将“年龄”拉入到“要分箱的变量”中,然后点击“继续”。

图3:拉入要分箱的变量

在图4所示界面,我们可以看到要扫描的个案数共34个,其中最大的变量值为67,最小为22,也就是说要分箱的数据年龄段在22到67岁之间。

我们在“分箱化变量”中,填入“年龄段”,作为一个之后新生成的变量,随后点击“生成分割点”按钮。

图4:分箱化变量

按照我们的分箱目的,我们要每隔10岁分组一次,最小的年龄为22岁,则我们需要在第一个分割点位置填写“20”,然后在宽度填写“10”,此时点击键盘Tap键,SPSS会自动生成分割点数的值为“5”,如图5所示。

这样子SPSS会自动帮我们将20到30、30到40、40到50、50到60、60到70的年龄段进行分组,一共5组。

图5:生成分割点

点击“应用”按钮后,回到“可视分箱”界面中,我们可以在图6红框位置看到后续的分箱值,标签栏默认是空值,我们可以进行自定义填写,如设置20的分箱标签为2。

图6:设置自定义标签

最后点击“确定”按钮,开始进行数据分箱,分箱后的新数据结果如图7所示,生成了新的“年龄段”列,数据也非常正确地进行了分箱,如年龄为27的那行数据,被正确地设置到了标签为2的分箱中。

图7:分箱结果

以上就是使用IBM SPSS Statistic对演示数据中的年龄指标,按照每隔10岁的标准,进行分箱的全部教程,上述演示的是等距分箱,小伙伴也可以自己动手在IBM SPSS Statistic中尝试一下不等距分箱哦。

SPSS教程——分箱功能将连续数据离散化相关推荐

  1. 数据处理之连续数据离散化

    一些数据挖掘算法,比如Apriori算法等,要求数据是分类属性形式,需要进行连续数据离散化. 连续数据离散化就是在数据的取值范围内,设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同 ...

  2. R语言caret包构建xgboost模型实战:特征工程(连续数据离散化、因子化、无用特征删除)、配置模型参数(随机超参数寻优、10折交叉验证)并训练模型

    R语言caret包构建xgboost模型实战:特征工程(连续数据离散化.因子化.无用特征删除).配置模型参数(随机超参数寻优.10折交叉验证)并训练模型 目录

  3. 利用SPSS可视化分箱轻松给数据进行等分分组

    我们在临床研究中,经常需要对数据进行转换,有时需要把连续变量转换成分类变量,然后观察分类变量的之间关系.例如下图按照百分位把数据分成了5组 我们今天通过SPSS数据可视化分箱来演示怎么进行连续数据等分 ...

  4. SemiBin宏基因组半监督分箱工具中GTDB数据的下载与配置

    最近想学一学宏基因组的分箱工具使用(讲真的,感觉bin还是挺复杂的,不是我这种小白该去涉猎的),本来想看看老牌工具metaWRAP的使用细节,奈何微信推送了一条新的分箱工具--SemiBin,还是基于 ...

  5. 《Python金融大数据风控建模实战》 第6章 变量分箱方法

    <Python金融大数据风控建模实战> 第6章 变量分箱方法 本章引言 Python代码实现及注释 本章引言 变量分箱是一种特征工程方法,意在增强变量的可解释性与预测能力.变量分箱方法主要 ...

  6. 数据挖掘:银行评分卡制作——数据分箱、WOE、IV的意义

    在银行评分卡的项目中,通常都会需要把数据分箱,分箱后并不是对数据进行哑变量处理,而是用WOE值去替换,再放入模型中. 学习的过程中会对这些操作有些疑问,比如,数据分箱有什么意义,WOE和IV值是干什么 ...

  7. 数据科学猫:数据预处理 之 数据分箱(Binning)

    进击的橘子猫正式改名上线啦! 我的CSDN主页:https://blog.csdn.net/Orange_Spotty_Cat 也欢迎大家搜索微信公众号"进击的橘子猫",我也会定期 ...

  8. 数据预处理的分箱操作

    介绍 我们在建立模型前,一般需要对特征变量进行离散化,特征离散化后,模型会更稳定,降低模型过拟合的风险.尤其是采用 logsitic 建立评分卡模型时,必须对连续变量进行离散化.而特征离散化处理通常采 ...

  9. 系统学习机器学习之特征工程(四)--分箱总结

    首先from wiki给出一个标准的连续特征离散化的定义: 在统计和机器学习中,离散化是指将连续属性,特征或变量转换或划分为离散或标称属性/特征/变量/间隔的过程.这在创建概率质量函数时非常有用 - ...

最新文章

  1. 6小时完成,Jeff Dean领衔AI设计芯片方案登Nature,谷歌第四代TPU已用 芯快递 今天...
  2. 信号处理:CTFS-CTFT
  3. maven pom resources标签的使用示例
  4. 服务器无法执行该事务_分布式事务、MVCC、事务隔离级别
  5. 构建嵌入式LINUX的NFS【ZT】
  6. 监管码服务器维修,云风的 BLOG
  7. python中格式化输出_python如何实现格式化输出
  8. Macfee 迈克菲尔CPU占用高解决办法,Macfee配置,优化和暂时关闭保护方法
  9. Java版通用身份证验证
  10. PHP zip 文件压缩、解压
  11. 基于MATLAB的手机定位精度评估算法的仿真
  12. Unity3D 场景切换
  13. 利用pyecharts实现中国省与市之间的跳转
  14. 零基础系统化学习白帽黑客技术
  15. 精品丨DAX性能优化问题
  16. Shiro session过期跳转到登录页面问题
  17. App性能测试揭秘(Android篇)
  18. Go语言基础数据类型所占内存大小
  19. 一个人的孤独,一群人的狂欢!
  20. Object.assign 原理及其实现

热门文章

  1. 2天300+作品,Midjourney将彻底颠覆食品包装设计!
  2. MMU 和 IOMMU
  3. 【目标检测】55、YOLOv8 | YOLOv5 团队 Ultralytics 再次出手,又实现了 SOTA
  4. SQL Server 中 EXEC全称execute 与 SP_EXECUTESQL动态执行sql代码语句 的区别
  5. 详解C/C++中的的:#pragma pack(push) 、#pragma pack(pop) 和#pragma pack()
  6. 开源淘客APP源码抖客京东客多多客uniapp开发模板
  7. CH32V3xx USART 空闲中断+DMA接收
  8. vue中Mapbox的字体本地化部署解决方案
  9. JavaCompiler实战:将Java源代码字符串动态编译成java类
  10. 一文详解 HTTP 协议