教程传送门:
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析
SPSS Modeler18.0数据挖掘软件教程(四):分类分析-决策树

1、数据介绍

本节教程中将利用SPSS Modeler18.0对已经数据进行描述性统计分析与数据可视化,需要利用SPSS Modeler软件计算数据的集中趋势指标:平均数、中位数、众数;离散趋势指标:极差、方差与标准差;数据的分布形态:偏度、峰度等指标。利用散点图、条形图、直方图等对电信客户流失进行初步分析。演示所用的数据为SPSS Moddeler18.0自带的电信数据集:telo.sav,数据地址是SPSS Modler18.0安装路径下的Demos文件夹中,我的是:
C:\Program Files\IBM\SPSS\Modeler\18.0\Demos。本教程所涉及的数据集我也整理了一份放在云盘,提取码: ktyb,需要的彭毅可以直接下载。

该数据表示的某电信公司的用户数据数据,共有42个字段,其中最后一个字段【churn】表示的是用户流失与否,0表示客户未流失,1表示客户流失,其他字段是每个客户在不同指指标上的值。

2、操作步骤

2.1描述性统计

(1)数据审核
数据的描述性性统计可以使用SPSS Modeler的【数据审核】功能。例:将数据源节点拖入数据流构建区域,双击打开,选择需要进行分析的文件。

将字段选项中的【类型】节点拖入构建区域,建立连接,对不同字段测量属性进行设置。
对字段的【测量】属性进行设置时,需要注意“标记”、“名义”、“有序”都表示该字段是分类变量,不同的是“标记”只有两个值,如0-1代表那男女、流失与否等,“名义”表示有三个以及三个以上的取值,如:1、2、3、4代表亚洲、欧洲、非洲、澳洲,“有序”代表不同类型之间存在一定的顺序,如1,2,3代表收入低、中、高。对字段角色的设置,则根据字段是作为自变量还是因变量,自变量是输入,因变量是目标。进行数据分析之前,一定要需要根据数据类型将数据测量的属性设置好。

将【输出】节点中的【数据审核】节点拖入构建区,点击运行。

得出如下数据审查结果,其中包含各字段的描述性统计信息。

(2)分类汇总
将节点区的【汇总】节点拖入数据流构建区,将关键字段设置成表示用户流失与否的【churn】,汇总字段选择除了【churn】的剩下所有字段,在汇总字段总可以勾选自己需要的统计指标,如:均值、方差、标准差、合计等。

【汇总】节点设置完成后,再从节点区的【输出】节点中选择【表格】节点拖入数据流构建区,与【汇总】节点连接,点运行,得到各个字段关于【churn】字段的分类汇总统计结果。

2.2数据可视化

(1)不同字段的可视化分析
利用SPSS Modeler【图形】节点绘制不同类型统计图。例:将节点区【图形】节点中的【分布】节点拖入构建区,选择“churn”字段按照性别“gender”绘制分布图。

点击运行,可以看到流失与非流失客户中,男女的比例大致都是占一半,无明显区别。

将节点区【图形】节点中的【直方图】节点拖入构建区,选择“age”字段绘制直方图。

点击运行,可以得出不同年龄的分布情况。

此外,还可以根据其他不同字段设置【交叠字段】进行绘制,此例在【交叠字段】中设置“ed”作为颜色区分,并在【选项】中勾选显示标准曲线,设置如下。

点击运行,得到如下直方图,不仅可以看到每个年龄的分布,还可以看到不同年龄段中中各个教育程度的占比用不同颜色区分。

(2)分类汇总可视化分析
对于之前所做的针对客户流失与否的【churn】字段的分类汇总数据,可以利用【图形】节点中的【图形板】绘制流失与非流失客户在各个指标上均值的【平行图】。

将【图形板】节点拖入数据流构建区与【汇总】连接,在图形板【基本】选项卡选中需要绘图的字段,上图的例子中选择的是汇总后的均值,然后在【详细】选项卡中将【色彩】选择【churn】,用以区分,设置好后点击运行,得到如下平行图:
SPSS Modeler中的【图形版】中还有十分丰富的图形可供选择,可以选择进行绘制。如,线图、热力图、箱形图等等,可以按需绘制。

3、小结

本节中介绍了利用SPSS进行数据的基本统计、分类汇总以及可视化操作,通过描述性统计和可视化,可以帮助我们在数据建模分析之前对数据有更为全面的了解并能根据图形可视化进行简单的分析。

SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化相关推荐

  1. SPSS Modeler18.0数据挖掘软件教程(四):分类分析-决策树

    教程传送门: SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介 SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化 SPSS Modeler18.0数 ...

  2. SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析

    教程传送门: SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介 SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化 SPSS Modeler18.0数 ...

  3. R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息、数值数据的描述性统计(Numerical data)、离散型数据的描述性统计(Categorical)

    R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息.数值数据的描述性统计(Numerical data).离散型数据的描述性统计(Categorical) 目录

  4. 零基础数据挖掘入门系列(二) - 数据的探索性(EDA)分析

    思维导图:零基础入门数据挖掘的学习路径 1. 写在前面 零基础入门数据挖掘是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识, ...

  5. 二、描述性统计分析及可视化

    目录 描述性统计分析概述 示例 描述统计总结 一个分类变量 一个连续变量 两个分类变量 分类变量和连续变量 汇总表:两个分类变量+一个连续变量 描述性统计分析概述 python原始的数据类型:字符型. ...

  6. 【UV打印机】PrintExp打印软件教程(二)-主界面介绍

    00. 目录 文章目录 00. 目录 01. PrintExp概述 02. PrintExp工具栏 03. PrintExpZ轴控制 04. PrintExp专色界面 05. PrintExp状态栏 ...

  7. PyTorch 1.0 中文官方教程:数据加载和处理教程

    译者:yportne13 作者:Sasank Chilamkurthy 在解决机器学习问题的时候,人们花了大量精力准备数据.pytorch提供了许多工具来让载入数据更简单并尽量让你的代码的可读性更高. ...

  8. 【UV打印机】RYPC打印软件教程(二)-软件界面概述

    00. 目录 文章目录 00. 目录 01. RYPC概述 02. RYPC工具栏 03. RYPC信息显示区 04. RYPC主菜单按钮 05. 附录 01. RYPC概述 下图是控制软件的主操作界 ...

  9. hadoop基础教程(二) MapReduce 单词统计

    1.这是hadoop基础系列教程,适合入门者学习. 2.MapReduce是一种分布式计算模型,解决海量数据问题,由两个阶段组成,map()和reduce().本文不讲解原理,下面实际操作利用MapR ...

最新文章

  1. error LNK2019: 无法解析的外部符号 __imp__inet_ntoa@4
  2. uvm 形式验证_一种基于UVM的总线验证方法与流程
  3. 【最短路】【SPFA】电车 (luogu 1346)
  4. centos7 编译安装nginx 设置自启动服务 支持https
  5. python官网下载步骤-下载及安装Python详细步骤
  6. SpringBoot之mybatis-plus
  7. Unity实现导航到鼠标点击位置并显示路线
  8. Eclipse安装svn插件的几种方式
  9. JavaScript知识整理(一)——W3school
  10. tomcat乱码_中文乱码
  11. HTML+CSS(婚纱公司网站)静态网页设计
  12. 解决CSDN上传资源出现报错:“该资源已存在,请重新上传”
  13. [微信小程序]云服务器上传图片或视频
  14. EKS日志收集方案-PLG(Promtail+Loki+Grafana)
  15. 关于物联网透传工具的安全性
  16. python pip是什么的简写_Python包管理器pip
  17. 微信早安推送+定时任务配置(精简图文版)
  18. 各大短信平台接入方法
  19. android 蓝牙4.2.2分析研究
  20. Excel如何为介于区间的数值设置背景颜色?

热门文章

  1. jquery时间戳格式化!!!
  2. 嵌入式linux,老手给新手的建议
  3. 苹果报告问题_苹果会被超越吗?看看最新排名数据!
  4. 沐曦加入openKylin,提供全栈GPU芯片及解决方案
  5. 防火墙无法打开,错误代码 0×80070422
  6. python利用Trie(前缀树)实现搜索引擎中关键字输入提示(学习Hash Trie和Double-array Trie)...
  7. Windows Server 2012 远程桌面设置及授权
  8. 设计模式——责任链模式(Chain of Responsibility Pattern)
  9. 深度学习_TensorFlow2.0基础_张量创建,运算,维度变换,采样
  10. 小米note3android版本彩蛋,MIUI 10开发版8.12.13更新:小米MIX 3新增滑盖音效“江湖”彩蛋...