教程传送门:
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化
SPSS Modeler18.0数据挖掘软件教程(四):分类分析-决策树

1、数据介绍

本节教程中将利用SPSS Modeler18.0对电信客户流失数据进行逻辑回归建模,分析客户流失原因,所使用的数据集是SPSS Modeler18.0自带数据集《telo.sav》,本教程所涉及的数据集我也整理了一份放在云盘,提取码: ktyb,需要的朋友可以直接下载。
本次所用数据与教程(一)中相同,数据结构如下:

该数据表示的某电信公司的用户数据数据,共有42个字段,其中最后一个字段【churn】表示的是用户流失与否,0表示客户未流失,1表示客户流失,其他字段是每个客户在不同指指标上的值。

2、操作步骤

2.1模型构建

在SPSS Modeler18.0软件中构建如下数据流:

具体步骤为:
首先,在【源】节点中选择待处理的源数据,连接到【字段选项】节点中的【类型】节点,并将每个变量的测量属性设置好,指定每个变量的角色,本例中的【目标】角色为“chun”,其为0-1变量。【角色】为【输入】的变量,可以理解为模型的自变量,【目标】理解为因变量。

其次,过滤不需要的字段。本例中只分析用户的原始数据,对于经过将原始数据处理过的带“log”的字段进行过滤。操作为:将【字段选项】中的【过滤器】节点拖入构建区,与【类别】节点连接,在【过滤器】中带有×的字段即被过滤的字段,在后续的处理中这些字段不需要使用。

接着,在【字段】选项卡中,可以直接使用在前面类型中设置好的角色,也可以按照自己需要【使用定制字段分配】,本例使用【预定义角色】。
本例的因变量为二分类变量,在【模型】选项卡中,选择【二项式过程】以及【向前进步法】构建模型。对于具有不同类型的分类型自变量而言,比如本例中的“ed”“region”等,选择将其转化成哑变量,在【对比】中选择哑变量,【基准类别】选择第一类。在【分析】选项卡中购选【计算预测变量的重要性】。
**关于哑变量的解释:某些分类型的自变量,比如地区“region”、性别“gender”等,虽然在统计时以1、2、3分别表示亚洲、欧洲、非洲,以1、0分别表示男、女,但实际上这些类型之间并无大小之分,直接以数值代入模型即会把数值本身的大小因素代入模型,引起模型出现错误的解释。因此需要对分类型变量进行重新编码,使得不同的属性值只代表类型不同,消除大小影响。
例如对于变量region的哑变量设置如下:region共有3个值,所以选取设置3-1=2个哑变量region(1)和region(2),将第一个作为基准用于参考,剩下两个分别在region(1)和region(2)上与基准相差1,以反映地区间的差异。

这种哑变量的设置方式就是SPSS Modeler逻辑回归的对比器,设置方法。

最后,点击运行,得到本模逻辑回归结果,在构建区为橙色钻石形状,双击将其打开。在逻辑回归结果【模型】选项卡下,可以看到不同变量的重要性,即【预测变量的重要性】,这里的预测变量指的就是自变量。
输出结果的【摘要】选项卡里可以看到一些关于模型的汇总信息,【高级】选项卡里输出的是整个模型的结果,输出的表中包含模型的拟合效果,自变量的系数,显著性情况等,需要对表进行详细分析。

在逻辑回归结果的后面,添加【输出】节点中的【分析】节点,点击运行,查看模型在所有样本上的正确性。

在逻辑回归结果中添加【输出】节点中的【表格】节点,点击运行后,可以看到表格中数据不仅包括原有数据,还多了以$开头的模型预测结果以及出现该结果的概率。

2.2结果分析

SPSS Modeler18.0逻辑回归模型结果的【高级】选项卡中输出的表格信息,是结果分析的重点,分析内容包括:数据中各变量信息;模型的显著性检验;模型的拟合优度;模型的准确率;模型中自变量的系数、显著性、OR值(占优比)的解释;模型的logit方程。
例:在模型结果的【高级】选项卡中,首先是因变量与自变量的编码,因变量用0与1表示流失与否,自变量设置成哑变量。


分类表是对建模前样本信息进行统计,本例中未流失用户占比为72.6。

模型最终的显著性分析见下表,在Model一栏中,P值(Sig)小于显著性水平0.05,认为模型具有显著性。

下表是模型中保留变量的统计信息,这些变量对于客户流失与否有关。其中,B值为变量在logit方程中的系数,Sig为P值表示显著性,Exp(B)为OR值(优势比)。

根据B值,可以写出logit方程为:

每个变量的对于客户流失的解释需要明确的是:逻辑回归所捕获的某个自变量的效应是以其他变量为条件的(即,其他变量保持不变)。变量的解释重点看是OR值:Exp(B),该值表示的是表示某一因素内该类别是其相应参考类别具有某种倾向性的倍数。
比如:变量equip(1)的OR值为2.141,表示在其他因素不变的情况下,equip值为1的客户流失的可能性是equip为0的客户的2.141倍。
对于连续性变量如tenure,其OR值为0.964,表示在其他因素不变的情况下,tenure每提升单位数值,客户流失率的可能性会乘以0.964倍,与流失的可能性是负相关。其他变量的解释可以参照以上的解释。
下面这张表中变量是被模型所剔除的变量,认为这些变量与客户流失之间没有显著性关系。

最后的表是对模型在每一步的统计信息,可以看到每一步模型中的自由度、显著性、分类正确率、增加的变量。

3、小结

本节教程中,主要讲解了利用SPSS Modeler18.0进行逻辑回归分析建模,详细阐述了从数据过滤到模型参数设置的步骤,并对模型输出结果进行了详细解释。

SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析相关推荐

  1. SPSS Modeler18.0数据挖掘软件教程(四):分类分析-决策树

    教程传送门: SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介 SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化 SPSS Modeler18.0数 ...

  2. SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化

    教程传送门: SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介 SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析 SPSS Modeler18.0数据挖掘软件 ...

  3. 【UV打印机】RYPC打印软件教程(三)-参数设置

    00. 目录 文章目录 00. 目录 01. RYPC软件启动界面 02. RYPC软件参数设置 03. RYPC打印模式设置 04. 附录 01. RYPC软件启动界面 软件行启动时,系统执行初始化 ...

  4. 【UV打印机】PrintExp打印软件教程(三)-文件和打印

    00. 目录 文章目录 00. 目录 01. 概述 02. PrintExp文件菜单 03. PrintExp打印菜单 04. PrintExp打印任务列表 05. PrintExp历史任务列表 06 ...

  5. 软件质量保证与测试实验(实验三.逻辑覆盖测试用例设计)

    软件质量保证与测试.实验三.逻辑覆盖测试用例设计 0 目录 1 逻辑覆盖测试用例设计 1.1 逻辑覆盖测试用例设计 1.1.1 实验目的 1.1.2 实验预习 1.1.3 实验内容及要求 1.1.4 ...

  6. 【Multisim 14.0】软件安装教程

    目录 Multisim简介 主要功能 优点 下载地址 安装步骤 安装失败解决方法 Multisim简介 Multisim是美国国家仪器(NI)有限公司推出的以Windows为基础的仿真工具,适用于板级 ...

  7. Lumion8.0中文版安装教程(附软件下载)

    Lumion是一款可以实时的3D可视化工具,用来制作电影和静帧作品,涉及到的领域包含建筑.规划和设计: Lumion的强大在于它可以提供优秀的图像,并将快速和高效工作流程结合在一起,为使用者节省时间. ...

  8. 《IBM SPSS Modeler数据与文本挖掘实战》之常用数据挖掘软件

    根据数据挖掘软件的开发目的和用途,一般可以分为专业型和通用型两种.专业型数据挖掘软件一般是针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑到数据的规模.类型以及研究者的需求等特点,并作了优 ...

  9. 免费分享SPSS 17.0 软件

    刚成为论坛一员,分享SPSS 17.0 软件 链接: https://pan.baidu.com/s/1eBQYlbpy2th0vpTfy_l0ag 提取码: z1ua

最新文章

  1. 使用FortJs使用现代JavaScript开发Node.js
  2. 项目开发中,我们总能遇到的那么些坑,不仅是代码上的,还有第三方接口的...
  3. CF359D:Pair of Numbers(数论)
  4. 引用安装好的pywin,出现“ModuleNotFoundError: No module named 'win32api'”提示
  5. yum 安装mariadb
  6. [译]写程序更快、更好、更便宜的艺术
  7. java 默认排序方式_Java Collections.sort()实现List排序的默认方法和自定义方法
  8. 实现深拷贝的常用方法
  9. 所有子模块都要执行的checkstyle检查
  10. log4j-over-slf4j与slf4j-log4j12共存stack overflow异常
  11. 【Json工具类】json数据格式转换
  12. MikuMikuDance V7.39 汉化版
  13. Python开发高频英语单词700+,熟悉后英文障碍又少了
  14. OSChina 周二乱弹 ——女孩在身上纹了个四叶草
  15. utsc的计算机科学,天啊撸:中国留学生淘汰率竟比加拿大学生高出一倍
  16. php单位有哪些,css中的角度单位有哪些?
  17. 西安市2012年教师资格证考试报名时间:3月10-15日
  18. maven项目引入Google二维码框架zxing实现二维码(支持logo图)
  19. UVA 1589 象棋
  20. HTML骨架和基本语法

热门文章

  1. 【拆解】一万多的VR头显就这?附开箱体验及BOM分析
  2. 黑苹果cpu支持列表_单卡gpu直通,黑苹果,amd_cpu教程
  3. 科普_10MB宽带上传下载速度达到多少才算达标
  4. 软件测试初级测试之测试基础
  5. 用python的openpyxl库实现对excel工作表的自动化操作
  6. Linux系统查看物理CPU个数、CPU核数及逻辑CPU个数
  7. 飞狐交易师目录结构、文件信息详解
  8. Faster RCNN代码详解(六):自定义评价函数
  9. java报价系统_基于SSM框架下的JAVA产品报价系统
  10. tcpdump 使用