基础准备

上一篇文章介绍了决策树分析的基本理论,以及它与聚类分析、判别分析、逻辑回归分析等分类和判别方法的区别与联系,大家可以点击下方文章链接回顾:

  • 数据分析技术:决策树分析;机器学习入门模型

决策树模型

通过上篇文章可以知道,决策树分析通过对历史数据的归类分析,找出能够使目标变量各个水平具有最大差异的分配路径,这些路径连接在一起就成为树状图,也称为决策树模型。如下图所示:

节点0表示原始数据按照目标分类变量分类的比例情况。根据自变量与目标变量的相关性(卡方检验结果),安排自变量进入模型,将原始数据按照自变量水平进行分支,如上图所示,分成1,2,3这三个节点,由于节点1数据在目标变量水平上已经达到显著,停止生长。节点2和3可以继续生长,直到有显著性差异为止。

通过以上过程,决策树就生长好了(决策树模型建立)。然后重新将数据代入到这个决策树模型中进行判别归类,检验该模型的判别效果如何,也就是判别准确率有多高。如果效果不错,那就可以用来对今后的数据进行判断,如果效果不好,那么可以考虑增添新的自变量,或使用其它的决策树生长方法(CHAID/E-CHAID/CART/QUEST),期望能够获得效果不错的决策树模型。以上就是决策树模型的建立逻辑。

范例分析

现在有一份银行记录客户贷款交易信息的数据文件,总共包含了2464名客户的信息。这份文件里记录了客户的信用记录、年龄、收入水平、信用卡数量、教育水平和贷款次数等信息。银行希望能够通过这些历史数据,分析能够及时还贷和拖欠贷款的客户特征,然后建立预测模型用于预测后续贷款申请者拖欠贷款的可能性,从而决定是否给其贷款。

(例题数据文件已经上传到QQ群中,需要的朋友可以前往下载)


分析思路

首先观察数据,发现数据有目标分类变量,也就是信用记录变量,该变量记录了客户之前在银行的信用好坏情况。其次,用于描述用户特征的变量收入水平、信用卡数量、教育水平、贷款次数为分类型变量,只有年龄是连续型变量,因此可以考虑使用决策树分析建立预测模型。最后,关于决策树四种算法CHAID/E-CHAID/CART/QUEST的选择问题,大家可以将通过测试,选择预测结果最好的算法即可。

分析步骤

1、选择菜单【分析】-【分类】-【决策树】。在跳出的对话框中,将目标变量,也就是需要预测的变量信用记录选为因变量;将用于预测的变量年龄、收入水平、信用卡数量、教育水平和贷款次数选为自变量。我们首先使用决策树的CHAID算法建立决策树模型。

2、点击因变量下方的【类别】按钮。在信用记录变量中,有两个水平:信用记录好与坏,银行更关心,希望能预测出来的应该是信用记录差的人,因此将差这个水平选为分析中使用的类别。同时有一部分客户的信息中没有信用记录信息,这部分客户数据被排除。

3、点击右上角的【输出】按钮。在对话框中,可以选择决策树的生长方向和结点内容。

4、点击右上角的【验证】按钮,这里可以设置训练集和验证集。草堂君在这里将75%的数据用作模型训练,25%的数据用来检验模型效果。这个比例可以自由调整。

5、点击【条件】按钮。为了避免结点个案数少导致结果不准确,可以在这里对结点的个案数进行规定,父节点个案数不能少于400,子节点个案数不能少于200。

6、点击【保存】按钮,可以将终端节点数,预测值,预测概率和样本分配情况保存为新的变量,显示在数据视图中。

7、点击【确定】,输出结果。

结果解释

1、模型摘要表格。从结果可知,最终的模型只纳入收入水平、信用卡数量和年龄三个自变量,而贷款次数和教育水平由于与因变量信用记录相关性低,被排除出模型。

2、决策树。结果输出两个决策树,分别是训练集决策树和检验集决策树。由于决策树所占空间比较大,这里只展现缩略图,具体图形,大家可以从qq群中下载数据自己制作。最终的端点包括节点1、8、9、6、5、7。

3、节点增益表。以训练集的节点1为例说明;节点1中,总个案数为417人,占它上一级,也就是父节点个案数1830的22.8%(417/1830);节点增益中的343表示,417人中有343人的信用记录为坏,占它上一级,父节点信用记录坏的人数778的44.1%(343/778)。对比这两个比例可以发现,经过收入水平这个自变量的分类后,在节点1处,信用记录坏的人群比例由22.8%增长到44.1%,比例有显著性提高。响应的82.3%表示在节点1处,信用记录坏的人群比例为82.3%(343/417)。指数代表节点1出的信用记录坏的人数比例82.3%除以它的上一节父节点的信用记录坏的人数比例42.5%,82.3%/42.5%=1.935。

4、模型效果输出两个表格。风险表格显示训练集的风险估算值为0.195,表示有19.5%的个案会被错误归类;而检验集中有20.8%的个案被错误分类。下方的分类表格输出具体的模型分类结果,例如,在训练集中,763个信用记录差的人中,有534个被真确判断为查,有229个被错误判断为好,正确率为70%。可见这个决策树模型的效果有待改进。

所有例题的数据文件都会上传到QQ群中,需要对照练习的朋友可以前往下载,QQ群号见下方温馨提示。生活统计学不仅有各种数据分析方法,更有容易被大家忽视的生活常识。

温馨提示:

  • 数据分析课程私人定制,一对一辅导,添加微信(possitive2)咨询!

  • 生活统计学QQ群:134373751,用于分享文章提到的各种案例资料、软件、数据文件等。支持各种资料的直接下载和百度云盘下载。

  • 生活统计学微信交流群,用于各自行业的数据研究项目及其成果交流分享;由于人数大于100人,请添加微信possitive2,拉您入群。

  • 数据分析咨询,请点击首页下方“互动咨询”板块,获取咨询流程!

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?相关推荐

  1. 蛋白质多重分析技术研究分析报告-

    辰宇信息咨询市场调研公司最近发布-<2022-2028中国蛋白质多重分析技术市场现状研究分析与发展前景预测报告> 内容摘要 本文研究中国市场蛋白质多重分析技术现状及未来发展趋势,侧重分析在 ...

  2. 监控--智能视频分析技术与被动红外技术的整合应用

    智能视频分析技术与被动红外技术的整合应用 2009年06月01日 16:24 一 智能视频分析技术 视频分析技术从上世纪八十年代末始在中国发韧以来,发展极为迅速,从第一代的模拟视频监控系统(VCR)已 ...

  3. 智能视频分析技术与被动红外技术的整合应用

    智能视频分析技术与被动红外技术的整合应用 2009年06月01日 16:24 一 智能视频分析技术 视频分析技术从上世纪八十年代末始在中国发韧以来,发展极为迅速,从第一代的模拟视频监控系统(VCR)已 ...

  4. 智能视频分析技术及应用扫盲

    题记:如果四年前你没听说过智能视频分析系统,那很正常,如果你现在还不知道什么是智能视频系统(IVS)系统,那作为一个安防人,说明你已经落伍了.因为它是未来监控的发展方向,行业称之为第五代电视监控技术, ...

  5. 分析技术在PMP中的应用

    Analytical Techniques, 根据可能的项目或者环境变量变化以及它们与其他变量之间的关系,对潜在后果进行评估,分析和预测的各种技术. 4.4.2.2 监控项目工作: 分析技术 包括: ...

  6. ArcGIS对矢量数据进行缓冲区分析和叠加分析具体操作

    1.缓冲区分析技术 缓冲区是地理空间,目标的一种影响范围或服务范围在尺度上的表现.它是一种因变量,由所研究的要素的形态而发生改变.从数学的角度来看,缓冲区是给定空间对象或集合后获得的它们的领域,而邻域 ...

  7. SPSS分析技术(导航页)

    版本号:20171027 直接点击蓝色文章名称即可阅读! 持续更新,获取最新版本请前往[分析软件]-[SPSS]! 平台学习指南 1 如何通过"SPSS生活统计学"微信公众号学习数 ...

  8. SPSS分析技术:多元方差分析

    SPSS分析技术:多元方差分析 下面要介绍多元方差分析的内容,多元方差分析是研究多个自变量与多个因变量相互关系的一种统计理论方法,又称多变量分析.多元方差分析实质上是单因变量方差分析(包括单因素和多因 ...

  9. SPSS分析技术:时间序列分析的ARIMA模型;考虑各种促销因素的服装销售额预测

    基础准备 学习积累的过程,是量变到质变的过程.草堂君在前面介绍了时间序列分析的多篇文章,这些文章的安排都是按照循序渐进学习时间序列分析的过程来安排的,大家可以点击下方的链接回顾: 数据分析技术:时间序 ...

最新文章

  1. 树莓派 raspberry安全关机命令重启命令
  2. 贪心 - 划分字母区间
  3. Java线程池newSingleThreadExecutor newFixedThreadPool newCachedThreadPool newScheduledThreadPool
  4. 牛客网SQL篇刷题篇(24-31)
  5. python动态执行语句_Python Language
  6. MySQL step by step 安装实战
  7. python opencv 鼠标提取矩形(Rectangle)ROI
  8. 【Excel】数据透视表—简单数据分析实例
  9. 五分钟学会安装电脑操作系统
  10. 计算机网络基础实验(Cisco Packet Tracer 实验)
  11. 联想笔记本插入耳机仍外放--解决方式
  12. 获取 点集合 的 rect
  13. 微信小程序wxml如何判断字符串中汉语某字符_微信小程序开发经典案例解析“嗨兔儿”...
  14. 禁止触摸屏触控板手指缩放,需要这样处理
  15. 群体智能中的联邦学习算法综述
  16. 即时通讯WebSocket详解及使用
  17. 网络空间安全---计算机网络安全概述
  18. MYSQL/ORACLE/SQL SERVER的默认端口号
  19. ArcGIS中使用协同克里金插值(co-kriging interplotation )对气象数据插值
  20. Accenture埃森哲面试

热门文章

  1. 经典排序算法之插入排序
  2. 类变量和实例变量的区别
  3. 基于jquery的bootstrap在线文本编辑器插件Summernote
  4. 【项目分享】赶集团购Web App开发总结
  5. java 小数截断_我怎样才能截断在Java中的双精度到只有两位小数?
  6. “高性能锥形变阻尼气弹簧及配套装置”验收
  7. 20-4-4-如何限制用户往共享盘上传的文件格式呢?比如电影等不能上传
  8. python入门5.格式化符号和意义%s %d %f
  9. Ubuntu18.04安装系统后界面花屏,启动纯命令终端操作
  10. 数组排序的选择排序法(算法)