基于SPSS Modeler实现商业银行信用卡贷款风险识别

目录

基于SPSS Modeler实现商业银行信用卡贷款风险识别

1.数据审核、缺失值、重设变量

2.连续变量离散化

3.字段过滤

4.特征选择

5.建模前的准备——数据分区

6.模型训练

7.数据预测


SPSS Modeler软件对于数据挖掘任务而言是一项重要并且简单的工具,可以在不写代码的情况下轻松调用数个机器学习模型并且实现相应案例的预测。总之,简要掌握SPSS Modeler软件,一方面可以搞定课内的数据挖掘类课程,同时可以帮助实现竞赛中的预测型难题。这里以2020年全国大学生信息素养大赛本科组赛题为例。以下是本人在该案例中做的简要处理数据流图。

1.数据审核、缺失值、重设变量

在开始进行数据分析前,需要做好数据准备工作,包括对字段的审核,是否存在缺失值等情况。在这里所有字段都不存在缺失值,但有一个分类字段(贷款目的)的种类数过多,根据其语义关系将其重新分类,得到相应的新变量。

2.连续变量离散化

原始数据中存在很多连续型变量,包括年龄、活期存款等等。连续型数据都不能直接应用于机器学习模型,一定要经过离散化转化为分类型变量才可以进行建模。所以,加入“分箱”结点将所有的连续型变量转化为分类变量。分箱的原则采用了四分位数分箱,将每个变量转化为4个种类的变量。

3.字段过滤

数据中存在某些对于机器学习无实际意义的字段,如序号,编号等。

4.特征选择

由于字段数量太多,想要训练出较好的机器分类模型,就必须进行降维。在SPSS Modeler中提供了特征选择结点,可以根据每个字段对于目标变量的识别率进行重要性计算。只有当重要性指数在一定范围内(这里设定为皮尔森相关系数在0.95以上),才会被识别为有效字段。在机器学习模型中将使用到这些有效字段。

5.建模前的准备——数据分区

在建模以前,需要将数据进行横向划分——划分出训练数据集以及测试数据集。在训练机器模型,如神经网络模型、支持向量机SVM模型之前,可以在训练出模型参数后,使用测试数据集测验模型的准确度。划分数据集的标准一般采用二八原则,即训练集80%,测试集为20%,当然也可以三七分。

6.模型训练

由于分类模型的种类很多,很难辨识哪个模型的有效性最好。在SPSS Modeler中提供了“自动分类器”结点,可以将数据集一次性喂给所有的分类模型,在所有的机器学习模型训练完毕后,选择表现较好的几个模型进行保留。在最后的结果中,支持向量机模型SVM表现最好,准确率达到了99%左右。但是“自动分类器”模型不便于提取模型用于预测,所以单独使用SVM模型进行训练。

7.数据预测

对预测数据集进行类似的数据预处理操作后,可以将训练好的机器学习模型加入流中进行标签预测。

【数据挖掘】基于SPSS Modeler实现商业银行信用卡贷款风险识别相关推荐

  1. oracle从入门到精通_【论文】基于SPSS Modeler和Oracle的学生行为数据分析

    张翠轩,曹素丽,王淑梅 (石家庄邮电职业技术学院计算机系,河北 石家庄050021) 摘要: 随着校园信息化程度的日益提高.学校积累了大量的学生数据,如何充分利用这些数据,获取其中蕴藏的价值,已经成为 ...

  2. spss打开oracle,零基础到数据挖掘精通(SPSS MODELER、EXCEL、ORACLE)

    网盘地址1:https://  pan.     baidu.         com/s/1ghaV2xl 密码: xz3b网盘地址2:https://          pan.        b ...

  3. 【项目实战】基于python+pycharm+OpenCV的信用卡数字识别

    一.pycharm实现参数配置 直接运行程序会报错: usage: ocr_template_match.py [-h] -i IMAGE -t TEMPLATE ocr_template_match ...

  4. SPSS Modeler数据挖掘学习_部分笔记

    数据挖掘是一个过程,是一个以数据为中心的循序渐进的螺旋式数据探索过程. ![上图指出,数据挖掘时一个以数据为核心多个环节紧密相连,循环反复且循序渐进的数据探索过程](https://img-blog. ...

  5. 【Ryo】SPSS Modeler:贝叶斯网络在预测银行信贷风险中的应用

    对银行信贷来说,如何量化客户违约的可能性,对潜在的风险进行预测是管理决策层关注的重中之重.面对复杂的信息结构和庞大的人群数据,运用贝叶斯网络能够理清相关影响因素的关联关系,是现在提高信贷违约风险预测正 ...

  6. SPSS Modeler——超市商品购买关联分析

    更新于2022-12-13 感谢各位抬爱,已经收到太多的评论和私信要数据的,我把下载链接放在文首,请大家自取.非常抱歉没能给大家一一回复. 数据源(免费下载)https://download.csdn ...

  7. 《数据可视化与数据挖掘——基于Tableau和SPSS Modeler图形界面》之可视化数据挖掘概述

    第一章 可视化数据挖掘概述 可视化数据挖掘技术对于大多数人来说是一个陌生的事物,让读者在较短的时间内快速熟悉它就是本书第1章的任务.本书会从基础知识讲起,由浅至深,逐步介绍可视化数据挖掘的知识. 研究 ...

  8. Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例

    最近我们被客户要求撰写关于关联规则的研究报告,包括一些图形和统计输出. 作为数据挖掘的一个重要研究方向-关联规则用于发现数据项之间隐含的深层次的关联,如Apriori模型可以通过对客户需求进行深入的分 ...

  9. 数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例...

    全文链接:http://tecdat.cn/?p=27606 作为数据挖掘的一个重要研究方向-关联规则用于发现数据项之间隐含的深层次的关联,如Apriori模型可以通过对客户需求进行深入的分析来发现数 ...

  10. 网游玩家流失特征提取办法(基于C5.0算法和SPSS Modeler)

    引言 网游行业的数据挖掘技术一直来说都比较神秘,除了很多业内熟知的数据指标,更多的更深层次的数据解析和挖掘一直都是一个神秘的领域,作用和指导虚拟经济的运作,挖掘玩家行为,指定运营活动方案等等,无时无刻 ...

最新文章

  1. 10.VMware View 4.6安装与部署-view clint和view for ipad连接测试
  2. 三线压力传感器原理_进气压力传感器原理与检修
  3. c++结构体定义和使用_[day day go]结构体amp;给结构定义方法
  4. Qt操作Office的一个实例--口算题生成器制作。
  5. AWD-LSTM为什么这么棒?
  6. Angular SPA基于Ocelot API网关与IdentityServer4的身份认证与授权(二)
  7. JVM 优化经验总结
  8. java - 条件嵌套
  9. 【触觉AI】麻省理工研发带550个传感器的触觉手套,通过触摸识别物体|湾区人工智能...
  10. node.js读写文件
  11. 使用 Kotlin Script 自定义实现项目开发脚手架
  12. 对话镕铭微电子CEO朱照远:未来几年视频处理芯片将成为一个万亿级的市场
  13. this beta version of Typora is expired, please download and install a newer version.Typora
  14. FFmpeg 异常:height not divisible by 2
  15. 【学习笔记】系统的松弛线性性、时不变性、因果性
  16. 过亿海量数据处理分析
  17. 『 云原生·Docker』Docker网络
  18. 霍格沃兹分院测试_在法律上与理查德·霍格的对话是互联网上最喜欢的律师
  19. 基于JFreeChart的股票交易K线图停牌日期缺口优化完整解决方案
  20. 中考计算机考试辽宁,中考考哪些科目(2019辽宁中考科目及分值)

热门文章

  1. STM32——SDIO进行SD卡读写测试
  2. 优雅的开发Swift和Objective C混编的Framework
  3. 华为网络配置(ACL)
  4. win10 下 acdsee7 在普通账户下无法运行并崩溃的 BUG
  5. python平稳性检验程序_用Python检验时间序列的平稳性
  6. pdf转换器免注册码
  7. javaweb小说阅读网站源码
  8. 令人敬畏的泰格伍兹 万维钢_资源商店应用程序部分推出了令人敬畏的一周销售
  9. vs2005 无法启动调试 绑定句柄无效的解决
  10. GitLab迁移升级大作战