背景

如果你是做互联网金融的,那么一定听说过评分卡。评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。

评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估、贷款发放等业务。另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质量打分、芝麻信用分打分等等。在本文中,我们将通过一个案例为大家讲解如何通过PAI平台的金融板块组件,搭建出一套评分卡建模方案。

本实验案例可在机器学习PAI平台使用,包含整个实验流程和数据:

数据集介绍


这是一份国外某机构开源的数据集,数据的内容包括每个用户的一些性别、教育、婚姻、年龄等属性,同时也包含用户过去一段时间的信用卡消费情况和账单情况。payment_next_month是目标队列,表示用户是否偿还信用卡账单,1表示偿还,0表示没有偿还。

数据供30000条。
数据集下载地址:https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset

实验流程

先来看下实验图:

现在对一些关键节点进行介绍:

(1)拆分

将输入数据集分为两部分,一部分用来训练模型,另一部分用来预测评估。

(2)分箱

分箱组件类似于onehot编码,可以将数据按照分布映射成更高维度的特征。我们以age这个字段为例,分箱组件可以按照数据在不同区间的分布进行分享操作,分箱结果如图:


最终分箱组件的输出如图,每个字段都被分箱到多个区间上:

(3)样本稳定指数PSI

样本稳定指数是衡量样本变化所产生的偏移量的一种重要指标,通常用来衡量样本的稳定程度,比如样本在两个月份之间的变化是否稳定。通常变量的PSI值在0.1以下表示变化不太显著,在0.1到0.25之间表示有比较显著的变化,大于0.25表示变量变化比较剧烈,需要特殊关注。

本案例中,可以综合比较拆分前后以及分箱结果的样本稳定程度,返回每个特征的PSI数值:

(4)评分卡训练

评分卡训练的结果图如下:

评分卡的精髓是将复杂的比较难理解的一些模型权重用符合业务标准的分数表示。

  • intercepy表示的是截距
  • Unscaled是原始的权重值
  • Scaled是分数更改指标,比如对于pay_0这个特征,如果特征落在(-1,0]之间分数就减29,如果特征落在(0,1]之间分数就加上27.
  • importance表示每个特征对于结果的影响大小,数值越大表示影响越大

(5)评分卡预测

展示每个预测结果的最终评分,在本案例中表示的是每个用户的信用评分。

结论

基于用户的信用卡消费记录,最终通过评分卡模型的训练,我们在评分卡预测中可以拿到每个用户的最终信用评分,这个评分可以应用到其它的各种贷款或者金融相关的征信领域中去。

体验产品:阿里云数加机器学习平台

作者微信公众号(与作者讨论):

【机器学习PAI实践十二】机器学习算法基于信用卡消费记录做信用评分相关推荐

  1. 【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

    原文链接 机器学习算法基于信用卡消费记录做信用评分 背景 如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建 ...

  2. 【机器学习PAI实践十二】机器学习实现男女声音识别分类(含语音特征提取数据和代码)

    背景 随着人工智能的算法发展,对于非结构化数据的处理能力越来越受到重视,这里面的关键一环就是语音数据的处理.目前,许多关于语音识别的应用案例已经影响着我们的生活,例如一些智能音箱中利用语音发送指令,一 ...

  3. 【机器学习PAI实践五】机器学习眼中的《人民的名义》

    一.背景 最近热播的反腐神剧"人民的名义"掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用.笔者在平日追剧之余, ...

  4. 【机器学习PAI实践十】深度学习Caffe框架实现图像分类的模型训练

    背景 我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Te ...

  5. 吴恩达《机器学习》学习笔记十二——机器学习系统

    吴恩达<机器学习>学习笔记十二--机器学习系统 一.设计机器学习系统的思想 1.快速实现+绘制学习曲线--寻找重点优化的方向 2.误差分析 3.数值估计 二.偏斜类问题(类别不均衡) 三. ...

  6. [Python从零到壹] 十二.机器学习之回归分析万字总结全网首发(线性回归、多项式回归、逻辑回归)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  7. 用机器学习做信用评分

    本文为 AI 研习社编译的技术博客,原标题 : Credit Scoring with Machine Learning 作者 | Hongri Jia 翻译 | 胡瑛皓 校对 | 酱番梨      ...

  8. RocketMQ(十二)消息堆积与消费延迟

    RocketMQ(十二)消息堆积与消费延迟 产生背景 消息处理流程中,如果Consumer的消费速度跟不上Producer的发送速度,MQ中未处理的消息会越来越多,这部分消息就被称为 堆积消息.消息出 ...

  9. C语言编程>第十二周 ③ 已知学生的记录由学号和学习成绩构成,M名学生的数据已存入a结构体数组中。请编写函数fun,该函数的功能是:找出成绩最高的学生记录,通过形参返回主函数。

    已知学生的记录由学号和学习成绩构成,M名学生的数据已存入a结构体数组中.请编写函数fun,该函数的功能是:找出成绩最高的学生记录,通过形参返回主函数(规定只有一个最高分).已给出函数的首部,请完成该函 ...

最新文章

  1. Xcode_9_beta.xip 更新下载
  2. python修改linux网卡信息,linux下修改网卡接口名称
  3. Office Word 2007下管理参考文献(比2003版的交叉引用神马的轻松多拉)(转)
  4. 编写Dockerfiles的最佳做法
  5. java list 去重复元素_java List去掉重复元素的几种方式
  6. android调用python框架_在Java中从Android应用程序执行Python脚本?
  7. Maven核心概念及Eclipse使用Maven
  8. 再看网路层分组的转发
  9. 安卓开发课程设计报告
  10. RN 开发遇到的问题之传参函数错误Invariant Violation: Maximum update depth exceeded.
  11. Spark项目实践--基于 TMDB 数据集的电影数据分析
  12. 常见分类算法优缺点比较
  13. 大数据可视化实验六、七:大数据可视化工具—Processing(一)(二)
  14. 【OpenCV 例程200篇】220.对图像进行马赛克处理
  15. 生活随记-剪纸与父子
  16. 51单片机学习笔记(清翔版)(25)——LCD1602和指针
  17. NGUI动态字体的制作
  18. 解决mac下svn working copy locked的问题
  19. linux嵌入式硬盘录像机代理商,16路嵌入式网络硬盘录像机(SNA-8116-S)
  20. mp4视频文件损坏无法播放怎么修复?

热门文章

  1. PAT甲级1138 Postorder Traversal:[C++题解]前序遍历和中序遍历建树
  2. 汤家凤高等数学基础手写笔记-一元微分学的应用
  3. Leetcode113路径总和2
  4. 安卓makefile与linux,分析linux make命令与Makefile的区别
  5. Android中的Fragment
  6. 构造函数和析构函数中抛出异常
  7. C++中数学运算、比较、赋值操作符的重载
  8. 包python_Python 包:
  9. 计算机组装各个配件的选用,组装电脑各个配件装机心得与经验
  10. 判断字符串_python实现--判断回文字符串、回文链表、回文数