一、评分卡模型

 PS:核心点在于我们需要一个判别指标来对数据进行打标签分类

1、项目简介:

信用评分技术是一种应用统计模型,其作用是对贷款申请人做风险评估分值的方法。在互金公司等各种贷款业务机构中,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判。评分卡主要分为三类A卡(申请评分卡)、B卡(行为评分卡)、C卡(贷后评分卡)。我们主要讨论的是A卡即申请评分卡,用于贷前审批阶段对借款申请人的量化评估;

2、评分卡原理:

申请评分卡是一种统计模型,它可基于对当前申请人的各项资料进行评估并给出一个分数,该评分能定量对申请人的偿债能力作出预判。

客户申请评分卡由一系列特征项组成,每个特征项相当于申请表上的一个问题(例如,年龄、银行流水、收入等)。每一个特征项都有一系列可能的属性,相当于每一个问题的一系列可能答案(例如,对于年龄这个问题,答案可能就有30岁以下、30到45等)。在开发评分卡系统模型中,先确定属性与申请人未来信用表现之间的相互关系,然后给属性分配适当的分数权重,分配的分数权重要反映这种相互关系。分数权重越大,说明该属性表示的信用表现越好。一个申请的得分是其属性分值的简单求和。如果申请人的信用评分大于等于金融放款机构所设定的界限分数,此申请处于可接受的风险水平并将被批准;低于界限分数的申请人将被拒绝或给予标示以便进一步审查。

3、开发流程:

导入数据集 →  数据预处理 → 数据探索 → 特征工程  → 建立模型  → 建立评分卡

4、流程demo:

4.1、数据集导入

4.2、数据预处理

1) 查看数据信息

了解数据信息状态,包括数据量、数据维度、数据特征类型等等

2) 缺失值处理

对于缺失值较少的‘家属数量’我们可以直接删除缺失值。及对数据集进行去重处理。

3) 异常值检测及处理

利用箱型图对特征进行可视化来检测异常数据。

通过以上特征可视化我们可以对明显偏离的样本,比如年龄为0,或是逾期次数过高进行盖帽或者是删除操作

4.3、数据可视化分析

1) 单变量可视化

可以看出:

(1) 客户主体集中在月收入10000以下的人群,月收入在15000之前的坏客率和月收入呈负相关收入越高坏客率越低,后进入一段平稳

(2) 当收入超过20000后,坏客率又在上升。

结论:这表明收入在15000以下的人群收入比较稳定,随着收入越高坏账率也就越高。而收入大于20000的人群可能从事炒股,创业等风险较大的工作,所以坏账率增大。

可以看出

(1) 客户的家属数量的主要集中在0-2之间,家属数量和坏客率呈线性相关,也就是说随着家属数量提升,坏客率也在显著提升。

(2) 可能是由于家属数量大,家庭的支出也就增大,所以更容易出现坏账的情况。

2) 多变量可视化

通过变量直接的相关性系数,建立相关性矩阵,观察变量之间的关系,可以进行初步的多重共线性筛选。

热力图的颜色表示变量之间的相关性程度,可以看出变量之间没有相关性过高的情况,所以暂时不需要考虑多重共线性的问题。

5、特征工程

1) 特征分箱

在建立风控评分卡中,一般会对特征进行分箱,以提高模型的稳定性和健壮性,消除了异常波动对评分结果的影响。

2) woe 转换

接下来给分箱后的数据计算woe值,woe算是一种编码形式,但是和普通的编码它实际代表了响应客户和未响应客户之间的差异情况。
公式如下:

可以看出

1) 当前分组中,响应的比例越大,WOE值越大

2) 当前分组WOE的正负,由当前分组响应和未响应的比例,与样本整体响应和未响应的比例的大小关系决定

3) 当前分组的比例小于样本整体比例时,WOE为负,当前分组的比例大于整体比例时,WOE为正,当前分组的比例和整体比例相等时,WOE为0。

注意:一般认为woe关于分箱是单调的,我们会认为分箱比较好,可解释性强。

WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小

当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响

当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现

3)  IV值计算

IV的全称是Information Value,中文意思是信息价值,或者信息量。它的作用其实和gini和信息熵类似,都是用来衡量变量的预测能力,可以通过IV值来达到特征筛选的目的。

通过特征IV的可视化,可以很直观的观察特征之间的差异,我们选择IV较高的特征代入模型。r如下是IV值范围说明的情况:

4)  为啥用IV不用WOE进行特征选择

第一个原因:当衡量一个变量的预测能力时,所使用的指标值不应该是负数,否则,说一个变量的预测能力的指标是-2.3,听起来很别扭。从这个角度讲,乘以pyn这个系数,保证了变量每个分组的结果都是非负数。可以验证的是,当一个分组的WOE是正数时,pyn也是正数,当一个分组的WOE是负数时,pyn也是负数,而当一个分组的WOE=0时,pyn也是0。

第二个原因:乘以pyn后,体现出了变量当前分组中个体的数量占整体个体数量的比例,对变量预测能力的影响。

6、建立模型

建立logistics模型,logistics回归是广义线性回归,它的在建立后和线性回归一样会赋值给特征不同的权重,很符合建立评分卡的概念。

模型测试效果的准确率并不能反映模型的真实效果,我们需要利用下面ROC曲线来评估模型。

模型在ROC曲线上大致表现不错,AUC也达到了0.84。

7、建立评分卡

1) 根据资料查得评分卡创建公式。

2) 将数据集代入到自定义函数,计算评分标准。

3) 计算每个变量得分,每个特征对应的分数如下:

将用户数据代入到评分标准后求和,就可以得到该用户的总分。得分越高代表其越有可能成为坏的客户。

增长模型—评分卡模型相关推荐

  1. PMML模型-评分卡模型Undefined result解析

    背景 Java解析评分卡PMML模型抛出异常信息 org.jpmml.evaluator.UndefinedResultException:Undefined resultat org.jpmml.e ...

  2. 风控必备的评分卡模型,TempoAI 10分钟搞定

    8月20日,央行发布了<2020年第二季度支付体系运行总体情况>,数据显示,截至第二季度末,信用卡逾期半年未偿信贷总额838.84亿元,占信用卡应偿信贷余额的1.17%.与一季度相比,信用 ...

  3. 金融风控--申请评分卡模型--特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融风

    金融风控-->申请评分卡模型-->特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融 ...

  4. 基于logistics回归的评分卡模型【相关理论】

    评分卡模型 KS和roc曲线 KS值 ROC 曲线 AUC 评分卡 分箱 WOE IV 分箱 WOE与IV值 逻辑回归模型转化为评分卡: KS和roc曲线 TN:将负类预测为负类(真负类) FN:将正 ...

  5. 金融风控-- >申请评分卡模型-- >特征工程(特征分箱,WOE编码)

    这篇博文主要讲在申请评分卡模型中常用的一些特征工程方法,申请评分卡模型最多的还是logsitic模型. 先看数据,我们现在有三张表: 已加工成型的信息: Master表 idx:每一笔贷款的uniqu ...

  6. logit回归模型的参数估计过程_评分卡模型原理及应用

    关注新蜂数字金融,ID:gh_c5ca7eb11df4 这是新蜂数字金融的第145篇原创首发文章 信用评分卡模型,作为金融业一项重要的风险控制手段,在行业中有着广泛的应用.只有对模型进行科学认知,理解 ...

  7. 尚未整理【风控】互联网金融-构建评分卡模型部分知识点

    模型部署方式:将模型转为PMML文件或者框架.服务器方式做接口调用. 特点是:笔数多,单笔金额小,数据维度丰富 信用评分做准入,行为评分做调额,贷中管理,或者提前催收 催收评分卡,可以预测M1转到M2 ...

  8. 数据的预处理与特征构建(申请评分卡模型)

    数据的预处理工作可以有效处理缺失值与异常值,从而增强模型的稳定性: 而特征构建工作则可以将信息从字段中加以提炼,形成有业务含义的优异特征 评分卡使用策略: 1.进件量较大,规则无法满足更细的切分需要: ...

  9. 评分卡模型剖析之一(woe、IV、ROC、信息熵)

    信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广 ...

  10. 信用评分卡模型开发及评估指标

    版权声明:本文为博主原创文章,未经博主允许不得转载. 一.信用风险评级模型的类型 信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用&qu ...

最新文章

  1. spi nor flash使用汇总
  2. Arrays.asList问题
  3. java 连接 pgsql
  4. 【Android 逆向】Android 进程注入工具开发 ( 注入代码分析 | 获取注入的 libbridge.so 动态库中的 load 函数地址 并 通过 远程调用 执行该函数 )
  5. Github系列之二:开源 一行代码实现多形式多动画的推送小红点WZLBadge(iOS)
  6. redhat6 使用raid5的系统安装
  7. 贴吧粉丝怎么全部移除_亚马逊FBA怎么发货?怎么把货发到FBA仓库?
  8. maven项目添加新dependency jar后本地可正常运行,但打包后加载不上
  9. Apple Pay接入详细教程
  10. FFmpeg[11] - ffmpeg去除水印(图片和文字)
  11. html显示等宽字体
  12. 终于等到离职这一天了--献给准备、犹豫离职中的朋友们!
  13. 宝塔面板关键目录解析
  14. 【深度学习】Yolo记录
  15. 计算机和游戏建立不了连接,如何建立局域网我们寝室的电脑想连接起来玩游戏我们每个人都有网号我 爱问知识人...
  16. 大城市灯红酒绿,海伦司靠一杯酒如何建起护城河?
  17. 图文笔记,带你走进《未来简史》(26-30)
  18. 数据计量单位的换算关系
  19. Cocos2d-x 面试题解 整理01
  20. 第110期:成为架构师的路上,必看的经典好书

热门文章

  1. 用matlab求傅里叶变换
  2. 什么是HikariCP?HikariCP介绍(包含配置示例)
  3. Android 开发框架xUtils3
  4. PLC与RobotStudio联合仿真调试——项目一
  5. 单片机音频谱曲软件_单片机音乐代码转换工具(Music Encode)
  6. 功率单位mw和dbm的换算总结
  7. Server2016系统关闭windows自动更新
  8. 多比特杯第四届ACM程序设计竞赛同步赛
  9. Vscode 新建HTML文件
  10. 【开源项目分享】使用select、多线程完成的多人联机对战五子棋小游戏(C语言实现)