【采用】信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)
巴塞尔协议定义了金融风险类型:市场风险、作业风险、信用风险。信用风险ABC模型有进件申请评分、行为评分、催收评分。
————————————————————————————————————
一、数据准备
1、排除一些特定的建模客户
用于建模的客户或者申请者必须是日常审批过程中接触到的,需要排除以下两类人:
异常行为:销户、按条例拒绝、特殊账户;
特殊账户:出国、卡丢失/失窃、死亡、未成年、员工账户、VIP;
其他:欺诈(根据反欺诈评分)、主动销户者(流失评分)
2、解释指标的选取
(1)申请评分所需指标
信用风险中,申请评分所采纳的指标有很多,譬如可以参考FICO信用分中的一些,参考:笔记︱金融风险控制基础常识——巴塞尔协议+信用评分卡Fico信用分
其中2.1FICO信用分的计算方法给出了一些评判标准
(2)行为评分所需指标
图片来自CDA-DSC课程中。
3、目标变量的确立
对于预测建模,定义目标变量是最重要、对建模结果影响最大的一步。银行业信用评分解决方案默认的目标时间定义选择二分类变量为:不良/逾期、良好。
不良/逾期:观察窗口内,观察窗口内,60/90/120天算逾期日期;
良好:从未或截止逾期;从未或在观察期内截止逾期
其中关于不良/逾期需要界定以下两项内容:确定违约日期时长、观察窗口期设置。
————————————————————————————————————
二、确定违约日期时长、观察窗口期设置
其中有两个时期,观察窗口期、预测窗口期。预测窗口期时间由账龄分析获取,观察窗口期大约就是预测窗口的3-5倍。巴塞尔协议中规定预测窗口期一般为12个月,所以一般实务中以12个月为窗口期。在已知预测窗口期之下,通过转移矩阵了解违约期具体时长。
(PS:虽然做了总结,但是还没明白老师上课所讲的,为什么这么做?怎么出结果?)
评论区网友Love_sf留言:
窗口期为一年12个月,观察窗口为预测窗口的3-5倍,即观察窗口为9个月,预测窗口3个月,或者观察窗口为10个月,预测窗口2个月,定义M2+或者M3+作为违约用户,这样才能用来建模预测坏用户出现概率。
1、违约日期的确定——转移矩阵
不同账期客户转移到更坏概率不同,选取显著变化的节点。
图中可以看出,第一个月不还拖欠到下一个月的概率为M0=7.96%,第二个月不还拖欠到下个月的有M1=57.26%,M2=64.48%,M3=79%,M4=83.77%。
从这里可以看出,第五个月是一个拐点,说明第五月之后就很难催到账务。所以,催帐日期可以选择3月。同时,超过5月包括5月的都属于违约行为。
2、违约窗口期设置——账龄分析
一般情况下巴塞尔协议硬性要求12个月及以上作为窗口期。一般情况下,观察窗口=3-5倍的预测窗口。
决定信用评等模型开发所需数据期间长度,一般会从最新资料的留存时点开始推算,利用账龄分析观察目标客户的违约成熟期长度,借此设定观察期长度(预测窗口的时间长度)。比如200901开卡的人,第10个月,稳定成熟了,绩效时间可以确定为10-12个月;200902开卡的人,第11个月,稳定成熟了,11-12个月。
————————————————————————————————————
三、数据重编码——WOE转换
由于制作评分卡的某些需要,通常会在建立评分模型时将自变量(连续+离散都可以)做离散化处理(等宽切割,等高切割,或者利用决策树来切割),但是模型本身没办法很好地直接接受分类自变量的输入。所以信用评分卡中常用的WOE转换。
WOE转换=分箱法=Logit值,与等深、等宽不同是根据被解释变量来重新定义一个WOE值(R语言︱噪声数据处理、数据分组——分箱法(离散化、等级化))。
WOE的公式就是:WOE=ln(好客户占比/坏客户占比)*100%=优势比
好客户占比=数量(x︱y=好)/总人数
WOE转化的优势:提升模型的预测效果,提高模型的可理解性。
1、WOE与违约概率具有某种线性关系
从而通过这种WOE编码可以发现自变量与目标变量之间的非线性关系(例如U型或者倒U型关系)。提升预测效果
2、WOE变量出现负值情况。
在此基础上,我们可以预料到模型拟合出来的自变量系数应该都是正数,如果结果中出现了负数,应当考虑是否是来自自变量多重共线性的影响。
3、标准化的功能。
WOE编码之后,自变量其实具备了某种标准化的性质,也就是说,自变量内部的各个取值之间都可以直接进行比较(WOE之间的比较),而不同自变量之间的各种取值也可以通过WOE进行直接的比较。
4、WOE能反映自变量的贡献情况。
自变量内部WOE值的变异(波动)情况,结合模型拟合出的系数,构造出各个自变量的贡献率及相对重要性。一般地,系数越大,woe的方差越大,则自变量的贡献率越大(类似于某种方差贡献率),这也能够很直观地理解。
5、异常值处理。
很多极值变量通过WOE可以变为非异常值.
譬如解决分类之后,一些案例个数过少的情况。案例个数过少的情况一般情况下可以合并,也可以用WOE转化来实现。
转化之后可能值变成这个样子,跳跃很大,可以作为用盖帽法等方法解决。
——————————————————————————————————————————
延伸案例一:机器学习算法基于信用卡消费记录做信用评分
文章来源云栖社区,作者傲海
数据集介绍
这是一份国外某机构开源的数据集,数据的内容包括每个用户的一些性别、教育、婚姻、年龄等属性,同时也包含用户过去一段时间的信用卡消费情况和账单情况。payment_next_month是目标队列,表示用户是否偿还信用卡账单,1表示偿还,0表示没有偿还。
数据供30000条。
数据集下载地址:https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset
实验流程
先来看下实验图:
现在对一些关键节点进行介绍:
(1)拆分
将输入数据集分为两部分,一部分用来训练模型,另一部分用来预测评估。
(2)分箱
分箱组件类似于onehot编码,可以将数据按照分布映射成更高维度的特征。我们以age这个字段为例,分箱组件可以按照数据在不同区间的分布进行分享操作,分箱结果如图:
最终分箱组件的输出如图,每个字段都被分箱到多个区间上:
(3)样本稳定指数PSI
样本稳定指数是衡量样本变化所产生的偏移量的一种重要指标,通常用来衡量样本的稳定程度,比如样本在两个月份之间的变化是否稳定。通常变量的PSI值在0.1以下表示变化不太显著,在0.1到0.25之间表示有比较显著的变化,大于0.25表示变量变化比较剧烈,需要特殊关注。
本案例中,可以综合比较拆分前后以及分箱结果的样本稳定程度,返回每个特征的PSI数值:
(4)评分卡训练
评分卡训练的结果图如下:
评分卡的精髓是将复杂的比较难理解的一些模型权重用符合业务标准的分数表示。
- intercepy表示的是截距
- Unscaled是原始的权重值
- Scaled是分数更改指标,比如对于pay_0这个特征,如果特征落在(-1,0]之间分数就减29,如果特征落在(0,1]之间分数就加上27.
- importance表示每个特征对于结果的影响大小,数值越大表示影响越大
(5)评分卡预测
展示每个预测结果的最终评分,在本案例中表示的是每个用户的信用评分。
结论总结
基于用户的信用卡消费记录,最终通过评分卡模型的训练,我们在评分卡预测中可以拿到每个用户的最终信用评分,这个评分可以应用到其它的各种贷款或者金融相关的征信领域中去。评分卡相对于其他的模型的预测的优势是将计算结果权重直接沉淀成直观的分数,通过这样的评分看模型,可以快速的了解每个用户的信用分,每个客服人员的服务评分,每个手机的测评分数等等。
【采用】信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)相关推荐
- 信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)
笔记︱信用风险模型(申请评分.行为评分)与数据准备(违约期限.WOE转化) 原创 2016年06月20日 20:09:51 标签: 申请评分 / 行为评分 / 违约期限 / WOE 14299 巴塞尔 ...
- 笔记︱信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)
巴塞尔协议定义了金融风险类型:市场风险.作业风险.信用风险.信用风险ABC模型有进件申请评分.行为评分.催收评分. ------------------------------------ 一.数据准 ...
- 金融风控-申请评分卡模型-申请评分卡介绍
从这篇博文开始,我将总结金融风控中的另外一个模型:申请评分卡模型.这篇博文将主要来介绍申请评分卡的一些基本概念. 本篇博文将以以下四个主题来进行介绍说明: 信用风险和评分卡模型的基本概念 申请评分卡在 ...
- 机器学习之金融信贷风控(二)申请评分卡中的数据预处理和特征衍生(未完待续)
申请评分卡中的数据预处理和特征衍生 模型处理的一般流程: 构建信用风险模型的特征 获取数据 链接:https://pan.baidu.com/s/1CsY11ArZ6YK3o1icghWj2w 提取码 ...
- 信用卡评分模型(数据获取+数据预处理+探索分析+变量选择+模型开发+模型评估+信用评分+建立评分系统)
最近两次遇到关于信用卡评分的题目,遂了解一波. Reference: 基于python的信用卡评分模型(超详细!!!) https://www.jianshu.com/p/f931a4df202c h ...
- 【模型开发】风控评分模型开发流程
[博客地址]:https://blog.csdn.net/sunyaowu315 [博客大纲地址]:https://blog.csdn.net/sunyaowu315/article/details/ ...
- 采用策略分布曲线评估信用风险模型的效果
在信贷业务的风控体系中,模型的构建与应用始终是一项重点内容,最常见的莫过于贷前环节的申请信用风险模型.作为典型的二分类模型,为了有效识别好坏用户群体,我们经常选取某些评价指标来量化模型的综合性能,例如 ...
- 评分卡模型建模详细步骤-评分卡建模实例之scorecardpy
目录 0.引言 1.scorecardpy介绍 2.评分卡建模过程 2.1数据加载 2.1变量筛选 2.2数据划分 2.3变量分箱 2.3.1 自动分箱 2.3.2 手动调整分箱 2.4变量转化woe ...
- 评分模型前奏:启发式评分模型开发
模型是对策略的补充,可以具体量化每一位客户的风险值.信贷评分卡是风控领域应用最广泛的模型,不论是零售信贷.小微信贷还是对公等的众多业务领域,都试着想用评分模型来量化客群的风险. 但想要开发相关的评分模 ...
最新文章
- php-函数小知识点
- 全球及中国煤炭工业市场产量规模与十四五发展战略报告2022版
- QPixmap QImage 相互转化
- 汉仪尚巍手书可以商用吗_【商用车维修】夏天修空调可以撑起全年修车收入的一半,你会了吗?...
- wxPython python3.x下载地址
- 淮阴工学院计算机答辩,淮阴工学院关于做好2014级研究生学位论文答辩工作的通知...
- hdu2022——海选女主角
- Docker快速搭建JIRA缺陷管理平台
- 大数据学习笔记06:伪分布式Hadoop
- 安装hdfs集群的具体步骤
- Eigen编译_Eigen向量化_内存对齐 EIGEN_MAKE_ALIGNED_OPERATOR_NEW
- 区块链 智能合约中获取不了时间戳 随机数怎么办
- 最后7天!阿里云2020云内存数据库峰会现场参会报名中
- 【知识图谱系列】六篇2020年知识图谱预训练论文综述 | 30页汇报ppt免费获取 | GCC,GraphCL,DGI,InfoGraph等模型
- 检索 COM 类工厂中 CLSID 为 {000209FF-0000-0000-C000-000000000046} 的组件时失败,原因是出现以下错误: 8000401a
- 【超详细】Redhat Linux 7/CentOS 7/Oracle Linux 7安装MySQL5.7
- 创建动态的XML数据
- 038 Divisible Subsequences
- 如何使用github?
- 怎么用xmind做读书笔记
热门文章
- 用RAM存储器构造能够依次读取各存储单元内容的电路
- python嵌套字典赋值_Python:更新深度嵌套字典中的值
- ubuntu android2.3 emulator,Android Studio 2.3 Ubuntu 16.10 emulator do not start
- 微型计算机重点,微型计算机理期末重点.doc
- mysql percona server_MySQL Study之--Percona Server版本
- java 连接池实例_功能完善的Java连接池调用实例
- 字典树实现_反怼面试官系列之 字典树
- 激光点云格式转换 bin 相互 pcd转换
- wide_and_deep 思维导图和代码
- Ubuntu 里的Spyder不能切换中文输入