滚动率、Vintage、WOE、IV、LIFT、PSI、GINI
滚动率
滚动率分析就是从某个观察点之前的一段时间(称为观察期)的最坏的状态向观察点之后的一段时间(称为表现期)的最坏状态的发展变化情况。
以2018年6月30日出现的账户为准,追踪其6月30日往前推180天的最大逾期天数和6月30日往后推180天的最大逾期天数,以此作为这笔贷款在观察期和表现期的最坏状态变化情况。M0表示从未逾期,M1为逾期1到30天,M2为逾期31到60天,M3为逾期61到90天。
M3状态变差的比例为53.28%,M4状态变差的比例为79.74%,二者有明显的跨越且M4变差的概率已非常高,因此基于上述滚动率分析结果可选择M4+作为坏定义。
Vintage
Vintage可以用来评估客户好坏充分暴露所需的时间。
提取2017年4月之后申请的账户数据,观察其之后每30天的M3+(即逾期60天以上)的逾期概率,连续观察至2018年12月。以下为Vintage图和Vintage数据表,图中统计的逾期用的是历史逾期状态(一笔贷款只要发生过M3+逾期,未来每个月都将该贷款记为M3+逾期贷款),逾期率的计算使用的是笔数。
1.从图中可以看出,不同月份放款的M4+在经过9个周期(9个月)后趋于稳定,也就是说成熟期是在9个周期。
2.从图中还可以看出,资产质量不断提升,2017年4月至6月的逾期率相对较高,从2017年7月开始逾期率发生较大程度的下降,有可能因为前几个月不断优化风控策略所致。
WOE(weight of envidence) 证据权重
WOE衡量某一个分组相对于平均的表现情况:正WOE代表好于平均、负WOE表示坏于平均
计算公式: w o e i = l n ( b a d i / b a d 总 g o o d i / g o o d 总 ) = l n ( b a d i b a d 总 ) − l n ( g o o d i g o o d 总 ) woe_{i}=ln(\frac {bad_{i}/bad_{总}}{good_{i}/good_{总}})=ln(\frac {bad_{i}}{bad_{总}})-ln(\frac {good_{i}}{good_{总}}) woei=ln(goodi/good总badi/bad总)=ln(bad总badi)−ln(good总goodi)
含义:每个分箱里的坏人分布相对于好人分布之间的差异性。
w o e i = l n ( b a d i / g o o d i b a d 总 / g o o d 总 ) = l n ( b a d i g o o d i ) − l n ( b a d 总 g o o d 总 ) woe_{i}=ln(\frac {bad_{i}/good_{i}}{bad_{总}/good_{总}})=ln(\frac {bad_{i}}{good_{i}})-ln(\frac {bad_{总}}{good_{总}}) woei=ln(bad总/good总badi/goodi)=ln(goodibadi)−ln(good总bad总)
含义:每个分箱里坏好比相对于整体坏好比之间的差异性。WOE越大,差异越大,当前分组里的样本坏人的可能性就越大。
1.当前分组中,响应的比例越大,WOE值越大。
2.当前分组的比例小于样本整体比例时,WOE为负,当前分组的比例大于整体比例时,WOE为正,当前分组的比例和整体比例相等时,WOE为0。
3.WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。
IV(information value)信息价值
计算公式: i v i = ( b a d i b a d 总 − g o o d i g o o d 总 ) ∗ w o e i iv_{i}=(\frac {bad_{i}}{bad_{总}}-\frac {good_{i}}{good_{总}})*woe_{i} ivi=(bad总badi−good总goodi)∗woei
I V = ∑ i m i v i IV=\sum_{i}^miv_{i} IV=∑imivi
考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对变量整体预测能力的贡献越低。IV值越大,预测能力越强。
分箱方式
等距分箱:按照距离等分。不合理。若特征的变量有集中性,会导致大量样本聚集在一个箱子里,没有区分能力。
等频分箱:按照频率等分,每个箱子内有相同数量的样本。
卡方分箱:根据卡方值合并箱子,比较有道理。
Lift表
Lift是“运用该模型”和“未运用该模型”所得结果的比值。
将打分后的样本按分数从低到高排序,取10或20等分(有同分数对应多条观测的情况,所以各组观测数未必完全相等),并对组内观测数与坏样本数进行统计。用评分卡模型捕捉到的坏客户的占比,可由该组坏样本数除以总的坏样本数计算得出;而不使用此评分卡,以随机选择的方法覆盖到的坏客户占比,等价于该组观测数占总观测数的比例(分子分母同时乘以样本整体的坏账率)。对两者取累计值,取其比值,则得到提升度Lift,即该评分卡抓取坏客户的能力是随机选择的多少倍。
PSI (population stability index) 稳定度指标
由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。PSI可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化。AC与EX为不同时间段的模型输出分数,如果PSI过大,说明模型输出的分数分布变化很大了,需要更新模型。
1.模型分数的稳定性:可以计算不同月份直接的PSI
2.入模特征的稳定性:根据特征进行分箱计算特征的PSI
GINI系数
业界在实际计算Gini系数时往往用ROC曲线曲线和中线围成的面积与中线之上面积的比例,也就是Gini=2AUC-1。
ROC空间是一个以伪阳性率(FPR, false positive rate)为X轴,真阳性率(TPR, true positive rate)为Y轴的二维坐标系所代表平面。
TPR: 真阳性率,所有阳性样本中(TP+FN),被分类器正确判断为阳的比例。
TPR = TP / (TP + FN) = TP / 所有真实值为阳性的样本个数
FPR: 伪阳性率,所有阴性样本中(FP+TN),被分类器错误判断为阳的比例。
FPR = FP / (FP + TN) = FP / 所有真实值为阴性的样本个数
洛伦兹曲线的纵轴是违约数占违约总量百分比的累计值,也就是TPR,而洛伦兹的横轴(被拒绝申请的百分比)是(FP+TP)/(TN+FP+FN+TP),当坏样本很少时,FN和TP的值很小,因而洛伦兹曲线和ROC曲线横纵轴取值基本一致,曲线基本重合。当洛伦兹曲线和ROC曲线基本一致或者完全一致时,此时 AUC = 面积A+0.5,gini=A/(A+B)=2AUC-1。但当坏样本较多时,二者不重合,且差距较大。
最后的结论是:当样本中坏样本极少时可用gini=2AUC-1近似计算,当坏样本较多,或者好坏样本接近1:1时,那就得对gini单独计算比较准确。
滚动率、Vintage、WOE、IV、LIFT、PSI、GINI相关推荐
- 用sql统计vintage,滚动率,迁移率,逾期率
获取代码请移步:用sql统计vintage,滚动率,迁移率,逾期率
- 一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)
评分卡已经在各大银行和公司都实际运用于业务,也有很多前辈对它进行了详细的阐述.本文将从支付和信贷评分卡建立的角度,对比分析不同行业在建立评分卡时因变量Y确定的差异.让想了解评分卡的小伙伴,有一个更深刻 ...
- 信贷风控中Vintage、滚动率、迁移率
风控业务背景 信贷风险管理是一门艺术,更是一门科学.资产质量分析中常会涉及到三个理论: 账龄分析(Vintage Analysis):用以分析账户成熟期.变化规律等. 滚动率分析(Roll Rate ...
- 【参考】vintage、迁移率、滚动率、入催率等概念——看完你就懂了
随着互联网金融的发展,对数据分析的需求越来越大.数据分析的目的其实是为了找到风险和收益的平衡点.高收益伴随着高风险,而低风险的回报又如同鸡肋.所以,太高的风险,太低的收益都不行.平衡点通俗来讲就是风险 ...
- vintage、迁移率、滚动率、入催率等概念——看完你就懂了
随着互联网金融的发展,对数据分析的需求越来越大.数据分析的目的其实是为了找到风险和收益的平衡点.高收益伴随着高风险,而低风险的回报又如同鸡肋.所以,太高的风险,太低的收益都不行.平衡点通俗来讲就是风险 ...
- 金融风控:vintage、滚动率、迁徙率
一:Vintage Vintage:本意是和酒相关,在金融里用来形容时间段 Vintage在金融里比较常用的是MnM_nMn,以逾期时间来关注最后的坏账,以时间的对比来关注首逾率 实际业务中,vin ...
- mysql怎么分组计算逾期率_用sql统计vintage,滚动率,迁移率,逾期率
风险统计分析,离不开vintage,滚动率,迁移率,逾期率等指标的统计,贴一段递延率的Mysql代码,仅做参考. #create view overdue_list2 #as #逾期(递延)表 SEL ...
- Vintage、滚动率、迁移率的应用
Vintage.滚动率.迁移率的应用 互联网金融中,风控尤其重要.风控模型的实施需要定义Y,跟踪分析客户的风险情况,本文收藏了一份关于vintage.滚动率.迁移率的应用. 本文转:https://m ...
- 信贷风控中Vintage、滚动率、迁移率的理解
风控业务背景 信贷风险管理是一门艺术,更是一门科学.资产质量分析中常会涉及到三个理论: 账龄分析(Vintage Analysis):用以分析账户成熟期.变化规律等. 滚动率分析(Roll Rate ...
最新文章
- JSP页面中验证码的调用方法
- activemq - 浅析消息确认模式
- Java设计模式(一):策略设计模式
- JavaScript实现regular-expression-matching正则表达式匹配算法(附完整源码)
- 嵌入式linux 实现mdev SD卡和U盘自动挂载和卸载的方法 mdev.conf
- IntelliJ IDEA中日志分类显示设置
- 【C语言】第三章 基本运算与顺序结构 题解
- 计算机实验室工作案例,2011年计算机学院实验室工作计划.
- ajax post 数组
- ECharts实操手册
- VBA写一个下拉复选框,以及循环判断,附代码
- 中继器制作联动下拉列表
- pacman 查询_Pacman常用命令 文内搜索吧
- 计算机二级考试vb内容,计算机二级VB考试内容大纲
- L2签证都有哪些福利待遇?
- CISP-PTE证书含金量大吗?一文看懂CISP-PTE值不值得考
- 视图库——公安视频侦查数据处理应用中心
- Ajax 异步同步请求
- 简易五子棋单机版(tkinter)
- 漫说测试 | 研发虐我千百遍,我待bug如初恋