滚动率
滚动率分析就是从某个观察点之前的一段时间(称为观察期)的最坏的状态向观察点之后的一段时间(称为表现期)的最坏状态的发展变化情况。
以2018年6月30日出现的账户为准,追踪其6月30日往前推180天的最大逾期天数和6月30日往后推180天的最大逾期天数,以此作为这笔贷款在观察期和表现期的最坏状态变化情况。M0表示从未逾期,M1为逾期1到30天,M2为逾期31到60天,M3为逾期61到90天。

M3状态变差的比例为53.28%,M4状态变差的比例为79.74%,二者有明显的跨越且M4变差的概率已非常高,因此基于上述滚动率分析结果可选择M4+作为坏定义。

Vintage
Vintage可以用来评估客户好坏充分暴露所需的时间。
提取2017年4月之后申请的账户数据,观察其之后每30天的M3+(即逾期60天以上)的逾期概率,连续观察至2018年12月。以下为Vintage图和Vintage数据表,图中统计的逾期用的是历史逾期状态(一笔贷款只要发生过M3+逾期,未来每个月都将该贷款记为M3+逾期贷款),逾期率的计算使用的是笔数。


1.从图中可以看出,不同月份放款的M4+在经过9个周期(9个月)后趋于稳定,也就是说成熟期是在9个周期。
2.从图中还可以看出,资产质量不断提升,2017年4月至6月的逾期率相对较高,从2017年7月开始逾期率发生较大程度的下降,有可能因为前几个月不断优化风控策略所致。
WOE(weight of envidence) 证据权重
WOE衡量某一个分组相对于平均的表现情况:正WOE代表好于平均、负WOE表示坏于平均
计算公式: w o e i = l n ( b a d i / b a d 总 g o o d i / g o o d 总 ) = l n ( b a d i b a d 总 ) − l n ( g o o d i g o o d 总 ) woe_{i}=ln(\frac {bad_{i}/bad_{总}}{good_{i}/good_{总}})=ln(\frac {bad_{i}}{bad_{总}})-ln(\frac {good_{i}}{good_{总}}) woei​=ln(goodi​/good总​badi​/bad总​​)=ln(bad总​badi​​)−ln(good总​goodi​​)
含义:每个分箱里的坏人分布相对于好人分布之间的差异性。
w o e i = l n ( b a d i / g o o d i b a d 总 / g o o d 总 ) = l n ( b a d i g o o d i ) − l n ( b a d 总 g o o d 总 ) woe_{i}=ln(\frac {bad_{i}/good_{i}}{bad_{总}/good_{总}})=ln(\frac {bad_{i}}{good_{i}})-ln(\frac {bad_{总}}{good_{总}}) woei​=ln(bad总​/good总​badi​/goodi​​)=ln(goodi​badi​​)−ln(good总​bad总​​)
含义:每个分箱里坏好比相对于整体坏好比之间的差异性。WOE越大,差异越大,当前分组里的样本坏人的可能性就越大。

1.当前分组中,响应的比例越大,WOE值越大。
2.当前分组的比例小于样本整体比例时,WOE为负,当前分组的比例大于整体比例时,WOE为正,当前分组的比例和整体比例相等时,WOE为0。
3.WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。

IV(information value)信息价值
计算公式: i v i = ( b a d i b a d 总 − g o o d i g o o d 总 ) ∗ w o e i iv_{i}=(\frac {bad_{i}}{bad_{总}}-\frac {good_{i}}{good_{总}})*woe_{i} ivi​=(bad总​badi​​−good总​goodi​​)∗woei​
I V = ∑ i m i v i IV=\sum_{i}^miv_{i} IV=∑im​ivi​
考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对变量整体预测能力的贡献越低。IV值越大,预测能力越强。

分箱方式
等距分箱:按照距离等分。不合理。若特征的变量有集中性,会导致大量样本聚集在一个箱子里,没有区分能力。
等频分箱:按照频率等分,每个箱子内有相同数量的样本。
卡方分箱:根据卡方值合并箱子,比较有道理。

Lift表
Lift是“运用该模型”和“未运用该模型”所得结果的比值。
将打分后的样本按分数从低到高排序,取10或20等分(有同分数对应多条观测的情况,所以各组观测数未必完全相等),并对组内观测数与坏样本数进行统计。用评分卡模型捕捉到的坏客户的占比,可由该组坏样本数除以总的坏样本数计算得出;而不使用此评分卡,以随机选择的方法覆盖到的坏客户占比,等价于该组观测数占总观测数的比例(分子分母同时乘以样本整体的坏账率)。对两者取累计值,取其比值,则得到提升度Lift,即该评分卡抓取坏客户的能力是随机选择的多少倍。


PSI (population stability index) 稳定度指标
由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。PSI可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化。AC与EX为不同时间段的模型输出分数,如果PSI过大,说明模型输出的分数分布变化很大了,需要更新模型。

1.模型分数的稳定性:可以计算不同月份直接的PSI
2.入模特征的稳定性:根据特征进行分箱计算特征的PSI
GINI系数
业界在实际计算Gini系数时往往用ROC曲线曲线和中线围成的面积与中线之上面积的比例,也就是Gini=2AUC-1。


ROC空间是一个以伪阳性率(FPR, false positive rate)为X轴,真阳性率(TPR, true positive rate)为Y轴的二维坐标系所代表平面。

TPR: 真阳性率,所有阳性样本中(TP+FN),被分类器正确判断为阳的比例。
TPR = TP / (TP + FN) = TP / 所有真实值为阳性的样本个数
FPR: 伪阳性率,所有阴性样本中(FP+TN),被分类器错误判断为阳的比例。
FPR = FP / (FP + TN) = FP / 所有真实值为阴性的样本个数
洛伦兹曲线的纵轴是违约数占违约总量百分比的累计值,也就是TPR,而洛伦兹的横轴(被拒绝申请的百分比)是(FP+TP)/(TN+FP+FN+TP),当坏样本很少时,FN和TP的值很小,因而洛伦兹曲线和ROC曲线横纵轴取值基本一致,曲线基本重合。当洛伦兹曲线和ROC曲线基本一致或者完全一致时,此时 AUC = 面积A+0.5,gini=A/(A+B)=2AUC-1。但当坏样本较多时,二者不重合,且差距较大。

最后的结论是:当样本中坏样本极少时可用gini=2AUC-1近似计算,当坏样本较多,或者好坏样本接近1:1时,那就得对gini单独计算比较准确。

滚动率、Vintage、WOE、IV、LIFT、PSI、GINI相关推荐

  1. 用sql统计vintage,滚动率,迁移率,逾期率

    获取代码请移步:用sql统计vintage,滚动率,迁移率,逾期率

  2. 一文彻底理解评分卡开发中——Y的确定(Vintage分析、滚动率分析等)

    评分卡已经在各大银行和公司都实际运用于业务,也有很多前辈对它进行了详细的阐述.本文将从支付和信贷评分卡建立的角度,对比分析不同行业在建立评分卡时因变量Y确定的差异.让想了解评分卡的小伙伴,有一个更深刻 ...

  3. 信贷风控中Vintage、滚动率、迁移率

    风控业务背景 信贷风险管理是一门艺术,更是一门科学.资产质量分析中常会涉及到三个理论: 账龄分析(Vintage Analysis):用以分析账户成熟期.变化规律等. 滚动率分析(Roll Rate ...

  4. 【参考】vintage、迁移率、滚动率、入催率等概念——看完你就懂了

    随着互联网金融的发展,对数据分析的需求越来越大.数据分析的目的其实是为了找到风险和收益的平衡点.高收益伴随着高风险,而低风险的回报又如同鸡肋.所以,太高的风险,太低的收益都不行.平衡点通俗来讲就是风险 ...

  5. vintage、迁移率、滚动率、入催率等概念——看完你就懂了

    随着互联网金融的发展,对数据分析的需求越来越大.数据分析的目的其实是为了找到风险和收益的平衡点.高收益伴随着高风险,而低风险的回报又如同鸡肋.所以,太高的风险,太低的收益都不行.平衡点通俗来讲就是风险 ...

  6. 金融风控:vintage、滚动率、迁徙率

    一:Vintage Vintage:本意是和酒相关,在金融里用来形容时间段 Vintage在金融里比较常用的是MnM_nMn​,以逾期时间来关注最后的坏账,以时间的对比来关注首逾率 实际业务中,vin ...

  7. mysql怎么分组计算逾期率_用sql统计vintage,滚动率,迁移率,逾期率

    风险统计分析,离不开vintage,滚动率,迁移率,逾期率等指标的统计,贴一段递延率的Mysql代码,仅做参考. #create view overdue_list2 #as #逾期(递延)表 SEL ...

  8. Vintage、滚动率、迁移率的应用

    Vintage.滚动率.迁移率的应用 互联网金融中,风控尤其重要.风控模型的实施需要定义Y,跟踪分析客户的风险情况,本文收藏了一份关于vintage.滚动率.迁移率的应用. 本文转:https://m ...

  9. 信贷风控中Vintage、滚动率、迁移率的理解

    风控业务背景 信贷风险管理是一门艺术,更是一门科学.资产质量分析中常会涉及到三个理论: 账龄分析(Vintage Analysis):用以分析账户成熟期.变化规律等. 滚动率分析(Roll Rate ...

最新文章

  1. JSP页面中验证码的调用方法
  2. activemq - 浅析消息确认模式
  3. Java设计模式(一):策略设计模式
  4. JavaScript实现regular-expression-matching正则表达式匹配算法(附完整源码)
  5. 嵌入式linux 实现mdev SD卡和U盘自动挂载和卸载的方法 mdev.conf
  6. IntelliJ IDEA中日志分类显示设置
  7. 【C语言】第三章 基本运算与顺序结构 题解
  8. 计算机实验室工作案例,2011年计算机学院实验室工作计划.
  9. ajax post 数组
  10. ECharts实操手册
  11. VBA写一个下拉复选框,以及循环判断,附代码
  12. 中继器制作联动下拉列表
  13. pacman 查询_Pacman常用命令 文内搜索吧
  14. 计算机二级考试vb内容,计算机二级VB考试内容大纲
  15. L2签证都有哪些福利待遇?
  16. CISP-PTE证书含金量大吗?一文看懂CISP-PTE值不值得考
  17. 视图库——公安视频侦查数据处理应用中心
  18. Ajax 异步同步请求
  19. 简易五子棋单机版(tkinter)
  20. 漫说测试 | 研发虐我千百遍,我待bug如初恋

热门文章

  1. fuse的安装与使用
  2. 网站报错检查502 bad gateway是怎么回事?怎么解决?
  3. 什么是数据中心基础设施管理(DCIM)
  4. c++--标准模板库(STL)
  5. IIC(I2C)通信协议详解
  6. 【chirpstack+MQTT】downlink下行数据通讯
  7. PostWoman(网页调试工具)
  8. debug模式启用浏览器
  9. 美利坚合众国概况(美国概况)
  10. 代理沙特SASO贸促会认证