一个优秀的模型上线报告以及一个优秀的上线后模型监控报表,在我们日常风控建模中是非常的常用并且有用的,今天这个话题就来和大家聊聊怎么去制作优秀的模型上线报告以及上线后的模型监控报表,主要聊聊思路,先要有一个全局的感受,具体实现放在下一期吧。以下内容均基于自己浅薄的经历提炼的,如有纰漏,欢迎指正或补充哦,欢迎交流~

00 Index

01 聊聊为什么要做这件事
02 标配的风控模型上线报告应具备哪些内容
0201 模型现状
0202 KS值与各种曲线
0203 模型分组排序性
0204 跨时间模型分组稳定性
03 稳妥的模型监控报表应具备哪些内容
0301 模型一致性监控
0302 模型效果监控
0303 客群稳定性监控
0304 核心特征稳定性监控
0305 核心业务指标监控
04 总结一下

01 聊聊为什么要做这件事

其实是两件事,一份是模型报告,一份是模型监控报表。
前者,为什么要做其实大家也应该有自己的想法,主要就是为了说服老板你这次开发的模型有用,要比线上正在运行的模型或者策略规则有用,不然为什么要费这么大劲去开发和上线呢?那么,我们需要从哪几个角度去描述我们的新模型效果,才能更好地让老板明白并接受?这是考验我们的地方。
后者,就是为了持续监控我们的模型效果,从刚上线到稳定运行再到后续的迭代更新,都是依靠我们的监控结果的,明确几个监控的维度,写好脚本每天或者每周跑一下,可视化给到我们自己去看看,做到心中有数。
以下讲解的报告,针对的对象偏向于模型本身的指标,而其实实际业务中,我们需要监控的内容有太多太多了,比如各个审批节点的通过率、逾期分布情况、Vintage分析、Roll Rate分析、Flow Rate分析等等,这篇文章就不展开来讲咯。

02 标配的风控模型上线报告应具备哪些内容

0201 模型现状
想要突出你模型的好,你得先分析旧模型的不好。
比如说,把目前线上模型的实际表现进行统计,如KS值、分组排序性、PSI等基础指标。一般,我们需要和当时模型上线时候的指标水平进行对比,然后按照年、月或者周去统计指标,主要可以突出其趋势水平,也就是说模型慢慢地失效,从而引出做模型迭代的背景,另外,也可以作为新模型的基准。

0202 KS值与各种曲线
我们需要描述模型的效果,在风控领域最直接的指标就是KS值,我们一般会认为KS>0.3才具备最基本的上线要求,而且我们要保证训练集、测试集以及跨时间测试集都需要达到标准哦!
另外,我们也可以绘制各种模型效果曲线,常用的会有KS曲线、ROC曲线、Lift曲线等。这里再来回顾一下这些曲线:
1)KS曲线:有两条关键曲线,分别是TPR和FPR,这是我们对于模型预测结果(正类的概率)划分不同阈值后得到的值所绘制出来的曲线。TPR为True Position Rate,真阳率,也叫召回率,计算公式为:

402 Payment Required

FPR为False Position Rate,假阳率,计算公式为:

当然了,KS曲线的横纵坐标,还可以是分桶桶号以及好坏样本累计占比率,如下图:

2)ROC曲线:ROC曲线又叫Receiver Operating Characteristic曲线,横坐标是FPR,纵坐标时TPR,我们希望TPR越大越好,最好等于1,FPR越小越好,最好等于0,而这条曲线下面的面积(under the curse),我们叫做AUC。

3)Lift曲线
Lift曲线,简单理解,就是对比在不使用模型的情况下,预测能力提升了多少,其计算公式如下:

402 Payment Required

0203 模型分组排序性
分组排序性在风控模型中的重要性不言而喻了,所以这个指标也是领导需要着重看的。我们对于目标的预测结果,都会在值域0-1之间,而预测值越大则代表越有可能是目标值1。一般情况下,我们会对预测结果按照一定的阈值,进行分组,比如分为A/B/C/D/E/F共6组,越靠后就意味着越有可能是高风险客户,我们给予一定的风控规则进行拦截。所以,我们的模型,需要对于分组后的BadRate,满足从A->F组,逐步升高的趋势,才符合我们的期望!

0204 跨时间模型分组稳定性
当然,即便我们的训练、测试以及跨时间测试集均满足上述的要求,但还有一个点我们是需要关注的,那就是稳定性,特别是跨时间上的稳定性,我们需要保证我们新上线的模型,在不同的月份上使用模型后得到的分组占比,相对稳定。

03 稳妥的模型监控报表应具备哪些内容

当我们的模型上线之后,我们需要持续地对模型进行监控,以免未来的变化导致我们的模型失效,无论是客群的变化、数据源的变化或者是政策的变化等,都会对我们的模型造成影响,我们没法预知或改变,但我们需要感知

0301 模型一致性监控
这个监控在模型上线前期需要重点关注,因为我们模型各种指标的计算和效果评估,所用到的输入特征都是线下计算得到的,虽然我们在上线前会去校验线上线下的特征一致性,但是也难免有些场景没有考虑到以及测试到的,还有就是模型运行环境的变化,也有可能带来模型分数的差异,如果刚好落在不同分桶的边界上,就会比较尴尬了,当然我们也允许一定的误差,但这个误差有多大?我们需要有感知。

我们可以按照天的时间维度去统计指标,最后前端报表展示的时候,可以适当地按照周或者月去进行深一层聚合。

0302 模型效果监控
当我们的数据积累到1个月以上之后,我们就可以来计算一下线上模型的效果了,比如KS值、AUC等,同时也需要持续关注模型的排序性情况。

0303 客群稳定性监控
随着时间的推移,我们的客群可能会因为这种原因而导致分布发生了改变,比如我们拒绝通过的客户、风控策略放松收紧、宣传方式改变、政策改变等等,会让当下的进件客群的好坏分布情况,与当时建模时候的客群分布有较大的差异,从而导致模型的失效。我们需要感知到这种变化,因为这种变化一般来说不是立竿见影的,而是一种趋势,慢慢地就变成了当前这个样子。而需要实现对这个客群变化的监控,我们可以间接地使用分组稳定性来监控,如果上线后的分组占比情况与上线时一致,直观表现就是曲线的拟合程度高(基本重合),量化的话我们可以使用PSI指标来计算

0304 核心特征稳定性监控
这里其实可以理解是上一个监控的延续。当我们发现模型的分组占比分布出现了比较大的变化,第一个我们需要去定位一下的是模型特征是不是正常的。可能因为各种原因吧,比如数据源出问题了,导致缺失值增多,也有可能是某个值域范围内的客户增多,可让我们进一步分析变化的原因。

0305 核心业务指标监控
核心指标,主要就是模型部署节点的审批通过率情况,我们需要持续观测这个指标,从不同的时间维度、分组客户的情况去观测。另外,传统的Vintage分析、Roll Rate分析以及Flow Rate分析也需要安排上。

04 总结一下

上线前的模型报告我这边介绍的只是一个标准搭配版本,其实还可以有很多其他维度的,后续有机会继续分享一下。而模型上线后,我们前期主要监控模型整体及变量的稳定性,衡量标准主要是排序性和PSI,并每日观察模型规则的拒绝率与线下的差异。后期积累一定线上用户后可评估线上模型的AUC与KS,不过需要注意的是,比如像线上KS值这种指标,可能会因为线上模型通过率越低,KS值越低,所以具体的值监控起来没有太大的意义,我们更多的是需要关注趋势

Reference

[1] 风控模型监控报告系统设计
https://zhuanlan.zhihu.com/p/83025492
[2] 模型评估方法之KS曲线和ROC曲线
https://zhuanlan.zhihu.com/p/87456089

风控ML[15] | 风控模型报告以及上线后需要监控的内容相关推荐

  1. 风控ML[1] | 风控建模老司机的几点思考与总结

    「风控ML」系列文章,主要是分享一下自己多年以来做金融风控的一些事一些情,当然也包括风控建模.机器学习.大数据风控等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步! 机器学习建模现在在很多地 ...

  2. 风控ML[8] | 风控建模常见的数据源有哪些?

    我们在工作中,前前后后接触到了很多的数据源,有些数据源对我们建模有很好的效果,今天抽空回忆回忆过往自己用过的或者是有听说过的一些数据源(部分可能现在由于法律规定没法继续用了),供大家对风控建模常用的数 ...

  3. 风控ML[16] | 风控建模中怎么做拒绝推断

    00 Index 01 什么是拒绝推断? 02 为什么要做拒绝推断? 03 什么时候做拒绝推断? 04 做拒绝推断都有哪些方法? 05 验证拒绝推断效果的方式 06 总结一下

  4. 关于DEDECMS自定义模型当中添加自定义字段后在后台添加内容后不显示解决方案...

    问题:我们自定义模型,添加自定义字段,比如单行文本(varchar)字段时,在后台添加内容,无法显示,但数据库里字段是有数据的. 解决办法:看看你的字段命名是否有大写,如果有全部改成小写就好了. 转载 ...

  5. ML之ME/LF:机器学习之风控业务中常用模型评估指标PSI(人群偏移度指标)的的简介、使用方法、案例应用之详细攻略

    ML之ME/LF:机器学习之风控业务中常用模型评估指标PSI(人群偏移度指标)的的简介.使用方法.案例应用之详细攻略 目录 PSI(稳定度指标)的简介 1.如何计算PSI? (1).PSI计算过程

  6. ML之ME/LF:机器学习之风控业务中常用模型监控指标CSI(特征稳定性指标)的简介、使用方法、案例应用之详细攻略

    ML之ME/LF:机器学习之风控业务中常用模型监控指标CSI(特征稳定性指标)的简介.使用方法.案例应用之详细攻略 目录 CSI(特征稳定性指标)的简介 1.如何计算CSI? 2.CSI值的意义 3. ...

  7. 风控ML[13] | 特征稳定性指标PSI的原理与代码分享

    PSI这个指标我们在风控建模前后都是需要密切关注的,这个指标直接反映了模型的稳定性,对于我们评估模型是否需要迭代有着直接的参考意义.今天我将从下面几方面来介绍一下这个指标. Index 01 PSI的 ...

  8. 金融风控--申请评分卡模型--特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融风

    金融风控-->申请评分卡模型-->特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融 ...

  9. 玩转大数据风控—利用评分卡模型实现信用评级

    玩转大数据风控-利用评分卡模型实现信用评级 一.算法介绍 1. 什么是逻辑回归? 2. 逻辑回归为何逻辑 ? 3. 逻辑回归怎么回归? 二.构建流程 1.数据处理 1.1 数据清理 1.2 缺失值处理 ...

  10. 【风控决策】风控决策引擎

    [博客地址]:https://blog.csdn.net/sunyaowu315 [博客大纲地址]:https://blog.csdn.net/sunyaowu315/article/details/ ...

最新文章

  1. JGG :微生物所王军-综述固有免疫细胞在胃肠道疾病中研究进展
  2. 用批处理查询电脑信息
  3. LeetCode5-最长回文子串原理及Python实现
  4. GDCM:gdcm::Directory的测试程序
  5. java时间api_什么是java时间API?
  6. Java命令学习系列(二)——Jstack
  7. Java ClassLoader findClass()方法与示例
  8. 基于JAVA+SpringMVC+Mybatis+MYSQL的网上玩具销售系统
  9. php file取不到手机相册,webuploader移动端选择文件无法打开手机相册的解决办法...
  10. 苹果Mac轻量级网页代码编辑器:​​​​​​​​​​​​Espresso
  11. 正定矩阵与半正定矩阵定义性质与理解
  12. 【NOIP2016提高A组五校联考1】排队
  13. 设计师常用的素材网站有哪个推荐
  14. OVP 过压保护电路
  15. 怎么用计算机搜索文件,如何查找文件 巧用Win7快速查找文件
  16. Nginx rewrite路由重写
  17. 技术周刊 · 耿耿星河欲曙天 | SpaceX 上的前端架构;跨平台新选择;开源世界的新“大门”;用户推荐算法的敲门砖;关于“鸿蒙”,你应该知道这些
  18. OpenFire源码学习之二十九:openfire集群配置
  19. 华为云 两个手机 同步_HDC.Cloud | 技术探秘:华为云鲲鹏云手机何以公有云业界独家...
  20. [编程入门]自定义函数求一元二次方程

热门文章

  1. 曹德旺的商业哲学:如果你对谁都不相信,必将一事无成
  2. Launcher3 翻页动画详解与修改
  3. css td 比例,CSS设置表格TD宽度布局
  4. 通信工程是计算机类还是电子信息类公考,通信工程属于电子信息类吗
  5. 预约制成为汽车年检新常态
  6. 初步了解Linux以及RHCE认证
  7. 简单的抢地盘js小游戏实战篇(多人在线对战)
  8. 业绩差距拉大 11家消费金融公司座次洗牌
  9. linux内核ddr初始化,嵌入式Linux裸机开发(五)——SDRAM初始化
  10. github官网进不去解决方案