研习社话题N:
问题:信用模型的因变量如何修复?或者说如何更好的确定Y变量?
解释:已经定义了Y,但是模型效果一般,或者说在逐渐变差,所以在想办法重新定义。
原因:模型上线后,效果一般,效果一般的表现是什么?问题出在哪里?除了Y的定义,还有哪些可能存在的原因?
探究:模型效果的评估指标及调优方法?业务中的Y的定义方法。

下面,我们开始今天的分析:

先看几个概念:

  1、score_cutoff及pass_rate%
  2、cutoff以上各分段区间的sample_amount,pre_bad_rate%和real_bad_rate%以及model_error

举个例子:

  可以看到,假如我们我们的cutoff阈值设置为500分,模型各分段预测违约概率随分值的增加而降低,实际业务中模型表现情况也基本符合这个规律。但是,模型的实际效果,要比预测效果差不少,model_error基本在5%以上,说明:我们模型的整体预估能力出了问题,而不单单是某个分段。基于此,我们可以从如下几个角度出发,分析造成违约升高的因素,从而找出对应的调优方法。

角度1:
外部因素变化
  1)经济环境变差 2)政策导向变化 3)放贷环境受影响 4)银行或机构本身产品结构调整 5)进件渠道发生变化
  6)其他因素
分析方法:
  1)经验,外部环境、管理部门、运营部门、贷后部门、催收部门,反馈
  2)量化,表现为用户整体评分并无下降,各区间分布也较为合理,Pass_rate%正常,但贷后表现异常。

角度2:
样本特征X分布发生变化
  具体表现为,样本个别或多个特征整体分布发生变化,原因可能为进件用户结构随外部环境等因素影响而发生变化。结果为进件评分整体评分升高或降低,或者区间评分升高或降低。若整体评分降低,通常风控经理会降低cutoff,为满足通过率的要求,这就导致本来部分低分用户,也得到了审批。若整体评分升高,通常风控经理会降低cutoff,导致部分好用户会被等同降级处理。
  最终的结果都表现为,逾期率的提升。
分析方法:
  1)PSI观察Y值是否稳定
  2)PSI观察各样本特征X的分布变换是否稳定,另外检测其正态性和相关性是否发生漂移。

角度3:
label特征Y定义出现问题
  通常,银行业务中,定义坏样本选M3,也就是逾期超过90天;机构分期业务,通常选取FPD30或者PDM(最大逾期天数);单期小额现金贷业务,通常选择PD10~PD30;极个别业务,会选择PD3甚至PD1。我们训练模型前,具体label特征Y定义方法的选择,需要结合业务经验和账龄分析、贷后催回表现等因素的综合评定。

(数据为非真实数据)

  我们可以看到,Y的选择不同,正负样本占比即不同,样本区间分布便不同。因此,如果Y的定义不合理,会影响到评分卡的效果。如果数据在训练集、测试集、验证集的表现都不错,但是实际投产后出现问题,出去经济政策环境和业务环境发生变化的原因外,很有可能是Y选取不合适导致样本质量发生偏移的结果。

  综上,我们就可以理解:一般机构业务定义Y,通常选PD10~PD30左右,时间不短,也不会太长。时间太短,模型中会将非常多正常样本的信息误认为坏样本信息而去学习;时间太长,许多坏样本的信息学习就不完整,另外模型调优的周期也会被动拉长。

  因此,我们也可以理解,为什么银行一般不用或少用较为复杂的评分卡模型,杀鸡用牛刀的方式,少用。

  现在回到文章开始时的几个问题:

  总结如下:当模型效果表现一般时,我们通常需要从多个角度出发考虑问题,采用经验加分析的方法。将影响Pass_rate%和bad_rate%的因素排查定位到①环境、②X、③Y,进而进一步排查分析具体原因。

  由此,我们也可以得出教训,在模型开发过程中,需要不断去通过PSI、Pass_rate%、bad_rate%、混淆矩阵等方法去分析样本特征的预测性、稳定性,以及Y定义的合理性。这样,会尽可能的避免模型上线即失效的尴尬局面。


  对数据分析、机器学习、数据科学、金融风控等感兴趣的小伙伴,需要数据集、代码、行业报告等各类学习资料,可添加微信:wu805686220(记得要备注喔!),也可关注微信公众号:风控圏子(别打错字,是圏子,不是圈子,算了直接复制吧!)

关注公众号后,可联系圈子助手加入如下社群:

  • 机器学习风控讨论群(微信群)
  • 反欺诈讨论群(微信群)
  • python学习交流群(微信群)
  • 研习社资料(qq群:102755159)(干货、资料、项目、代码、报告、课件)

相互学习,共同成长。

【模型迭代】模型迭代相关推荐

  1. 104. 软件工程的开发过程几种模型(瀑布模型、快速原型开发模型、增量模型、迭代模型、螺旋模型)

    文章目录 1.前言 2.瀑布模型--按阶段严格完成 (1)瀑布模型把整个项目过程分成了六个主要阶段: (2)举个例子来理解瀑布模型 (3)优缺点 (4)解决的重要问题 3.快速原型模型--低成本快速的 ...

  2. 关于增量模型和迭代模型的区别

    迭代模型和增量模型都属于并行开发的软件生命周期模型,但是这两个模型大家往往容易混淆或者不好理解.下面对两个模型的区别和相同之处做一下介绍. 迭代是不能并行的,迭代的并行是指迭代任务,比如从3.1-3. ...

  3. 软件测试(敏捷开发、迭代模型)

    什么是敏捷开发?----思想 敏捷开发是多种软件开发项目管理方法的集合,是一种开发方法. 以用户需求为核心,以用户为导向,快速开发,快速验证,快速修正的迭代式. 核心原则是拥抱变化,递增变化. 特点: ...

  4. 浅谈软件研发模式中瀑布模型、迭代模型、敏捷模型

    要比较模型的区别,首先说说什么叫软件开发.软件开发是一项包括版本计划.需求捕捉.需求分析.设计到代码编写.调试.维护的一系列过程.软件开发不仅仅是编程.而对于软件研发(Reserch and Deve ...

  5. 瀑布模型、迭代模型和敏捷开发

    瀑布模型: 瀑布模型核心思想是按工序将问题化简,将功能的实现与设计分开,便于分工协作,即采用结构化的分析与设计方法将逻辑实现与物理实现分开.将软件生命周期划分为制定计划.需求分析.软件设计.程序编写. ...

  6. 大家都在讲敏捷开发模型,但是落地又是迭代模型,迭代模型有哪些优势呢?

    从商业角度考虑: 1.迭代模型能够更快的开发出一个可用的版本,可以尽早的推广,占领市场 从软件开发角度看优势: 1)降低了在一个增量上的开支风险.如果开发人员重复某个迭代,那么损失只是这一个开发有误的 ...

  7. 增量迭代模型,瀑布模型,螺旋模型,快速原型模型

    增量迭代模型能够很好的控制前期风险并解决这些风险.例如要开发A.B.C.D四个业务功能,每个功能都需要开发两周的时间.则对于增量方法而言可以将四个功能分为两次增量来完成,第一个增量完成A.B功能,第二 ...

  8. 软件开发模型之迭代模型

    转自:http://baike.baidu.com/view/1380740.htm 早在20世纪50年代末期,软件领域中就出现了迭代模型.最早的迭代过程可能被描述为"分段模型(stagew ...

  9. 项目管理模型总结---原型模型、迭代模型

    原型模型  原型模型--样品模型 原型模型的主要思想: 先借用已有系统作为原型模型,通过"样品"不断改进,使得最后的产品就是用户所需要的. 原型模型通过向用户提供原型获取用户的反馈 ...

  10. 瀑布模型,迭代模型,敏捷开发

    瀑布模型: 瀑布模型核心思想是按工序将问题化简,将功能的实现与设计分开,便于分工协作,即采用结构化的分析与设计方法将逻辑实现与物理实现分开.将软件生命周期划分为制定计划.需求分析.软件设计.程序编写. ...

最新文章

  1. z.lua 1.7.0 发布,快速回到历史路径,支持 ranger / fz
  2. STM32 端口复用与重映射及低功耗引脚配置
  3. Go语言实战 : API服务器 (4) 配置文件读取及连接数据库
  4. 30岁之前需要知道的10个人生底线,你知道几个?
  5. MySQL中GTID的几个限制和解决方案(r13笔记第21天)
  6. c语言实力,排序算法(更新ing)(C语言实现)(认真的不像实力派)
  7. Android学习笔记(二)——TextView常用属性以及下划线、跑马灯设置
  8. rx584白牌救砖心得
  9. Android HttpClient 与JSON解析
  10. 工控计算机电力行业标准,标准协议工控协议_IEC104.pdf
  11. 计算机英语考虑是,计算机英语中单词privilege和permission的区别
  12. 一键制作低多边形海报效果教程
  13. 认知升级|系列1|富人思维
  14. 【Git】fatal Not a git repository or any of the parent direc
  15. html怎么设置毛笔字体,三种实用的毛笔书法字体设计制作教程
  16. 通过例子说明CMMI各级别不同
  17. C++内存问题(很多公司面试的题目,值得一看,看懂了别忘了告诉我)
  18. 安装bcftools
  19. 功率器件-功率晶体管 GTR
  20. 国产自主“软件定义”框架——openSCA核心框架永久开源

热门文章

  1. 文本编辑器实现关于对话框的功能
  2. java平台设计zhe_基于java平台的网上评教系统的设计与实现
  3. android 之适配器与json对象解析技术的联用的进一步优化(解决图片错位)
  4. 定义一个结构体指针需要分配存储空间
  5. jetson nano 采坑记录
  6. tf.dynamic_stitch 和  tf.dynamic_partition
  7. linux go 安装
  8. 向有环的环形链表中插入新节点
  9. 67. Add Binary
  10. 知识图谱基础知识(一): 概念和构建