最近,番茄星球课堂为大家带来了一次主题为“信贷风控拒绝演绎实战”的直播课盛宴,内容充实,干货满满!
课程分为两次专题展开,分别为《拒绝推论场景描述、方法介绍与案例分享》、《银行信用卡风控拒绝推论的场景实操》,全方位讲解了风控拒绝推论思想的业务场景、解决方法、算法原理、模型实现等,让大家从业务、算法、实操三个重要维度掌握拒绝推论的应用,为各位小伙伴的数据分析或数据建模的实战能力进行充电!

1、业务场景介绍
在金融信贷场景的风控体系中,贷前环节往往是通过策略或模型的“决策”动作来防范风险的,无论是欺诈识别,还是信用评估,或者是精准营销等。当信贷客户群体进行信贷申请并发起进件时,必然会通过大数据风控系统的自动化“决策”审批,由于不同客群的资质能力存在差异,最终风控决策自然会产生“通过”和“拒绝”的结果。
在贷前风控的决策流程中,申请信用评分卡模型(A卡)应用非常广泛,而且在很多环节发挥着重要作用,包括风险识别、产品定价、客户分群等。A卡模型的构建是一类有监督模型,即根据存量用户在事件发起时点的申请信息,与事件结束时点的还款表现,采用有监督的机器学习算法(如逻辑回归、XGBoost等),来拟合训练模型,最终实现模型的线上部署与风控应用。这里需要说明的是,对于A卡模型,往往是基于有贷后表现的用户数据进行建模,而模型的实际应用是面向未来可能待通过和待拒绝的所有用户群体,这在很大程度上反映了模型训练的样本特征,与模型应用的样本特征存在较大差异,使得模型在实际应用过程中很有可能出现效果不佳的情况。
针对贷前模型的训练样本与应用样本的特征差异,拒绝演绎(拒绝推论)的思想可以使模型特征更贴近真实业务场景,有效降低建模样本差异的影响,从而优化模型拟合性能,提升模型应用的实际决策效果。因此,拒绝推论思想主要应用于贷前风控环节,其业务流程示意图具体如图1所示。

图1 拒绝推论场景

在实现拒绝推论模型的过程中,主要存在两个待解决的难点,分别是:
1、如何定义拒绝样本的目标变量?
2、如何确定拒绝样本的引入比例?
当有效解决了这两个核心问题,对于联合建模的任务就变得简单很多,只需要采用合理的数据分析方法,对样本数据有序地进行处理加工,然后根据相应机器学习算法来训练拟合模型,就可以得到我们最终期望的结果,这和我们数据建模的正常流程是一致的。其中,对于拒绝样本的引入比例,在实际业务中一般可以考虑拒绝样本数量约为通过样本数量的0.25~1倍。当然,具体比例选取务必要结合实际场景的数据情形与业务需求。

2、拒绝推论方法
对于拒绝样本的目标定义,这是拒绝推论数据分析的最关键点,下面我们介绍下在实际工作中最常用的几种方法,包括样本随机抽取法、模型赋值划分法、模型分组扩充法、模型分组扩充法、样本权重推断法、专家经验设定法,具体如图2所示。
虽然每种方法在处理流程、算法选择、业务理解等方面存在较大差异,但最终需要的目标是一致的,即更合理地对拒绝样本的好坏标签进行设定,然后通过有效的机器学习算法得到更符合实际业务的拒绝推论模型,接下来我们对每种处理方法的主要步骤进行描述说明。

图2 拒绝推论方法

(1)样本随机抽取法
Step1:明确通过样本的标签分布(0/1),标签1占比为pct;
Step2:对拒绝样本进行随机抽样,抽取比例为pct的2~4倍;
Step3:抽取样本的目标赋值为1,剩余样本的目标赋值为0;
Step4:通过样本与拒绝样本联合建模,得到拒绝推论模型。
(2)模型赋值划分法
Step1:根据通过样本构建评分模型;
Step2:利用通过样本模型对拒绝样本进行打分;
Step3:对拒绝样本评分进行排序,确定好坏标签划分阈值;
Step4:合并通过样本与拒绝样本,重新构建评分模型。
(3)模型分组扩充法
Step1:根据通过样本构建评分模型;
Step2:利用通过样本模型对通全量样本进行打分;
Step3:汇总不同评分区间的通过样本坏账率;
Step4:参照同分组的通过样本坏账率,设置拒绝样本坏账率pct;
Step5:对拒绝样本随机抽样pct设定坏样本,剩余样本为好用户;
Step6:通过样本与拒绝样本联合建模,得到拒绝推论模型。
(4)特征变量聚类法
Step1:对通过样本进行聚类分析,以目标变量分类确定中心点;
Step2:根据好坏样本的中心点,得到拒绝样本与中心点距离;
Step3:对比好坏距离大小关系,取距离较小对应的类簇标签;
Step4:通过样本与拒绝样本联合建模,得到拒绝推论模型。
(5)样本权重推断法
Step1:算出各特征变量在通过样本的平均值a;
Step2:算出各特征变量在全量样本的平均值b;
Step3:设定特征变量的更新权重ω=b/a;
Step4:对通过样本各特征进行加权ω,然后根据通过样本建模。
(6)专家经验设定法
Method1:根据自有数据的重要特征变量进行经验划分标签;
Method2:通过外部三方征信数据高价值变量划分阈值确定标签;
Method3:拒绝样本的客户画像描述分析判断用户价值标签。
当采用以上某种方法获取拒绝样本的好坏标签后,就可以按照数据建模的通用流程建立拒绝推论模型,建模主要环节如图3所示。当最终得到拒绝推论模型之后,同样需要评估模型的综合性能,常见指标包括KS、AUC、Accuracy、Recall等。此外需要注意的是,为了评估拒绝推论的效果,务必要验证下拒绝推论模型的应用效果,具体可以对比下通过样本与拒绝样本的坏账率分布、特征变量分箱IV值、验证数据集的模型性能等,这也是有效确保拒绝推论模型可以满足实际业务需求的重要环节,常用方法如图4所示。

图3 数据建模流程


图4 拒绝推论模型验证

3、拒绝推论实战
在我们第2次专题课中,围绕银行信用卡风控拒绝推论的业务场景,采样Python语言工具进行了具体案例实操,详细介绍了贷前申请信用拒绝推论模型的实现过程,并重点解读了拒绝推论的实现步骤,以及模型效果的验证逻辑。下面我们对整个案例场景进行简要描述,案例是通过模型赋值划分法来定义拒绝样本的目标变量,对应拒绝推论的原理过程如图5所示。


图5 模型赋值划分法原理

(1)样本数据概况
场景案例选用样本的数据量是14000条,含通过样本10000条、拒绝样本4000条,特征字段数量16个,其中X变量12个,数据样例与特征字典如图6、7所示。

图6 样本数据样例


图7 样本数据样例

通过样本数据的预测标签flag,是根据字段overdue(逾期天数)转换而来,结合场景实际业务表现采用pd3(逾期天数大于3天)来定义目标,具体可以通过滚动率分析、账龄分析等方法综合决定。


图8 样本数据样例

(2)通过样本建模
根据通过样本数据,建立二分类预测模型。在整个建模过程中,可以采用缺失值处理、异常值处理等方法对数据进行清洗,接着通过特征相关性、特征信息值、特征衍生、特征筛选等特征工程步骤,来具体分析特征变量的性能,其中特征相关性、特征衍生(部分)如图9、10所示。

图9 特征相关性分析


图10 特征衍生(部分)

通过一系列特征工程处理之后,采用决策树集成学习算法XGBoost来拟合训练模型,具体实现代码与模型性能分别如图11、12所示。

图11 通过样本模型训练


图12 通过样本模型性能

(3)拒绝样本建模
当得到通过样本的模型之后,便可以对拒绝样本进行评分,然后根据预测概率的排序结果,以某个阈值作为好坏标签的划分标准,实现过程如图13所示。其中,阈值的设定是根据拒绝样本划分后对应坏账率是通过样本坏账率的2~4倍而定,本案例的划分阈值为0.479772,这样得到的拒绝样本目标分布如图14所示,可以得知其坏账率为70.05%,是通过样本坏账率(33.55%)的2倍多(图8),这是满足我们预先设定需求的。

图13 拒绝样本目标定义



图14 拒绝样本目标分布

接着将通过样本与拒绝样本合并进行联合建模,其过程与通过样本建模流程类似,最终得到的拒绝推论模型性能如图15所示,可以看出对于常见评估指标KS、AUC等与通过样本模型性能(图12)相比有一定提升。当然,模型最终的性能表现可以通过模型调参方法不断优化,例如采用常见的网格搜索与交叉验证方法进行模型调优,以获取更好的模型效果。

图15 拒绝推论模型性能

为了验证拒绝推论模型的效果,在前边已简单描述过(图4),具体可以对比下通过样本与拒绝样本的预测目标坏账率分布、特征变量分箱IV值差异、验证数据集的模型性能等。下面我们通过特征IV值来简单分析下拒绝推论前后的变化,通过样本与全量样本(通过+拒绝)的特征IV值分布如图16所示。从结果可知,全量样本的特征IV值明显比通过样本的特征IV值要高,说明拒绝样本评分后标签赋值较为合理,且有效提高了特征字段的区分度,这对拒绝推论模型的拟合训练是非常有帮助的。此外,还可以在采用验证数据集的模型效果表现进行对比,即将通过样本一定比例的样本(例如30%)作为验证数据集,然后将通过样本模型与拒绝推论模型分别对其测试评估,根据最终模型的性能指标(如KS、AUC、Accuracy等)来评估模型的效果,如果拒绝推论模型表现的效果明显较好,说明拒绝推论模型在这个维度上分析是比较好的。

图16 拒绝推论前后特征IV值

以上内容便是我们番茄星球课堂近期推出的“信贷风控拒绝演绎实战”专题课程概要,全程内容干货尽显!由于文章内容有限,有兴趣的童鞋可继续关注:

详细视频可见下篇

~原创文章

一份风控模型性能提升秘籍奉上|附视频+实操(详版)相关推荐

  1. 在数据增强、蒸馏剪枝下ERNIE3.0分类模型性能提升

    在数据增强.蒸馏剪枝下ERNIE3.0模型性能提升 项目链接: https://aistudio.baidu.com/aistudio/projectdetail/4436131?contributi ...

  2. 第三代英特尔 至强 可扩展处理器(Ice Lake)和英特尔 深度学习加速助力阿里巴巴 Transformer 模型性能提升

    第三代英特尔® 至强® 可扩展处理器采用了英特尔10 纳米 + 制程技术.相比于第二代英特尔® 至强® 可扩展处理器,该系列处理器内核更多.内存容量和频率更高.阿里巴巴集团和英特尔的技术专家共同探索了 ...

  3. 区块链性能提升:链上设计之道

    补天遗石 本文目录: 1 区块链的功能组件(Functional Components of a Blockchain) 1.1 交易验证(Transaction Validation) 1.2 区块 ...

  4. 独门秘籍奉上!听说这是CCF遥感地块分割比赛冠军的“获胜法宝”!

    [飞桨开发者说]黎昆昌,CCF BDCI遥感影像地块分割赛道冠军团队.CCF BDCI 2020 综合特等奖团队队长,中国科学院深圳先进技术研究院20级硕士. CCF大数据与计算智能大赛(CCF BC ...

  5. python稳健性检验_风控模型6大核心指标(附代码)

    欢迎各位同学学习python金融风控评分卡模型和数据分析微专业课 在我们开发完信用分模型后,经常需要计算如下的一些指标:●      区分度的指标:○      AUC○      KS○       ...

  6. 深度学习贝叶斯,这是一份密集的6天速成课程(附视频与PPT)

    来源:机器之心 本文约2500字,建议阅读6分钟. 本文将为你介绍如何用贝叶斯方法结合深度学习的方法运用在机器学习中. [ 导读 ]在 Deep|Bayes 夏季课程中,授课人将讨论贝叶斯方法如何结合 ...

  7. 机器学习模型性能提升技巧:指数加权平均(EMA)

    主要内容 什么是EMA? 为什么EMA在测试过程中使用通常能提升模型表现? Tensorflow实现 PyTorch实现 Refercences 什么是EMA? 滑动平均(exponential mo ...

  8. 手把手实操|深度剖析电商贷款风控相关细节(电商贷模型)

    序言: 在电商领域中,一直都有这样的场景:对于电商企业而言,资金短缺是经常出现的问题,尤其是在目前疫情状况下,经济下行,营业额逐渐降低,现金流紧张,企业这时就会考虑去借贷融资. 有需求就有供给,目前许 ...

  9. API设计中性能提升的10个建议

    [引子]节前的时候, 一好友约我聊一聊API 的设计.当时觉得仿佛有万语千言,但我又难以脱口而出1.2.3.原来,即便是工作的日常,也缺乏一个系统性的思考和整理.API的设计涉及到的方面很多, 分类是 ...

最新文章

  1. RS232详解(续)
  2. 【Python】Pandas基础:结构化数据处理
  3. python输出出现频率最高的字母_用Python实现搜索某一网页中出现频率最高的前N个英文单词 输入: 网址,N值 输出:按出现频率由高到低排...
  4. python正则匹配_Python正则表达式只匹配一次
  5. 动态规划——数塔(hdu2084)
  6. python写一个crm系统_用Python打造一个CRM系统(四)
  7. Sentinel流控规则简介_分布式系统集群限流_线程数隔离_削峰填谷_流量控制_速率控制_服务熔断_服务降级---微服务升级_SpringCloud Alibaba工作笔记0032
  8. Java 8 八年不倒、IntelliJ IDEA 力压 Eclipse,2022 年 Java 开发者都在用什么?
  9. 山东财经大学燕山学院计算机王栋,选修课Photoshop王栋的群谁有
  10. java opennlp_如何在Java中使用OpenNLP?
  11. python爬取某音乐歌词,将内容保存制作词云图
  12. 数字化转型指数2020DTI
  13. Android4.4监听耳机插入处理方法
  14. bash报错syntax error near unexpected token `$‘\r‘‘解决方法
  15. Spring Security(15)——权限鉴定结构
  16. 仿最新BiliBili客户端开源带后台弹幕库版
  17. Django的MTV模式详解
  18. linux下密码生成软件 APG
  19. 中专学计算机速录,中国目前最优秀的计算机速录软件是(超音速录)(双拼原理)...
  20. Windows Server 2012 R2 NAP服务器安装与配置06之 测试NAP DHCP

热门文章

  1. 商户号与商户appid不匹配
  2. C语言进阶第15式:逻辑运算符分析
  3. 导入Excel时数据类型处理工具类
  4. 检测样本分布是不是正态分布,绘制其正态分布概率图及异常值检测-python代码实现
  5. 华为鸿蒙麒麟巴龙鲲鹏,华为四大芯片 麒麟、巴龙、昇腾和鲲鹏“四大天王”...
  6. 最全数据结构的基本概念
  7. Pyecharts组合图表复用渲染模块实现方法
  8. 最新版本webrtc源代码在windows上的编译方法
  9. Ai带你玩股票项目(V1.0)内测说明
  10. 比 Elasticsearch 更快,RediSearch + RedisJSON = 王炸