数信互融(IFRE):专注于互联网金融领域的风险量化、资产定价。基于互联网金融行业数据,结合互联网金融大数据,应用国际上专业化的分析手段,提供信用评估模型、决策引擎和资产证券化等服务,帮助互联网金融行业预测债权的风险溢价、实现资产定价以及解决互联网金融行业资产流动性问题。

“你的模型准么?”

“你的模型真的有用么?”

“你的模型对风控有价值么?”

在为P2P公司建立风控评分模型过程中,这是最常见的问题。为了回答这一问题,我们想先讨论下如何从实际业务出发,以怎样的开发流程才能建立一个有效、有用、有价值的模型,希望读后能给你一定的启发。

在互联网金融风控体系中,量化分析需要贯穿始终,评分卡模型是其中非常重要的一环。

在互联网金融评分卡开发过程中,我们仔细研究了企业风控操作流程,反复推敲了模型构建步骤,最后我们认为从业务应用角度,评分卡开发应用应遵循:

业务定义 -> 风险定义-> 风险分解 -> 风险策略 这几个步骤。

业务定义

为什么把业务定义放在最底层呢?

从商务智能的角度说,模型,评分,策略等都是为业务服务的,脱离了业务场景的模型和评分是无本之木,无源之水;脱离了业务场景谈模型的准确性,没有意义。

不同的业务场景,产生了不同的数据,不同的数据包含的规律,体现在数据分析中就是不同的模型、不同的参数和不同的评分。

比如,同样是网上的个人信用贷款,主要包含个人和企业主两大类客群。在中国,由于小微企业贷款困难,如果小微企业有了贷款需求,一般都是企业主以个人名义在网上贷款,但是这类客户显然是和普通个人信用贷款客户是不同的,所以这类客户的属性信息一般都包含了一些企业的信息,如资产,对公、对私流水等等。我们在做模型的时候,就会把他们分开:个人消费信贷模型和企业主信贷模型,企业主模型会包含一些反应小微企业财务状况的变量。

但是互联网金融所包含的业务种类远不止这两个,单纯的信用贷款类,就有专门放贷给学生的学生贷;在朋友圈之内贷款的朋友贷;给外企白领贷款的白领贷……

如果你拿学生贷的模型给农民贷客户来用,或者拿给上海白领开发的模型给甘肃、西藏的白领用会怎么样呢? 我不说你也明白了。

业务定义之后,还有一个要求,即业务模式的稳定性。即在一定时间范围内,用于构建模型的数据依赖的业务模式是相对没有变化的,前后一致的。只有满足这个条件,历史数据模拟出来的模型,和后面的数据才是匹配的。这在学术上有个术语,稳定性,Stationary/stability.

同理,我们也假设,符合同一类属性特征的个体,其表现行为也是一样的,即打分相同的人,表现也相同。这也回答了有人提出的另一个问题“我以前从没贷过款,也没信用卡消费记录,能用你的模型打分么?”

风险定义

简单地说就是判定哪些是好客户,哪些是坏客户。

互联网金融业务模式的多样性,导致了对好客户和坏客户的定义标准也不尽相同。 这里有人会问:“怎么会呢?欠钱不还的不就是坏客户么。”好吧,我来举个例子。

在我们清洗数据的时候,看到对客户信用评价中有这么一类“少量逾期”,这个类别占了相当大的比重,而且在模型中作用也比较显著,和其它类别“信用好”“信用差”等比肩。

一开始我们的技术人员对这个“少量逾期”这个分类很疑惑,不能理解这个分类到底是好还是坏。直到我们和某P2P公司的风控经理实际交流后才明白这其中的含义。宋总说:“……在传统银行信用卡业务中,是很喜欢这类少量逾期的客户的,因为他们能给银行创造罚息,但是又不是恶意违约那种客户。但对于我们P2P公司来说,是不敢养这类客户的,一旦有了逾期情况,就必须马上采取措施……”

说到这里您可以明白了吧,“少量逾期”是传统银行信用卡业务中经常出现的一个分类,而且算一个银行比较喜欢的类别,但是你把它也用到互联网金融试试?

风险分解

风险分解,就是用模型把目标客户分类。我们举个例子:

某跨国IT北京研发的总裁,提到发生在自己身上的案例:由于家里有急事,临时用钱,想申请某行的信用卡多给5万额度,但是某行不批。为什么呢? 因为刘总用这个卡主要是发工资的,每月到账后,夫人就会把钱拿去购买理财产品。因此卡上一般没多少钱。但是刘总是不是高风险客户呢?

显然,依据某行简单的分类方法,刘总被划为不能多给5万额度的类别了。长此以往,类似刘总这类高质量、低风险客户就有可能流失。

因此,选择正确的方法,合理分类,才能为进一步采取合理的商业策略提供正确有力的数据支持。评分卡是其中一个比较有效的工具。

在信用风险管理领域,评分卡是简便易行的风险管理工具。

什么是评分卡?

评分卡是综合个人客户的多个维度信息(如基本情况、偿债能力、信用状况等,重点关注偿债能力、还款意愿),基于这些信息综合运用数学分析模型,给个人综合评分,判断违约的可能性的工具。

生活中存在许多“显性”或“隐性”的“评分卡”。

例如:选购汽车--综合价格、油耗、安全系数、性能、外观等来因素。-> 买? 还是不买?

就分析方法发而言,现在分类算法有很多种,决策树,逻辑回归,支持向量机,神经网络等等,都可以实现这个目的。在以后的文章中,我们会详细讲解一下数据和模型的匹配性。数据决定了用什么模型。

风险策略

在给客户正确分类之后,即准确地风险分类。我们就可以采取相应的商务策略,优化业务:

- 流程简化:通过模型对客户分层,降低审核人员的工作量,提高审批速度。

- 风控优化:以客观分数代替主观评断,保证审批标准及风险偏好一致性。

- 风险定价:按照模型计算的违约率进行产品的定价。

以上是我们从业务角度谈构建互联网金融评分卡模型的结构。

在信用评分卡模型开发过程中,正态性是检验模型信用评分分布是否有效的一个重要指标。正常情况下,标准的正态分布是单峰分布;但是在实际建模过程中,会遇到信用评分分布出现双峰的情况。

双峰分布出现时,数据规律一致性的假设被打破,我们需要从不同的角度考察其出现双峰分布的原因,对模型加以调整,使之准确地反映业务和数据中的规律,以便模型准确适用。

根据为数十家互联网金融企业建立评分卡模型的实践经验,我们总结了一些造成双峰分布的因素。

本文将从业务模式、录入系统变更和变量这三个角度,对信用评分分布的双峰情况加以分析并解释其出现的原因。通过实际案例,通过具体解决方案的分享,与读者共同探讨交流讨论。

1

参考模型:违约模型(先息后本和等本等息的混合模型)

解释角度:业务模式(或者叫好坏客户定义模式)

根据项目初期的好坏客户定义,评分分布如图1所示。其中出现了双峰分布。

图1 信用评分分布直方图

考虑到好坏客户定义与实际业务模式相差较大且坏客户占比过低,采取重新定义好坏客户。新的评分分布直方图如图2所示。

图2 更改好坏客户定义后的信用评分分布直方图

可见,通过更改好坏客户的重新定义,解决了评分分布出现双峰的问题。

2

参考模型:违约模型(先息后本和等本等息的混合模型)

解释角度:录入系统变更

评分分布如图3、图4所示,可见在两个模型中均出现了双峰问题。

图3 先息后本模型的信用评分分布直方图

图4 等本等息模型的信用评分分布直方图

通过对上述两个信用评分卡模型中的变量进行比较与分析后,我们发现其中一个共有变量,即配偶知晓贷款,在两个模型中的得分都很低。于是我们在原始数据中对该变量进行深入分析,发现该变量在2014年12月27日之后就没有缺失值了。同时,我们也发现居住类别变量在该时间点之后也没有缺失值了。于是我们判断在该时间点该P2P公司发生过较大变动。经过跟对方的接触,证实在该时间点该P2P公司确实做过有关申请界面、必填字段、风控把控等的相关调整。就配偶知晓贷款这个变量而言,在录入系统调整之前有缺失选项;在调整之后,没有缺失选项,系统默认值为“是”。

由于录入系统发生了较大的更改,更改所在时间点前后的数据是不同的,我们决定采用该时间点之后的数据再次建模。

新的评分分布直方图如图5、图6所示:

图5 新的先息后本模型的信用评分分布直方图

图6 新的等本等息模型的信用评分分布直方图

通过发现录入系统的变更,我们采用变更后的数据进行建模,从而将双峰分布重新调整为单峰分布。

3

参考模型:申请模型

解释角度:变量

信用评分分布直方图如图7所示,发现出现双峰情况。

图7信用评分分布直方图

发现出现双峰,我们考虑是否因为某个变量对变量预测有重要作用,造成该变量分数分布对总体信用评分分布有重要影响。为找出这个变量,在计算总体评分时,按照模型变量的IV值,从大到小依次删除变量,观察删除某个变量后信用评分的分布情况。发现当删除银行卡月均流水变量后,信用评分分布的直方图如图8所示,发现双峰消失,由此确认双峰问题是由于银行卡月均流水变量引起的。

图8 删除银行卡月均流水变量后信用评分分布直方图

由于删除银行卡月均流水变量后的信用评分分布并不是标准的正态分布或者近似正态分布,从而进一步分析:统计银行卡月均流水变量各分类下的分数和对应的样本量。发现在频数相等的情况下,流水小于等于39000元和大于39000元两类分值相差较大。于是继续考虑是否因为银行卡月均流水变量的小于等于39000一类分数过低,与其它分类的分数相差较大,使得总体信用评分不满足标准正态性。

因此将样本按照银行卡月均流水变量大于39000、和小于等于39000分成两类后,计算各自总体分数的分布,分别如图9、图10所示。

图9 银行卡月均流水变量大于39000的信用评分直方图

图10 银行卡月均流水变量小于等于39000的信用评分直方图

从图9和图10中可发现,按照银行卡月均流水变量是否大于或者小于等于39000划分样本后,两个数据集下的信用评分分布皆展示了一定的正态性,图10中430和450分之间的高峰,正是总体评分分布出现小高峰的成因。

但是通过多次调整银行卡月均流水变量的分组,双峰问题依然无法解决,分析是否由于未知的外界因素引起,导致银行卡月均流水在[0,39000]和39000+两个范围内,样本之间存在较大的不同。

我们接下来观察是否由于进件时间不同引起:通过验证发现银行卡月均流水变量各类别,均分布在进件时间从2014年9月19日到2015年5月15日的区间内,并不存在显著的不同。

进一步考虑,是否由于借贷产品的不同而引起:

进过进一步分析发现,在相同产品类别下,银行卡月均流水变量的频数分布与坏客户占比分布并不存在显著的不同。

由此确定,产生双峰的外界因素并不是进件时间和借贷产品的不同,而是可能当银行卡月均流水较小时(低于39000),业务上对成功获贷的要求更加严格,从而使得这个区间的样本坏客户占比很高,从而该区间的信用评分很低,最终导致信用评分分布出现双峰。

当对银行卡月均流水变量进行相应分数调整后,其信用评分分布如图11所示。

图11 调整银行卡月均流水变量后的信用评分直方图

从而,通过对变量分数的调整,我们将双峰分布重新调整为单峰分布。

在P2P行业告诉发展的今天,互联网金融企业的管理系统和风控策略也不断更新完善,对应的内部系统不断完善的情况下,业务模式,系统升级,人员变动等都会造成数据中有隐含的规律发生变化,数据一致性的假设被打破。数据建模人员首先要与对方确认每一次业务、系统、人员等变更的时间节点,以便做出预判,并对可能的数据变动进行逻辑验证。

数据确定后,还需确定模型个数,尽可能保持客群和产品的统一性,避免将不同的客户群体或者不同的产品混淆在一个模型之中。当确定好数据采取时间、模型个数之后,要结合业务模式以及客户需求给出好坏客户定义,以便于模型开发的顺利进行。

在完成信用评分卡的开发之后,如果评分分布出现双峰,我们要从各个方面查明原因,比如对方业务模式是否曾经有过较大变动、录入系统是否更新过、好坏客户的定义是否合适、变量分组是否合理等等。对于不同业务背景的模型,我们要采取针对有效的方式进行查验。希望各位在看完本文后能够对双峰分布有一个直观的理解,而实际工作中遇到的情况是千变万化的,具体情况还需要从实际角度出发,根据相关业务背景查明原因。

本文是我们建模实践中整理的关于造成双峰情况的原因分析和解决方案,我们深知没有涵盖出现双峰的全部情况,还希望与读者、同行进行深入讨论,共同进步!

风控大咖教你四步开发风控模型相关推荐

  1. windows不是正版_你的电脑win10系统是正版吗?教你四步测试

    目前电脑使用的大多数是win10系统,该系统的很多特点也大受用户的喜爱,但是有时候系统卡顿会面临装系统问题,那么,怎样才知道自己电脑上安装的是不是正版系统呢?下面教大家四步检测方法. 第一步 利用电脑 ...

  2. RxJava的使用,教你四步搞定RxBus.

    教你四步搞定RxBus. 1,在你的工程中添加依赖   dependencies {compile fileTree(include: ['*.jar'], dir: 'libs')testCompi ...

  3. 求职特训营火热来袭 阿里大咖教你制作专业简历

    **简介:**金三银四黄金求职季,阿里专家倾心打造五节求职精品课程,从面试官角度切入讲解,帮助同学们五天快速掌握简历过关的技能,更有资深专家直播在线答疑! 一份高通过率的简历是什么样子?为什么你投了这 ...

  4. 求职特训营火热来袭,阿里大咖教你制作专业简历

    **简介:**金三银四黄金求职季,阿里专家倾心打造五节求职精品课程,从面试官角度切入讲解,帮助同学们五天快速掌握简历过关的技能,更有资深专家直播在线答疑! 一份高通过率的简历是什么样子?为什么你投了这 ...

  5. ​第一本 Compose 图书上市,联想大咖教你学会 Android 全新 UI 编程

    朱江 | 现任联想(北京)有限公司 Android 开发工程师,从事 Android 开发工作多年,有丰富的项目经验,负责和参与开发过多款移动应用程序,同时还是多个开源项目的作者.2017 年开始在 ...

  6. 基金跌了怎么办?来听听大咖教你怎么做!

    越来越多的人开始加入炒基金大军,这是一种很好的理财意识,因为穷人和富人之间的差距就在有没有被动收入: 随着世界各国开始印发货币,通货膨胀,物价上涨,你的钱购买力会越来越低! 要想让自己富有起来,千万别 ...

  7. 企业大咖教你解决Kubernetes的挑战

    Kubernetes(K8s)是自动化容器操作的开源平台,这些操作包括部署,调度和节点集群间扩展.如果你曾经用过Docker容器技术部署容器,那么可以将Docker看成Kubernetes内部使用的低 ...

  8. win7找回开机密码_电脑密码忘记了?教你四步轻松找回电脑开机密码

    有人电脑的开机密码忘记了,就很麻烦,接下来教大家如何四步找回电脑的开机密码: 第一步:按住ctrl+alt键,连续按2次"Delete"键,会出现windows经典登录页面,用户名 ...

  9. 区块链招聘会完美收官,行业大咖教你如何 Get Web3高薪职位

    由 TinTinLand 主办的"All in Web3 线上招聘空中宣讲会"活动在4月16日顺利举办,线上直播观看人数达到近300人,点赞3295次.直播中行业内权威专业人员.各 ...

最新文章

  1. Ubuntu17.04 之 systemd 设置开机启动
  2. Nacos 发布 1.0.0 GA 版本,可大规模投入到生产环境
  3. IIS错误信息--另一个程序正在使用此文件,进程无法访问!
  4. ArcGIS Pro地图制图之符号化和地图标注
  5. java iv不是内部命令_java – 解密错误:“no iv set when one expected”
  6. 深圳福田区特殊住房申请学位需要哪些材料 具体材料汇总
  7. Linux入门基础教程
  8. 运放TL08系列,功放LM386,8欧姆的扬声器
  9. cf1009 C. Annoying Present
  10. 试卷代号:4988 2021年春季学期期末统一考试电子政务概论 试题(开卷)
  11. 如何查询主机IP地址
  12. fooview辅助功能 shell_Fooview:一款功能超多的桌面悬浮球,帮你摆脱多余操作
  13. Amazon Redshift ML现已正式推出——使用SQL创建机器学习模型并通过您的数据进行预测
  14. 中国各地商人性格大曝光
  15. MFC如何修改窗口背景色(转载)
  16. 特辑·写给SoftwareTeacher的一封信
  17. 为诺亚方舟实验室,1亿组图文对,填补中文开源多模态数据集空白
  18. ghost系统后变成一个盘了找到文件的方案
  19. python 神经网络包_Python(neurolab搭建神经网络)
  20. Library Cache优化与SQL游标

热门文章

  1. java窗口如何写不能移动_[求助]请教高手,下面程序为何组件不能自由移动,百思不得其解!...
  2. Java旅游项目线路收藏_基于JavaWeb的旅游项目--详情功能
  3. uniapp在低版本android,uni-app离线打包Android平台注意事项
  4. delphi 调用php接口_新浪图床 API 接口调用与请求方法详细教程
  5. android studio项目总结,android studio 3.0 升级 项目遇到的问题及更改思路(问题小结)...
  6. linux平台性能监控系统,Linux系统性能监控
  7. 算法分析与设计——蛮力法0/1背包
  8. linux/centos/集群安装ntp时间同步,自身实验成功
  9. Linux可执行文件如何装载进虚拟内存
  10. scatter 基本用法 python matplotlib