1、信用评分模型出现的动机是什么?

  我们去银行借款的时候,他们往往都会看我们的一些个人信息,比如,年龄,收入,家庭状况,工作单位,婚姻状况等,也会设置一些门槛,只有满足了一定的门槛才会贷款于你。但是这种对单个指标设置的门槛会存在一些问题,比如:
(1)有些借款人虽说一些条件不满足,但是其他条件都很好
(2)如何利用零散、非结构化的信息整合成科学的核额体系是一个难题
(3)贷后管理、资产质量分析和风险定价需要可量化的数字评价体系支持
  这样,一种信用评分就应运而生,解决了以上难题。具象的个体风险被标准化,分数的存在使得审批有了最简单易用的判断标准;整体的信贷资产质量也有了量化指标

2、信用评分的业务定义

 信用评分表面上是一个分数,实质上是一个模型。模型只是我们解决问题的手段,解决业务问题才是我们的目的。
 信用风险计量体系包含主体评级模型和债项评级模型,主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡;债项评级模型通常按照主体的融资用途,分为企业融资模型现金流融资模型项目融资模型等。
 我们通常所接触到的评分大都用于信贷审批,即申请评分卡(A卡,Application scorecard)。同时,业内还常用的有B卡(Behavior scorecard)和C卡(Collection scorecard),分别用于贷后管理及催收管理。
 其中,它们的使用场景不同的:
A卡又称为申请者评级模型,是使用最广泛的,用于贷前审批阶段对借款申请人的量化评估;
B卡又称为行为评级模型,主要任务是通过借款人的还款及交易行为,结合其他维度的数据预测借款人未来的还款能力和意愿
C卡又催收评级模型,是在借款人当前还款状态为逾期的情况下,预测未来该笔贷款变为坏账的概率,由此衍生出滚动率、还款率、失联率等细分的模型;
F卡有称为欺诈评级模型,主要应用于相关融资类业务中新客户可能存在的欺诈行为的预测管理。
 不同的评分卡,对数据的要求和所应用的建模方法会不一样。

 不同的产品,评分标准也不尽相同,评分模型也不相同。比如,对于小额短期利率高的现金贷来说,逾期30天+已经非常严重,催回的可能性非常小,那么相对应的模型会界定M1以上客户为坏客户。但对于车辆抵押贷款的借款人来说,考虑到抵押物,还很有可能还款,所以我们可能会选择界定M2甚至M3以上的客户为坏客户。所以,在做模型的时候,也要思考当下的模型与当前的业务模式的匹配程度。

3、信用评分模型的建立

信用评分模型建立的一般过程如下图:

(1)准备数据
 准备一个足够大的数据样本,并且样本的特征数也尽量多些

(2)数据处理
 从生产环境导出的数据往往并不完美,有大量影响分析的缺失值和异常值。我们需要剔除缺失率太高的变量,剔除按业务逻辑完全不可解释的变量等等。这是一个听起来很简单但实际上需要耗费大量精力的过程,会极大影响到模型准确性。
(3)变量分析
 通过对特征变量的相关性、共线性等的分析,筛选出对预测结果重要的特征,便于后期建模使用。
(4)评分卡构建
 现在我们已经拥有了一些非常“优秀”的变量,那我们怎么利用这些变量得到我们所需要的答案呢?这是一个已知X求Y的问题,我们需要选择一个合适的模型方法去解决和预测。常见的模型方法有线性回归、非线性回归分析、决策树等等。
其中,逻辑回归是在信用评分卡开发中非常有代表性的模型方法。在这个模型中,经过上述筛选的每一个变量会进行证据权重转换(WOE 即 Weight of Evidence),逻辑回归可以将我们所熟知的借款人特征转化为一个标准的评分卡,当我们输入这些变量的具体值的时候,可以得到相应的分数。

4、信用评分卡的评估指标

 一般来说,信用评分卡模型的评估指标可以分为两类:
(1)预测能力指标,用于评估模型对违约事件的预测能力,如:WOE/IV、ROC/AUC、K-S指标、GINI系数等
(2)稳定性指标,用于评估模型在训练样本和测试样本中预测能力的一致性,如PSI指标等
 下面对一些指标进行解释一下:
1.WOE、IV
WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。
要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)。分组后,对于第i组,WOE的计算公式如下:
WOE=ln(pyipni)=ln(yiyTninT)WOE=ln(pyipni)=ln(yiyTninT)
其中,yIyI表示对于第i组,违约的个数,yTyT表示对于总样本,总违约的个数
nini表示对于第i组,正常的个数,nTnT表示对于总样本,总正常的个数
从这个角度来理解,WOE就是“当前分组中违约的占总违约的比例”与“当前分组中正常的占总正常的比例”之间的差异
对此公式做一个简单变换,可以得到:WOE=ln(pyipni)=ln(yiniyTnT)WOE=ln(pyipni)=ln(yiniyTnT)
从这个角度来理解,WOE就是指“当前分组中,违约与正常的比例”与“总样本中违约与正常的比例”之间的差异
有了前面的WOE值的计算之后,我们再来学习一下IV值的计算方式:IVi=(pyi−pni)∗WOEiIVi=(pyi−pni)∗WOEi
有了一个变量各分组的IV值,我们就可以计算整个变量的IV值,方法很简单,就是把各分组的IV相加:IV=∑i=1nIViIV=∑i=1nIVi,其中,n为变量分组个数。
我们进一步理解一下WOE,会发现,WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。
2.ROC、AUC曲线
 首先先了解一些混淆矩阵的知识:
TP(True Positive):将正类样本预测为正类,即真阳性
FP(False Positive):将负类样本预测为正类,即假阳性
TN(True Negative):将负类样本预测为负类,即真阴性
FN(False Negative):将正类样本预测为负类,即假阴性

则精准率(Precision)P=TPTP+FPP=TPTP+FP -----可以理解为从结果看,在所有预测为正类的样本里,预测正确的占比
召回率(Recall)R=TPTP+FNR=TPTP+FN -----可以理解为在原始的正类样本中,被预测正确的样本的占比

假阳性率(False Positive Rate)FPR=FPNFPR=FPN----其中N为样本中负样本的个数

真阳性率(True Positive Rate)TPR=TPPTPR=TPP----其中P为样本中正样本的个数

好吧,原谅我今天才发现一个问题:原来召回率和真阳性率是一样的。。。

举个例子
 假设一个医院有10位疑似癌症患者,其中有3位很不幸确实患了癌症(P=3),另外7位不是癌症患者(N=7),医院对这10位疑似患者进行诊断,诊断出3为癌症患者,其中有2位是真正的患者(TP=2),那么真阳性率为TPR=TPP=23TPR=TPP=23,对于七位非癌症患者而言,有1位很不幸被误诊为癌症患者(FP = 1)。
那么假阳性率为FPR=FPN=17FPR=FPN=17,那么对于“医院”这个分类器来说,这组结果就对应ROC曲线上的一个点(23,17)(23,17)。

 AUC曲线就是ROC曲线下方的面积大小,该值能够量化地反映出基于ROC曲线衡量出的模型性能。计算AUC值只需要沿着ROC曲线横轴做积分就可以了。由于ROC曲线一般都在曲线y=xy=x的上方,因此AUC的值一般都在0.5--1之间,AUC值越大,说明分类器越可能把真正的正样本排在前面,分类性能就越好。
3.K-S指标
 作为一个模型,我们当然希望这个模型能够帮我们挑选到最多的好客户,同时不要放进来那么多坏客户。K-S值就是一个这样思路的指标。比如,在完成一个模型后,将测试模型的样本平均分成10组,以好样本占比降序从左到右进行排列,其中第一组的好样本占比最大,坏样本占比最小。这些组别的好坏样本占比进行累加后得到每一组对应的累计的占比。好坏样本的累计占比随着样本的累计而变化(图中Good/Bad两条曲线),而两者差异最大时就是我们要求的K-S值(图中比较长的直线箭头的那个位置)。

KS值的取值范围是[0,1]。通常来说,值越大,表明正负样本区分的程度越好。一般,KS值>0.2就可认为模型有比较好的预测准确性。
4.GINI系数
 还记得经济学中那个著名的基尼系数吗?下图应该可以让你回忆起来。将一个国家所有的人口按最贫穷到最富有进行排列,随着人数的累计,这些人口所拥有的财富的比例也逐渐增加到100%,按这个方法得到图中的曲线,称为洛伦兹曲线。基尼系数就是图中A/B的比例。可以看到,假如这个国家最富有的那群人占据了越多的财富,贫富差距越大,那么洛伦茨曲线就会越弯曲,基尼系数就越大。

同样的,假设我们把100个人的信用评分按照从高到低进行排序,以横轴为累计人数比例,纵轴作为累计坏样本比例,随着累计人数比例的上升,累计坏样本的比例也在上升。如果这个评分的区分能力比较好,那么越大比例的坏样本会集中在越低的分数区间,整个图像形成一个凹下去的形状。所以洛伦兹曲线的弧度越大,基尼系数越大,这个模型区分好坏样本的能力就越强。

信用模型评分卡入门介绍相关推荐

  1. 机器学习之金融信贷风控(一)互联网金融业申请评分卡的介绍

    金融信贷风控中的机器学习 在信贷风控领域,随着大数据.计算机集群技术.网络技术和人工智能的发展,越来越多的金融机构将传统的策略风控手段转向依赖机器学习模型等量化手段.信贷环节中的审批.预警.催收以及营 ...

  2. (信贷风控一)互联网金融业申请评分卡的介绍

    互联网金融业申请评分卡的介绍 本文主要讲解以下知识点 信用违约风险的基本概念 申请评分卡的重要性和特性 贷款申请环节的数据介绍和描述 非平衡样本问题的定义和解决方法 信用违约风险的基本概念 什么是信用 ...

  3. (信贷风控十)催收评分卡的介绍

    (十)催收评分卡的介绍 评分卡可分为申请评分卡(A卡).行为评分卡(B卡).催收评分卡(C卡).不同的卡使用场景不一样,A卡用于贷前申请环节,用来区分客户好坏:B卡用于贷中环节,根据观察行为预测未来一 ...

  4. 信用标准评分卡模型开发及实现

    一.信用风险评级模型的类型 信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用"四张卡"来表示,分别是A卡.B卡.C卡 ...

  5. 机器学习:信用风险评估评分卡建模方法及原理

    #课程介绍 信用风险评分卡为信用风险管理提供了一种有效的.经验性的解决方法,是消费信贷管理中广泛应用的技术手段. 评分卡是信用风险评估领域常见的建模方法.评分卡并不加单对应于某一种机器学习算法,而是一 ...

  6. 【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配

    本文主要讲"变量选择""模型开发""评分卡创建和刻度" 变量分析 首先,需要确定变量之间是否存在共线性,若存在高度相关性,只需保存最稳定.预 ...

  7. 基于逻辑回归的金融风控模型评分卡

    2022年1月报名了单位组织参加的传智教育线上Python数据分析培训班,一共五天.前三天主要介绍了一些Python和机器学习的基础知识.包括pandas库的使用.若干机器学习经典算法.基于机器学习的 ...

  8. PMML模型-评分卡模型Undefined result解析

    背景 Java解析评分卡PMML模型抛出异常信息 org.jpmml.evaluator.UndefinedResultException:Undefined resultat org.jpmml.e ...

  9. 信用风险评估评分卡 之 极端值

    极端值的产生: 1.数据生成的过程来源于某些未知的函数形式的分布,很难确定哪些观测值是极端值: 2.在获取原始业务数据过程中,产生差错. 极端值的识别: 1.为每个变量(feature)设定一个正常的 ...

最新文章

  1. linux环境对apk文件写入数据,Linux下7zip命令apk中插入文件标识渠道批量打包
  2. 【南洋理工-CVPR2022】视觉语言模型的条件提示学习
  3. 【正则表达式】1.入门
  4. node --- 使用node连接mysql
  5. 熬夜肝完这份Framework笔记,已拿到offer
  6. oracle 11g(四)给oracle添加为系统服务(脚本)
  7. 菌群多样性检测_多样性丰富了中学Linux用户群
  8. mysql查字段的备注_Mysql 查看表注释或字段注释
  9. wifi扫描流程图_扫描方法与流程
  10. zookeeper 可以干什么
  11. 图片文字识别 mysql_有道智云OCR图片识别文字+返回数据处理技巧(实现语言-按键精灵脚本请求识别+java服务端处理数据)...
  12. 2021牛客暑期多校训练营#10:F-Train Wreck
  13. 看雪CTF.TSRC 2018 团队赛 第二题 半加器 writeup
  14. 服务器虚拟机双活,VMware双活数据心解决方案详解.pptx
  15. 高速的二舍八入三七作五_详解青银高速市区段计费方法人工车道比ETC贵3元
  16. pygraphviz win7安装报错解决
  17. python下载bt文件_给定一个.torrent文件,如何在python中生成一个磁力链接?
  18. java long string 转换_Java long 转成 String的实现
  19. C++转换函数 (conversion function)
  20. 802.x 标准介绍

热门文章

  1. android端与服务端差别,Android客户端和服务器端编程
  2. linux nginx cdn,linux – Nginx Proxy_Pass到CDN与直接击中CDN. P...
  3. 快速了解FAT32文件系统
  4. php处理二进制,PHP应用:PHP处理二进制数据的实现方法
  5. 软件详细设计说明书_校导周绪龙|软件测试第五篇——软件测试的底层思维
  6. file 选择的文件胖多有多大_「HTML5 进阶」FileAPI 文件操作实战,内附详细案例,建议收藏...
  7. java 状态迁移图_kafka 实战笔记
  8. android 之RadioButton单选控件
  9. Android 文本实现跑马灯效果 用自带的TextView控件
  10. 97. Leetcode 剑指 Offer 60. n个骰子的点数 (动态规划-背包问题)