信用模型评分卡入门介绍

1、信用评分模型出现的动机是什么？

我们去银行借款的时候，他们往往都会看我们的一些个人信息，比如，年龄，收入，家庭状况，工作单位，婚姻状况等，也会设置一些门槛，只有满足了一定的门槛才会贷款于你。但是这种对单个指标设置的门槛会存在一些问题，比如：
（1）有些借款人虽说一些条件不满足，但是其他条件都很好
（2）如何利用零散、非结构化的信息整合成科学的核额体系是一个难题
（3）贷后管理、资产质量分析和风险定价需要可量化的数字评价体系支持
这样，一种信用评分就应运而生，解决了以上难题。具象的个体风险被标准化，分数的存在使得审批有了最简单易用的判断标准；整体的信贷资产质量也有了量化指标

2、信用评分的业务定义

信用评分表面上是一个分数，实质上是一个模型。模型只是我们解决问题的手段，解决业务问题才是我们的目的。
信用风险计量体系包含主体评级模型和债项评级模型，主体评级和债项评级均有一系列评级模型组成，其中主体评级模型可用“四张卡”来表示，分别是A卡、B卡、C卡和F卡；债项评级模型通常按照主体的融资用途，分为企业融资模型、现金流融资模型和项目融资模型等。
我们通常所接触到的评分大都用于信贷审批，即申请评分卡（A卡，Application scorecard)。同时，业内还常用的有B卡（Behavior scorecard）和C卡（Collection scorecard），分别用于贷后管理及催收管理。
其中，它们的使用场景不同的：
A卡又称为申请者评级模型，是使用最广泛的，用于贷前审批阶段对借款申请人的量化评估；
B卡又称为行为评级模型，主要任务是通过借款人的还款及交易行为，结合其他维度的数据预测借款人未来的还款能力和意愿；
C卡又催收评级模型，是在借款人当前还款状态为逾期的情况下，预测未来该笔贷款变为坏账的概率，由此衍生出滚动率、还款率、失联率等细分的模型；
F卡有称为欺诈评级模型，主要应用于相关融资类业务中新客户可能存在的欺诈行为的预测管理。
不同的评分卡，对数据的要求和所应用的建模方法会不一样。

不同的产品，评分标准也不尽相同，评分模型也不相同。比如，对于小额短期利率高的现金贷来说，逾期30天+已经非常严重，催回的可能性非常小，那么相对应的模型会界定M1以上客户为坏客户。但对于车辆抵押贷款的借款人来说，考虑到抵押物，还很有可能还款，所以我们可能会选择界定M2甚至M3以上的客户为坏客户。所以，在做模型的时候，也要思考当下的模型与当前的业务模式的匹配程度。

3、信用评分模型的建立

信用评分模型建立的一般过程如下图：

（1）准备数据
准备一个足够大的数据样本，并且样本的特征数也尽量多些

（2）数据处理
从生产环境导出的数据往往并不完美，有大量影响分析的缺失值和异常值。我们需要剔除缺失率太高的变量，剔除按业务逻辑完全不可解释的变量等等。这是一个听起来很简单但实际上需要耗费大量精力的过程，会极大影响到模型准确性。
（3）变量分析
通过对特征变量的相关性、共线性等的分析，筛选出对预测结果重要的特征，便于后期建模使用。
（4）评分卡构建
现在我们已经拥有了一些非常“优秀”的变量，那我们怎么利用这些变量得到我们所需要的答案呢？这是一个已知X求Y的问题，我们需要选择一个合适的模型方法去解决和预测。常见的模型方法有线性回归、非线性回归分析、决策树等等。
其中，逻辑回归是在信用评分卡开发中非常有代表性的模型方法。在这个模型中，经过上述筛选的每一个变量会进行证据权重转换（WOE 即 Weight of Evidence），逻辑回归可以将我们所熟知的借款人特征转化为一个标准的评分卡，当我们输入这些变量的具体值的时候，可以得到相应的分数。

4、信用评分卡的评估指标

一般来说，信用评分卡模型的评估指标可以分为两类：
（1）预测能力指标，用于评估模型对违约事件的预测能力，如：WOE/IV、ROC/AUC、K-S指标、GINI系数等
（2）稳定性指标，用于评估模型在训练样本和测试样本中预测能力的一致性，如PSI指标等
下面对一些指标进行解释一下：
1.WOE、IV
WOE的全称是“Weight of Evidence”，即证据权重。WOE是对原始自变量的一种编码形式。
要对一个变量进行WOE编码，需要首先把这个变量进行分组处理（也叫离散化、分箱等等，说的都是一个意思）。分组后，对于第i组，WOE的计算公式如下：
WOE=ln(pyipni)=ln(yiyTninT)WOE=ln(pyipni)=ln(yiyTninT)
其中，yIyI表示对于第i组，违约的个数，yTyT表示对于总样本，总违约的个数
nini表示对于第i组，正常的个数，nTnT表示对于总样本，总正常的个数
从这个角度来理解，WOE就是“当前分组中违约的占总违约的比例”与“当前分组中正常的占总正常的比例”之间的差异
对此公式做一个简单变换，可以得到：WOE=ln(pyipni)=ln(yiniyTnT)WOE=ln(pyipni)=ln(yiniyTnT)
从这个角度来理解，WOE就是指“当前分组中，违约与正常的比例”与“总样本中违约与正常的比例”之间的差异
有了前面的WOE值的计算之后，我们再来学习一下IV值的计算方式：IVi=(pyi−pni)∗WOEiIVi=(pyi−pni)∗WOEi
有了一个变量各分组的IV值，我们就可以计算整个变量的IV值，方法很简单，就是把各分组的IV相加：IV=∑i=1nIViIV=∑i=1nIVi，其中，n为变量分组个数。
我们进一步理解一下WOE，会发现，WOE其实描述了变量当前这个分组，对判断个体是否会响应（或者说属于哪个类）所起到影响方向和大小，当WOE为正时，变量当前取值对判断个体是否会响应起到的正向的影响，当WOE为负时，起到了负向影响。而WOE值的大小，则是这个影响的大小的体现。
2.ROC、AUC曲线
首先先了解一些混淆矩阵的知识：
TP（True Positive）：将正类样本预测为正类，即真阳性
FP（False Positive）：将负类样本预测为正类，即假阳性
TN（True Negative）：将负类样本预测为负类，即真阴性
FN（False Negative）：将正类样本预测为负类，即假阴性

则精准率（Precision）P=TPTP+FPP=TPTP+FP -----可以理解为从结果看，在所有预测为正类的样本里，预测正确的占比
召回率（Recall）R=TPTP+FNR=TPTP+FN -----可以理解为在原始的正类样本中，被预测正确的样本的占比

假阳性率（False Positive Rate）FPR=FPNFPR=FPN----其中N为样本中负样本的个数

真阳性率（True Positive Rate）TPR=TPPTPR=TPP----其中P为样本中正样本的个数

好吧，原谅我今天才发现一个问题：原来召回率和真阳性率是一样的。。。

举个例子
假设一个医院有10位疑似癌症患者，其中有3位很不幸确实患了癌症（P=3）,另外7位不是癌症患者（N=7）,医院对这10位疑似患者进行诊断，诊断出3为癌症患者，其中有2位是真正的患者（TP=2）,那么真阳性率为TPR=TPP=23TPR=TPP=23，对于七位非癌症患者而言，有1位很不幸被误诊为癌症患者（FP = 1）。
那么假阳性率为FPR=FPN=17FPR=FPN=17，那么对于“医院”这个分类器来说，这组结果就对应ROC曲线上的一个点(23,17)(23,17)。

AUC曲线就是ROC曲线下方的面积大小，该值能够量化地反映出基于ROC曲线衡量出的模型性能。计算AUC值只需要沿着ROC曲线横轴做积分就可以了。由于ROC曲线一般都在曲线y=xy=x的上方，因此AUC的值一般都在0.5--1之间，AUC值越大，说明分类器越可能把真正的正样本排在前面，分类性能就越好。
3.K-S指标
作为一个模型，我们当然希望这个模型能够帮我们挑选到最多的好客户，同时不要放进来那么多坏客户。K-S值就是一个这样思路的指标。比如，在完成一个模型后，将测试模型的样本平均分成10组，以好样本占比降序从左到右进行排列，其中第一组的好样本占比最大，坏样本占比最小。这些组别的好坏样本占比进行累加后得到每一组对应的累计的占比。好坏样本的累计占比随着样本的累计而变化（图中Good/Bad两条曲线），而两者差异最大时就是我们要求的K-S值（图中比较长的直线箭头的那个位置）。

KS值的取值范围是[0，1]。通常来说，值越大，表明正负样本区分的程度越好。一般，KS值>0.2就可认为模型有比较好的预测准确性。
4.GINI系数
还记得经济学中那个著名的基尼系数吗？下图应该可以让你回忆起来。将一个国家所有的人口按最贫穷到最富有进行排列，随着人数的累计，这些人口所拥有的财富的比例也逐渐增加到100%，按这个方法得到图中的曲线，称为洛伦兹曲线。基尼系数就是图中A/B的比例。可以看到，假如这个国家最富有的那群人占据了越多的财富，贫富差距越大，那么洛伦茨曲线就会越弯曲，基尼系数就越大。

同样的，假设我们把100个人的信用评分按照从高到低进行排序，以横轴为累计人数比例，纵轴作为累计坏样本比例，随着累计人数比例的上升，累计坏样本的比例也在上升。如果这个评分的区分能力比较好，那么越大比例的坏样本会集中在越低的分数区间，整个图像形成一个凹下去的形状。所以洛伦兹曲线的弧度越大，基尼系数越大，这个模型区分好坏样本的能力就越强。