一.评分卡的模型选择

1.直观理解

评分卡模型一般会选择线性模型，logistic回归是一种广义线性模型，评分卡中使用的就是logistic回归，为什么要用逻辑回归模型？
Logistic回归相关知识：十一.Logistic回归原理
logisti函数曲线图：

当自变量趋近于无穷大或者无穷小时，因变量趋近于0或1，也就是说映射区间(0,1)。
银行决定是否给个人或企业贷款的关键因素是对未来违约概率的预测，而逻辑回归能将特征信息投射到一个概率区间。可以将客户的特征信息（如婚姻、年龄、历史以往信贷表现等）综合起来并转化为一个概率值，该值给银行预测客户好坏提供了一个直观依据。

2.数学角度

评分卡中不直接用客户违约率p，而是用违约概率与正常概率的比值，称为Odds，即：
O d d s = p 1 − p Odds=\frac{p}{1-p} Odds=1−pp
将logistic回归的公式进行变换后可得：
p = 1 1 + e − θ T x ⇒ 1 − p p = e − θ T x ⇒ θ T x = ln ⁡ p 1 − p p=\frac{1}{1+e^{-\theta^{T}x}}\Rightarrow \frac{1-p}{p}=e^{-\theta^{T}x}\Rightarrow \theta^{T}x=\ln \frac{p}{1-p} p=1+e−θTx1⇒p1−p=e−θTx⇒θTx=ln1−pp
综上，可得：
θ T x = ln ⁡ ( O d d s ) \theta^{T}x=\ln (Odds) θTx=ln(Odds)
Odds可以和logistic的预测值无缝结合，评分卡的背后逻辑就是Odds的变动与评分变动的映射。

二.WOE

在制作评分卡的过程中，通常会将连续变量离散化，即分箱，再计算每个分箱的WOE值。
WOE全称是Weight of Evidence，即证据权重，是对自变量的一种编码。
计算公式如下：
W O E i = ln ⁡ ( B a d i B a d T / G o o d i G o o d T ) WOE_{i}=\ln(\frac{Bad_{i}}{Bad_{T}}/\frac{Good_{i}}{Good_{T}}) WOEi=ln(BadTBadi/GoodTGoodi)
其中， B a d i Bad_{i} Badi为第i个分箱中的坏样本数量， B a d T Bad_{T} BadT为整体的坏标签数量。也就是说，第i个分箱的WOE值为本组坏样本率除以本组好样本率的比值取对数。
假设有500个样本，好样本400个，坏样本100个，分箱为5组，每组有100个样本。则WOE计算结果如下：

可以看到WOE越大，bad rate越高，也就是说，通过WOE变换，特征值不仅仅代表一个分类，还代表了这个分类的权重。
WOE值本身是连续的，那么为什么要对将连续值分箱后再进行WOE转换呢？
有时候，连续数据和最终评分ln(Odds)的关系是非线性的，从上边可以看出，WOE和Odds是线性的，以Give Me Some Credit中的特征列年龄为例，年龄段和违约率的关系是钟形曲线，非线性的，因此，年龄不能直观的表明和违约率的关系。将年龄进行WOE分箱后，WOE的值和违约率是线性的。

三.IV值

IV的全称是Information Value，中文意思是信息价值，或者信息量。它是评分卡模型中最常用来进行特征筛选的值，计算公式如下：
I V = ∑ i n ln ⁡ ( B a d i B a d T − G o o d i G o o d T ) W O E i IV=\sum_{i}^{n}\ln (\frac{Bad_{i}}{Bad_{T}}-\frac{Good_{i}}{Good_{T}})WOE_{i} IV=i∑nln(BadTBadi−GoodTGoodi)WOEi
其中，i代表该特征的第i个分箱。
IV值越大，说明变量对预测结果影响越大，通常选择0.2以上IV值的特征作为入模变量。

四.WOE和IV值的比较

变量各分组的WOE和IV都隐含着这个分组对目标变量的预测能力这样的意义。那我们为什么不直接用WOE相加或者绝对值相加作为衡量一个变量整体预测能力的指标呢？
类似于决策树种的信息增益和信息增益比，IV在WOE的前面乘以了一个系数，而这个系数很好的考虑了这个分组中样本占整体样本的比例，比例越低，这个分组对变量整体预测能力的贡献越低。相反，如果直接用WOE的绝对值加和，会得到一个很高的指标，这是不合理的。

五.评分值计算

S c o r e = A − B × ln ⁡ ( O d d s ) Score=A-B\times\ln (Odds) Score=A−B×ln(Odds)
其中，A、B为常量，要计算这两个常量，需要提前预设两个值：
1.基准分 P 0 P_{0} P0：基准率Odd为 θ 0 \theta_{0} θ0时的分数。
2.PDO： θ 0 \theta_{0} θ0翻倍时，分数的变动值。
由上边两个预设可知：
P 0 = A − B × ln ⁡ θ 0 P 0 − P D O = A − B × ln ⁡ 2 θ 0 P_{0}=A-B\times\ln \theta_{0}\\ P_{0}-PDO=A-B\times\ln 2\theta_{0} P0=A−B×lnθ0P0−PDO=A−B×ln2θ0
连理上两式，可得：
A − B × ln ⁡ θ 0 − P D O = A − B × ln ⁡ 2 θ 0 ⇒ P D O = B × ( ln ⁡ 2 θ 0 − ln ⁡ θ 0 ) ⇒ B = P D O ln ⁡ A = P 0 + B ln ⁡ θ 0 A-B\times\ln \theta_{0}-PDO=A-B\times\ln 2\theta_{0}\Rightarrow PDO=B\times(\ln 2\theta_{0}-\ln \theta_{0} )\\ \Rightarrow B=\frac{PDO}{\ln}\\ A=P_{0}+B\ln \theta_{0} A−B×lnθ0−PDO=A−B×ln2θ0⇒PDO=B×(ln2θ0−lnθ0)⇒B=lnPDOA=P0+Blnθ0
在实际求解过程中：
S c o r e = A − B ( θ 0 + θ 1 x 1 + . . . + θ n x n ) Score=A-B(\theta_{0}+\theta_{1}x_{1}+...+\theta_{n}x_{n}) Score=A−B(θ0+θ1x1+...+θnxn)
其中， x i x_{i} xi是特征经过WOE编码的入模变量，单项可以表示为：
( θ i w i j ) δ i j (\theta_{i}w_{ij})\delta_{ij} (θiwij)δij
w i j w_{ij} wij为第i个特征的第j个分箱值， δ i j \delta_{ij} δij为0、1的逻辑变量，当：
δ i j = 1 \delta_{ij}=1 δij=1时，代表第i个特征取第j个分箱。
δ i j = 0 \delta_{ij}=0 δij=0时，代表第i个特征不取第j个分箱。
最终，针对每个样本 X X X，分数值的计算为：
S c o r e = A − B { θ 0 + ( θ 1 w 11 ) δ 11 + ( θ 1 w 12 ) δ 12 + . . . + . . . . . . . . . . . + . . . + ( θ n w n 1 ) δ n 1 + ( θ n w n 2 ) δ n 2 + . . . } Score=A-B\begin{Bmatrix} \theta_{0}\\ +(\theta_{1}w_{11})\delta_{11}+(\theta_{1}w_{12})\delta_{12}+...\\ +...........+... \\ +(\theta_{n}w_{n1})\delta_{n1}+(\theta_{n}w_{n2})\delta_{n2}+... \end{Bmatrix} Score=A−B⎩⎪⎪⎨⎪⎪⎧θ0+(θ1w11)δ11+(θ1w12)δ12+...+...........+...+(θnwn1)δn1+(θnwn2)δn2+...⎭⎪⎪⎬⎪⎪⎫

四十六.风控评分卡模型关键点理解相关推荐

python金融风控评分卡模型和数据分析
python金融风控评分卡模型和数据分析微专业课(博主录制):http://dwz.date/b9vv 作者Toby:持牌照消费金融模型专家,和中科院,中科大教授保持长期项目合作:和同盾,聚信立等外部 ...
python金融风控评分卡模型
python金融风控评分卡模型和数据分析微专业课(博主录制): [ http://dwz.date/b9vv ](https://study.163.com/series/1202875601.htm ...
python金融风控评分卡模型和数据分析(加强版)-收藏
信用评分卡信用评分是指根据银行客户的各种历史信用资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客户按时还款的可能性,据此决定是否给予授信以及授信的额度和 ...
【正点原子FPGA连载】第四十六章SD卡读写测试实验 -摘自【正点原子】新起点之FPGA开发指南_V2.1
1)实验平台:正点原子新起点V2开发板 2)平台购买地址:https://detail.tmall.com/item.htm?id=609758951113 2)全套实验源码+手册+视频下载地址:ht ...
信贷风控评分卡模型（上）_Give Me Some Credit（技术实现过程）
本帖是在2019年5月初入门python之时,选取的较为系统的练手案例,主要内容是信用风险计量体系之主体评级模型的开发过程(可用"四张卡"来表示,分别是A卡.B卡.C卡和F卡). ...
风控评分卡模型——逻辑回归
目录 1.评分卡模型解释 2.探索性数据分析 3.数据预处理 4.构建逻辑回归模型数据集:数据 1.评分卡模型解释一个用户总的评分等于基准分加上对客户各个属性的评分.客户评分=基准分+年龄评分+性 ...
【模型开发】构建风控评分卡模型介绍（WOE/KS/ROC)
原文链接:https://blog.csdn.net/htbeker/article/details/79697557 需要数据分析.风控评分卡等相关数据.代码,请添加qq群:102755159,或留 ...
构建风控评分卡模型介绍（WOE/KS/ROC)
完整代码请关注公众号回复"评分卡"获得. 有酒有风什么是评分卡(信贷场景中) 以分数的形式来衡量风险几率的一种手段对未来一段时间内违约/逾期/失联概率的预测通常评分越高越安全 ...
基于Python的信用评分卡模型-give me some credit数据集，AUC 0.93 KS 0.71
信用风险计量模型可以包括跟个人信用评级,企业信用评级和国家信用评级.人信用评级有一系列评级模型组成,常见是A卡(申请评分卡).B卡(行为模型).C卡(催收模型)和F卡(反欺诈模型). 今天我们展示的是 ...

四十六.风控评分卡模型关键点理解

风控评分卡