风控评分卡

  • 一.评分卡的模型选择
    • 1.直观理解
    • 2.数学角度
  • 二.WOE
  • 三.IV值
  • 四.WOE和IV值的比较
  • 五.评分值计算

一.评分卡的模型选择

1.直观理解

评分卡模型一般会选择线性模型,logistic回归是一种广义线性模型,评分卡中使用的就是logistic回归,为什么要用逻辑回归模型?
Logistic回归相关知识:十一.Logistic回归原理
logisti函数曲线图:

当自变量趋近于无穷大或者无穷小时,因变量趋近于0或1,也就是说映射区间(0,1)。
银行决定是否给个人或企业贷款的关键因素是对未来违约概率的预测,而逻辑回归能将特征信息投射到一个概率区间。可以将客户的特征信息(如婚姻、年龄、历史以往信贷表现等)综合起来并转化为一个概率值,该值给银行预测客户好坏提供了一个直观依据。

2.数学角度

评分卡中不直接用客户违约率p,而是用违约概率与正常概率的比值,称为Odds,即:
O d d s = p 1 − p Odds=\frac{p}{1-p} Odds=1−pp​
将logistic回归的公式进行变换后可得:
p = 1 1 + e − θ T x ⇒ 1 − p p = e − θ T x ⇒ θ T x = ln ⁡ p 1 − p p=\frac{1}{1+e^{-\theta^{T}x}}\Rightarrow \frac{1-p}{p}=e^{-\theta^{T}x}\Rightarrow \theta^{T}x=\ln \frac{p}{1-p} p=1+e−θTx1​⇒p1−p​=e−θTx⇒θTx=ln1−pp​
综上,可得:
θ T x = ln ⁡ ( O d d s ) \theta^{T}x=\ln (Odds) θTx=ln(Odds)
Odds可以和logistic的预测值无缝结合,评分卡的背后逻辑就是Odds的变动与评分变动的映射。

二.WOE

在制作评分卡的过程中,通常会将连续变量离散化,即分箱,再计算每个分箱的WOE值。
WOE全称是Weight of Evidence,即证据权重,是对自变量的一种编码。
计算公式如下:
W O E i = ln ⁡ ( B a d i B a d T / G o o d i G o o d T ) WOE_{i}=\ln(\frac{Bad_{i}}{Bad_{T}}/\frac{Good_{i}}{Good_{T}}) WOEi​=ln(BadT​Badi​​/GoodT​Goodi​​)
其中, B a d i Bad_{i} Badi​为第i个分箱中的坏样本数量, B a d T Bad_{T} BadT​为整体的坏标签数量。也就是说,第i个分箱的WOE值为本组坏样本率除以本组好样本率的比值取对数。
假设有500个样本,好样本400个,坏样本100个,分箱为5组,每组有100个样本。则WOE计算结果如下:

可以看到WOE越大,bad rate越高,也就是说,通过WOE变换,特征值不仅仅代表一个分类,还代表了这个分类的权重。
WOE值本身是连续的,那么为什么要对将连续值分箱后再进行WOE转换呢?
有时候,连续数据和最终评分ln(Odds)的关系是非线性的,从上边可以看出,WOE和Odds是线性的,以Give Me Some Credit中的特征列年龄为例,年龄段和违约率的关系是钟形曲线,非线性的,因此,年龄不能直观的表明和违约率的关系。将年龄进行WOE分箱后,WOE的值和违约率是线性的。

三.IV值

IV的全称是Information Value,中文意思是信息价值,或者信息量。它是评分卡模型中最常用来进行特征筛选的值,计算公式如下:
I V = ∑ i n ln ⁡ ( B a d i B a d T − G o o d i G o o d T ) W O E i IV=\sum_{i}^{n}\ln (\frac{Bad_{i}}{Bad_{T}}-\frac{Good_{i}}{Good_{T}})WOE_{i} IV=i∑n​ln(BadT​Badi​​−GoodT​Goodi​​)WOEi​
其中,i代表该特征的第i个分箱。
IV值越大,说明变量对预测结果影响越大,通常选择0.2以上IV值的特征作为入模变量。

四.WOE和IV值的比较

变量各分组的WOE和IV都隐含着这个分组对目标变量的预测能力这样的意义。那我们为什么不直接用WOE相加或者绝对值相加作为衡量一个变量整体预测能力的指标呢?
类似于决策树种的信息增益和信息增益比,IV在WOE的前面乘以了一个系数,而这个系数很好的考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对变量整体预测能力的贡献越低。相反,如果直接用WOE的绝对值加和,会得到一个很高的指标,这是不合理的。

五.评分值计算

S c o r e = A − B × ln ⁡ ( O d d s ) Score=A-B\times\ln (Odds) Score=A−B×ln(Odds)
其中,A、B为常量,要计算这两个常量,需要提前预设两个值:
1.基准分 P 0 P_{0} P0​:基准率Odd为 θ 0 \theta_{0} θ0​时的分数。
2.PDO: θ 0 \theta_{0} θ0​翻倍时,分数的变动值。
由上边两个预设可知:
P 0 = A − B × ln ⁡ θ 0 P 0 − P D O = A − B × ln ⁡ 2 θ 0 P_{0}=A-B\times\ln \theta_{0}\\ P_{0}-PDO=A-B\times\ln 2\theta_{0} P0​=A−B×lnθ0​P0​−PDO=A−B×ln2θ0​
连理上两式,可得:
A − B × ln ⁡ θ 0 − P D O = A − B × ln ⁡ 2 θ 0 ⇒ P D O = B × ( ln ⁡ 2 θ 0 − ln ⁡ θ 0 ) ⇒ B = P D O ln ⁡ A = P 0 + B ln ⁡ θ 0 A-B\times\ln \theta_{0}-PDO=A-B\times\ln 2\theta_{0}\Rightarrow PDO=B\times(\ln 2\theta_{0}-\ln \theta_{0} )\\ \Rightarrow B=\frac{PDO}{\ln}\\ A=P_{0}+B\ln \theta_{0} A−B×lnθ0​−PDO=A−B×ln2θ0​⇒PDO=B×(ln2θ0​−lnθ0​)⇒B=lnPDO​A=P0​+Blnθ0​
在实际求解过程中:
S c o r e = A − B ( θ 0 + θ 1 x 1 + . . . + θ n x n ) Score=A-B(\theta_{0}+\theta_{1}x_{1}+...+\theta_{n}x_{n}) Score=A−B(θ0​+θ1​x1​+...+θn​xn​)
其中, x i x_{i} xi​是特征经过WOE编码的入模变量,单项可以表示为:
( θ i w i j ) δ i j (\theta_{i}w_{ij})\delta_{ij} (θi​wij​)δij​
w i j w_{ij} wij​为第i个特征的第j个分箱值, δ i j \delta_{ij} δij​为0、1的逻辑变量,当:
δ i j = 1 \delta_{ij}=1 δij​=1时,代表第i个特征取第j个分箱。
δ i j = 0 \delta_{ij}=0 δij​=0时,代表第i个特征不取第j个分箱。
最终,针对每个样本 X X X,分数值的计算为:
S c o r e = A − B { θ 0 + ( θ 1 w 11 ) δ 11 + ( θ 1 w 12 ) δ 12 + . . . + . . . . . . . . . . . + . . . + ( θ n w n 1 ) δ n 1 + ( θ n w n 2 ) δ n 2 + . . . } Score=A-B\begin{Bmatrix} \theta_{0}\\ +(\theta_{1}w_{11})\delta_{11}+(\theta_{1}w_{12})\delta_{12}+...\\ +...........+... \\ +(\theta_{n}w_{n1})\delta_{n1}+(\theta_{n}w_{n2})\delta_{n2}+... \end{Bmatrix} Score=A−B⎩⎪⎪⎨⎪⎪⎧​θ0​+(θ1​w11​)δ11​+(θ1​w12​)δ12​+...+...........+...+(θn​wn1​)δn1​+(θn​wn2​)δn2​+...​⎭⎪⎪⎬⎪⎪⎫​

四十六.风控评分卡模型关键点理解相关推荐

  1. python金融风控评分卡模型和数据分析

    python金融风控评分卡模型和数据分析微专业课(博主录制):http://dwz.date/b9vv 作者Toby:持牌照消费金融模型专家,和中科院,中科大教授保持长期项目合作:和同盾,聚信立等外部 ...

  2. python金融风控评分卡模型

    python金融风控评分卡模型和数据分析微专业课(博主录制): [ http://dwz.date/b9vv ](https://study.163.com/series/1202875601.htm ...

  3. python金融风控评分卡模型和数据分析(加强版)-收藏

    信用评分卡 信用评分是指根据银行客户的各种历史信用资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客户按时还款的可能性,据此决定是否给予授信以及授信的额度和 ...

  4. 【正点原子FPGA连载】第四十六章SD卡读写测试实验 -摘自【正点原子】新起点之FPGA开发指南_V2.1

    1)实验平台:正点原子新起点V2开发板 2)平台购买地址:https://detail.tmall.com/item.htm?id=609758951113 2)全套实验源码+手册+视频下载地址:ht ...

  5. 信贷风控评分卡模型(上)_Give Me Some Credit(技术实现过程)

    本帖是在2019年5月初入门python之时,选取的较为系统的练手案例,主要内容是信用风险计量体系之主体评级模型的开发过程(可用"四张卡"来表示,分别是A卡.B卡.C卡和F卡). ...

  6. 风控评分卡模型——逻辑回归

    目录 1.评分卡模型解释 2.探索性数据分析 3.数据预处理 4.构建逻辑回归模型 数据集:数据 1.评分卡模型解释 一个用户总的评分等于基准分加上对客户各个属性的评分.客户评分=基准分+年龄评分+性 ...

  7. 【模型开发】构建风控评分卡模型介绍(WOE/KS/ROC)

    原文链接:https://blog.csdn.net/htbeker/article/details/79697557 需要数据分析.风控评分卡等相关数据.代码,请添加qq群:102755159,或留 ...

  8. 构建风控评分卡模型介绍(WOE/KS/ROC)

    完整代码请关注公众号回复"评分卡"获得. 有酒有风 什么是评分卡(信贷场景中) 以分数的形式来衡量风险几率的一种手段 对未来一段时间内违约/逾期/失联概率的预测 通常评分越高越安全 ...

  9. 基于Python的信用评分卡模型-give me some credit数据集,AUC 0.93 KS 0.71

    信用风险计量模型可以包括跟个人信用评级,企业信用评级和国家信用评级.人信用评级有一系列评级模型组成,常见是A卡(申请评分卡).B卡(行为模型).C卡(催收模型)和F卡(反欺诈模型). 今天我们展示的是 ...

最新文章

  1. jquery mobile的a标签点击无法跳转的问题
  2. vmware redhat5.4 磁盘阵列 RIDA
  3. pythonfile操作教程_Python基础教程之文件操作
  4. python连接服务器代码_python服务器端收发请求的实现代码
  5. consul配置参数大全、详解、总结
  6. [error] error while loading Consumer, class file '/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.25-5.b18.fc2
  7. JS中popup.js
  8. c语言乘法表 m*(9-i),C语言做九九乘法表.doc
  9. integer 转int类型 java_Java数据类型中String、Integer、int相互间的转换
  10. 烧光86亿元,还是没造出来车!拜腾“造车梦”断?
  11. powershell 压缩_如何使用PowerShell返回数据使用,索引压缩和行信息
  12. Android Bitmaps缓存
  13. 【C++_typedef_疑难定义收集整理】
  14. 1500个前端开发常用JavaScript特效
  15. 基于arduino WS2812b RGB灯带控制程序一
  16. java运行环境搭建_java的运行环境
  17. 手把手 VM虚拟机安装deepin系统
  18. 我的世界服务器显示空岛等级,我的世界空岛指令
  19. Learning without Forgetting 详解(LwF)
  20. 华科图书情报专硕考研复试与读研

热门文章

  1. 毕业后成为大厂职业游戏建模师?门槛高不高,一看就知道
  2. Qt开发奇葩问题总集
  3. 袁素文_拔剑-浆糊的传说_新浪博客
  4. 25 个漂亮的体育运动网站的设计
  5. Devices STATUS Processing
  6. canpcb阻抗_PCB阻抗匹配与0欧电阻设计说明
  7. 论文成功写作技巧之行之有效的写作从“结果”开始(下)
  8. vue数组去重 数组对象去重
  9. 共享内存的创建和映射shmget()和shmat()
  10. 网页视频之MP4文件解析