导语:WOE值的深度理解与应用看这一篇就够啦!!!

关注“金科应用研院”,回复“礼包”
领取风控资料合集

WOE是什么?

WOE,全称是“Weight of Evidence”,翻译过来就是证据权重,是对于字符型变量的某个值或者是连续变量的某个分段下的好坏客户的比例的对数。

实际的应用会将原始变量对应的数据替换为应用WOE公式后的数据,也称作WOE编码或者WOE化。

WOE编码需要首先将这个变量分组处也就是分箱。一般选择使用均匀分箱,离散型数据分箱个数就是该数据的数据类别个数,连续型数据一般会使用6组,尽可能均分。对某一变量分完组后,假设第i组下的数据的WOE的计算公式为:

这个第i组的WOE,其中Bi表示这一组的风险客户,BT表示这一样本总的风险客户,Gi表示这一组的正常客户,也就是无风险客户,GT表示这样本总的正常客户。

所以WOE就是将风险客户在所有风险客户的比例和正常客户在所有正常客户的比例,这两者做比,衡量的是两者的差异,再取对数,两者差异越大,对风险客户区分越明显。

我们也如果对这个公式做个分子分母的变换,就可以得到:

变换后我们也可以这样去理解WOE的含义,它表示的是当前这个组中风险的客户和正常客户的比值,和总体数据集中对应的这个比值的差异。这个差异是用这两个比值的比值,再取对数来表示的。

使用示例

以借贷场景下的信用评分卡的建模场景为例:X是客户样本字段,Y表示客户逾期与否,其中Y=1代表逾期,Y=0代表未逾期。我们希望能用客户已知的信息来预测客户借款后发生逾期的概率,以此来决定是否放贷。

下面我们拿Age(年龄)这个变量来计算woe值。

1.首先对每个level分层统计:

2.计算各分层的好坏客户占比:

3.最后通过好坏客户占比完成WOE化:

统计上看WOE的本质为正常客户分布与不良客户分布的对数似然比。WOE越大,差异越大,这个分组里的样本为风险客户的可能性就越大,WOE越小,差异越小,这个分组里的样本中含有的风险客户的可能性就越小。

WOE反应的是逻辑回归中的比例,但WOE只考虑了对风险客户的区分的能力,但没有考虑能区分的申请人有多少。

所以这里引出一个IV值的概念,IV值就考虑了这个变量能够区分风险客户的数量,如果各位感兴趣,我们会根据阅读数和转发数在下篇专门介绍IV值以及利用WOE和IV值处理数据的详细案例以帮助各位更好的理解业务场景。

WOE使用场景

在对变量处理的可以WOE化也可以不做WOE化,但是在小额贷款的风控模型中,如果对变量离散化后不做WOE化处理,一般会将离散变量或者一些类别变量做成哑变量。做成哑变量而不是直接用离散化后的变量是因为离散化之后的变量很难知道各个组之间的数量关系。

比如组别分成三组,也许可以直接赋1、2、3的数量关系,但是这个数量关系仅仅表示顺序,他们之间实质性的数值间隔你是不知道的。一个特征变量的每个类别都对应一个WOE值。比如例子引用中的年龄变量划分了3个变量,对应的有3个WOE值。

所以在变量离散化后不能直接使用,但是WOE化之后就可以直接使用,是因为WOE化之后,组与组之间数值未知的情况就解决了。如果参考逻辑回归模型,会发现WOE和逻辑回归是公式是类似的,有很紧密的关系。

WOE的好处

解释性强,前文所说的变量做成哑变量,实际上就是将变量拆开了,数量关系仅仅表示数据,无法表示数量关系。

可以观察出变量的分布情况,选择符合实际情况分布的数据。

WOE化后的变量值是有正负之分的,也就能从数据上看出来哪些是正向的,哪些的负向的。WOE值的大小就是这种影响的程度。

原始指标数据中可能蕴含着某些非线性的信息,如果没有对变量进行WOE化,数据直接使用,会导致这些非线性的信息无法表达,从而降低准确性。

如果你喜欢、想要看更多的干货类型的文章,关注公号【金科应用研院】并设为星标

风控算法知识——WOE值的深度理解与应用相关推荐

  1. 风控算法知识——浅谈信息熵与IV值应用介绍

    此前我们讨论了WOE值以及应用场景,而提到了WOE值,就不得不再提出IV值,IV值公式的形成来源于信息熵,公式形式是类似的,只是具体的计算不一样.传送门:<风控算法知识--WOE值的深度理解与应 ...

  2. 算法知识讲座--山东大学(威海)机信学院副院长贺红教授

    算法知识讲座--山东大学(威海)机信学院副院长贺红教授 11月4日晚7点,我俱乐部指导老师机电与信息工程学院副院长贺红教授应邀在电子楼101实验室为CSDN高校俱乐部的会员们进行了算法基础知识讲座.这 ...

  3. 风控算法最常见的知识WOE讲解!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:桔了个仔,南洋理工大学,Datawhale成员 想起刚入门风控时, ...

  4. 互联网金融风控面试算法知识(一)

    资料来源于网络搜集和汇总,把算法知识的总结放在业务知识后面也是为了说明实际工作业务落地应用的重要性大于算法创新.面试题依然是适用于3年经验以内的初学者,希望大家在学习算法的同时不要一心只研究算法而脱离 ...

  5. 互联网金融风控面试算法知识(三)

    资料来源于网络搜集和汇总,把算法知识的总结放在业务知识后面也是为了说明实际工作业务落地应用的重要性大于算法创新.面试题依然是适用于3年经验以内的初学者,希望大家在学习算法的同时不要一心只研究算法而脱离 ...

  6. 互联网金融风控面试算法知识(二)

    资料来源于网络搜集和汇总,把算法知识的总结放在业务知识后面也是为了说明实际工作业务落地应用的重要性大于算法创新.面试题依然是适用于3年经验以内的初学者,希望大家在学习算法的同时不要一心只研究算法而脱离 ...

  7. 快速平方根倒数算法深度理解

    快速平方根倒数算法深度理解 快速平方根倒数算法是什么? 简单来说这个算法避开了开方和除法运算快速实现了 y = 1 x y= \frac{1}{\sqrt x} y=x ​1​ 快速平方根倒数算法首次 ...

  8. 知识图谱学习笔记-风控算法介绍

    一.风控算法的评估 1.搭建风控模型 数据(KG)-特征工程-模型 特征工程: 申请人相关特征:年龄.收入.工作性质等等 从知识图谱提取出的特征: 1)从规则提取出来的特征:申请人是不是第一次借款(0 ...

  9. 【华为云技术分享】深度理解AI概念、算法及如何进行AI项目开发

    莫衷一是的AI 做了多年的业务工作,一直希望能够用机器代替人力,把人从繁琐的具体工作中解放出来,从技术发展看AI或许可以支撑实现这个愿景. 但最近关于AI的讨论和争论比较多,学术上,纽约大学的Gary ...

最新文章

  1. MathType如何设置标尺的单位
  2. 中国联通沈阳互联网数据中心
  3. 数据从程序中传入到form中
  4. 小议IndexedDB中的主要对象
  5. 获取socket对应的接收缓冲区中的可读数据量
  6. win10可用空间变成未分配_系统C盘磁盘空间不够用的解决办法
  7. 拷贝网页内容增加版权信息的 JavaScript 代码示例
  8. 天翼校园客户端“中毒”,江苏、广东、湖南成重灾区
  9. MAC 浏览器长截屏 滚动截屏
  10. 移动中兴ZXV10 B860AV2.1-A_S905L2_MT7668_线刷固件包
  11. 十年程序人生——黎活明给程序员的忠告
  12. 模拟一个简单的购房商贷月供计算器,按照总利息和每月还款金额
  13. 面试题-实现数组map方法
  14. [Android开发] ButterKnife8.5.1 使用方法教程总结
  15. 【游戏开发创新】手把手教你使用Unity制作一个高仿酷狗音乐播放器,滨崎步,旋律起,爷青回(声音可视化 | 频谱 | Audio)
  16. js中的强制类型转换和进制数表达
  17. Windows安装NetCat
  18. 光速不变原理与狭义相对论的关系——思想实验推导狭义相对论(一)
  19. Servlet[SpringMVC]的Servlet.init()引发异常
  20. 一个简单的判断三角形形状的C程序

热门文章

  1. C语言中指针的基类型,c – 将指针从一种基类型转换为另一种基类型
  2. php使用cookie获取浏览记录,php 使用COOKIE制作浏览记录_PHP教程
  3. concurrentarraylist_java多线程学习七::::并发下ArrayList和HashMap
  4. 设计一个矩形类rectangle_使用Python super()为您的类增强
  5. 回调函数例子_Linux C - C基础篇八(函数)
  6. python建立字典的程序_Python中如何创建字典Dict
  7. python安卓自动化原理_appium---appium自动化原理
  8. html两个字段自动相加,HTML_两个并列的div让其根据内容自动保持同等高度,我们看下下面这个问题:有左 - phpStudy...
  9. oracle+dblink不管用,oracle dblink问题
  10. 计算机网络设计 pdf,计算机网络教学设计.pdf