建模常用的概念介绍1: WOE、IV
为了挑选并构造出对目标变量有较高预测力的自变量,需要对变量进行WOE编码,通过IV值的看变量的贡献。
1、WOE(weight of Evidence 证据权重)
1)解释及公式
WOE是对原始自变量的一种编码形式。
要对一个变量进行WOE编码,需要首先把这个变量进行分组处理/离散化处理(等宽切割,等高切割,或者利用决策树来切割)。分组后,对于第i组,WOE的计算公式如下:
其中:pyi为坏样本占所有坏样本的比例,py0好样本占所有好样本的比例;B为坏样本总数,Bi为变量i对应的坏样本个数,G为好样本总数,Gi为变量i对应的好样本个数 ;
注:将模型目标变量y为1记为违约用户(坏样本),对于目标变量为0记为正常用户(好样本)
2)直观字面理解:
WOE表示的实际上是“当前分组中坏客户占所有坏客户的比例”和“当前分组中好客户占所
有坏客户的比例”的差异。转化公式以后,也可以理解为:当前这个组中坏客户和好客户的比值,和所有样本中这个比值的差异。这个差异为这两个比值的比值,再取对数来表示的。
WOE越大,这种差异越大,这个分组里的样本坏样本可能性就越大,WOE越小,差异越小,这个分组里的坏样本可能性就越小。
3)WOE计算案例:
以年龄为某个自变量,由于年龄是连续型自变量,需要对其进行离散化处理,假设离散化分为5组。#bad和#good表示在这五组年龄中好样本和坏样本的数量分布。
当前分组中,坏样本比例越大,WOE值越大
当前分组WOE的正负,由当前分组坏样本和好样本的比例,与样本整体坏样本和好样本的比例的大小关系决定,当前分组的比例小于样本整体比例时,WOE为负,当前分组的比例大于整体比例时,WOE为正,当前分组的比例和整体比例相等时,WOE为0。
WOE的取值范围是全体实数。
WOE其实描述了变量当前这个分组,对判断个体是否属于坏样本所起到影响方向和大小。当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。
4)WOE转化优势:提升模型的预测效果,提高模型的可理解性。
标准化的功能。
WOE编码之后,自变量其实具备了某种标准化的性质,也就是说,自变量内部的各个取值之间都可以直接进行比较(WOE之间的比较)
异常值处理。
一些极值变量,可以通过分组的WOE,变为非异常值
检查变量WOE后与违约概率的关系
一般筛选的变量WOE与违约概率都是单调的,如果出现U型,或者其他曲线形状,则需要重新看下变量是否有问题。
核查WOE变量模型的变量系数出现负值。
如果最终模型的出来的系数出现负值,需要考虑是否出现了多重共线性的影响,或者变量计算逻辑问题。
2、IV(Information Value)信息价值
1)为什么要用IV
在用逻辑回归、决策树等构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。
挑选入模变量过程比较复杂,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。
IV就是用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。
2)如何理解IV
假设在一个分类问题中,目标变量值为1,0。对于一个待预测的个体A,要判断A属于1还是0,需要知道一写特定信息,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量x1,x2,x3,……,xn中,那么,对于其中一个变量xi来说,其蕴含的信息越多,那么它对于判断A属于0还是1的贡献就越大,xi的信息价值就越大,xi的IV就越大,它就越应该进入到入模变量列表中。
3)IV的计算公式
IV的计算基于WOE,可以看成对WOE的加权求和
分组i的IV值计算:
总体的IV:
4)IV和WOE的差别
IV和WOE的差别,就在于IV在WOE基础上乘以一个权重(py1-py0),这个权重也是变量筛选考虑使用IV而非WOE去筛选变量的重要。
woe的取值为实数,含有负数,当我们衡量一个变量的预测能力时,使用的指标的评价一般为正数,比如woe值为-0.5的时候,就不知道如何评价这个指标的好坏。而且总体的WOE值,需要单独设立公式,而不是简单的各个组的WOE值相加。
而iv值,因为有这个(py1-py0)权重系数,保证了变量每个分组的结果都是非负数,可以验证一下,当一个分组的WOE是正数时,权重系数也是正数,当一个分组的WOE是负数时,权重也是负数,而当一个分组的WOE=0时,权重系数也是0。
IV值避免了一个组样本数很小,但Bi/Gi很大,从而WOE很大的情况。这种情况出现时,这组样本其实对整体的解释能力是很弱的,比如举个极端的例子,比如py1、py0均小于0.001,但Bi/Gi很大,比如0.9的情况,这时WOE值很高,但IV值会很小。
5)IV计算案例
对于变量的一个分组,这个分组的坏样本和好样本的比例与样本整体坏样本和好样本的比例相差越大,IV值越大,否则,IV值越小;
极端情况下,当前分组的好样本和坏样本的比例和样本整体的坏样本和好样本的比例相等时,IV值为0;
IV值的取值范围是[0,+∞),且,当当前分组中只包含好样本或坏样本时,IV = +∞,此种情况无任何意义
IV值为+∞处理:
IV其实有一个缺点,就是不能自动处理变量的分组中出现响应比例为0或100%的情况。遇到坏样本比例为0或者100%的情况,建议如下:
如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件;
重新对变量进行离散化或分组,使每个分组的响应比例都不为0且不为100%,尤其是当一个分组个体数很小时(比如小于100个),强烈建议这样做,因为本身把一个分组个体数弄得很小就不是太合理。
如果上面两种方法都无法使用,建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0,可以人工调整响应数为1,如果非响应数原本为0,可以人工调整非响应数为1.
6)IV信息量大小与指标判别力有一个经验的规则:
若IV信息量取值小于0.02,认为该指标对因变量没有预测能力,应该被剔除;
若IV信息量取值在0.02与0.1之间,认为该指标对因变量有较弱的预测能力;
若IV信息量取值在0.1与0.3之间,认为该指标对因变量的预测能力一般;
若IV信息量取值大于0.3,认为该指标对因变量有较强的预测能力。
实际应用时,可以保留IV值大于0.1的指标。
网络参考文章:
http://blog.csdn.net/kevin7658/article/details/50780391
http://blog.sina.com.cn/s/blog_8813a3ae0102uyo3.html
分组变量常规的处理方式除了WOE,还有做dummy变量(哑编码):
3、哑编码
dummy变量是比较顺其自然的操作,例如某个自变量m有3种取值分别为m1,m2,m3,那么可以构造两个dummy变量M1、M2:当m取m1时,M1取1而M2取0;当m取m2时,M1取0而M2取1;当m取m3时,M1取0且M2取0。这样,M1和M2的取值就确定了m的取值。之所以不构造M3变量,是基于信息冗余和多重共线性之类的考虑。但是,构造dummy变量也存在一些缺点,例如无法对自变量的每一个取值计算其信用得分,并且回归模型筛选变量时可能出现某个自变量被部分地舍弃的情况。
建模常用的概念介绍1: WOE、IV相关推荐
- 关于ARM的22个常用概念介绍
导读: 本文简要介绍了ARM的22个常用的概念. 1.ARM中一些常见英文缩写解释 MSB:最高有效位: LSB:最低有效位: AHB:先进的高性能总线: VPB:连接片内外设功能的VLSI外设总线: ...
- Spark入门必读:核心概念介绍及常用RDD操作
导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具有高吞吐.低延时.通用易扩展.高容错等特点.Spark内部提供了丰富的开发库,集成了数据分析引擎Spark SQ ...
- 构建风控评分卡模型介绍(WOE/KS/ROC)
完整代码请关注公众号回复"评分卡"获得. 有酒有风 什么是评分卡(信贷场景中) 以分数的形式来衡量风险几率的一种手段 对未来一段时间内违约/逾期/失联概率的预测 通常评分越高越安全 ...
- Lesson 13.2 模型拟合度概念介绍与欠拟合模型的结构调整策略
一.模型拟合度概念介绍与实验 1.测试集的"不可知"悖论 通过此前课程内容介绍,我们已经知道了机器学习模型主要通过模型在测试集上的运行效果来判断模型好坏,测试集相当于是&quo ...
- [转载]常用CASE工具介绍
[转载]常用CASE工具介绍 转载自:http://www.cnblogs.com/powerlc/archive/2006/01/12/315959.html 一,概述 今天, 代码变得日益简单 ...
- 常用CASE工具介绍
一,概述 今天, 代码变得日益简单, 在Model的指导下, 思想, 设计, 分析都变得异常重要.企业业务建模工具, 产品非常多, 特别是在MDA日益流行的今天. WorkFlow是典型的业务及流程建 ...
- 常用CASE工具介绍 ZZ
常用CASE工具介绍 一,概述 今天, 代码变得日益简单, 在Model的指导下, 思想, 设计, 分析都变得异常重要.企业业务建模工具, 产品非常多, 特别是在MDA日益流行的今天. WorkF ...
- 常用CASE工具介绍 (csnd.net)
常用CASE工具介绍 一,概述 今天, 代码变得日益简单, 在Model的指导下, 思想, 设计, 分析都变得异常重要.企业业务建模工具, 产品非常多, 特别是在MDA日益流行的今天. WorkF ...
- 维度建模的基本概念及过程
维度建模的基本概念及过程 摘要:本文首先介绍维度模型中的维度表和事实表这2个基本构成要素的基础知识:其次,介绍设计维度模型的4个基本步骤:再次,围绕某银行为实现业务价值链数据集成的需要,介绍多维体系结 ...
最新文章
- win7如何设置某个软件不弹出用户账户控制
- 对偶问题(dual problem)
- 【两种解法】Quadtrees UVA - 297(隐式建树+显式建树)
- 下载文章图片 php,PHP下载文章中的图片+处理文章中的字符
- java8 Stream的实现原理 (从零开始实现一个stream流)
- 光流 速度_科学家研制新型“时空波包”激光束 能够以相同速度穿越不同的介质...
- Python分类求和方法
- Python基础之Flask快速入门
- python 苹果笔记本电脑报价_千万别花冤枉钱!大学生买本得这么选!
- C++关键字及其详解
- Save More Mice (贪心 二分)
- windows 屏幕键盘路径
- SQL:开窗函数(窗口函数)
- 一个由SEO优化展开的meta标签大讲解
- 职场邮件的十大忌讳,你犯了吗?
- 什么是NP问题,什么是NP hard问题,什么是NP完全问题。
- (Android)很抱歉,“xx”程序已经停止运行
- javascript-按圆形排列DIV元素(一)---- 分析
- python中arcsec_Python中jpg图像的显示网格
- Java峰值和削峰_架构设计之流量削峰
热门文章
- 计算机通信网络扫描版,2015计算机通信与网络作业.pdf
- 每个前端都需要知道这些面向未来的CSS技术
- 服装检索-DeepFashion
- 知识累积——这些年写过的博文(博客目录索引)
- Infopath入门到精通系列-4 Infopath myschema.xsd文件 解析
- 美国计算机游戏设计专业排名,美国游戏设计专业大学排名TOP5推荐!
- 输入一个字符串,判断其是否是回文。(回文:即正读和反读都一样,如abccba, abccba)
- learn java step by step day14
- 2021计算机保研经历(清软, 北深, 浙大, 南大, 中科大, 北航, 哈深, 南开, 华科, 武大, 中大)
- M-K趋势检验以及突变检验