目录

一 WOE

1.1 概念

1.2 样例

二 IV

2.1 概念

2.2 样例

三 参考材料


IV和WOE通常是用在对模型的特征筛选,在模型刚建立时,选择的变量往往比较多,这个时候就需要有一种方法来帮助我们衡量什么变量应该进入模型什么变量应该舍弃,IV和WOE就可以帮助我们进行衡量。对于一个变量来说,我们考虑该变量是否可以加入预测一般可以考虑以下五个因素:(1)变量的预测能力(2)变量的鲁棒性(3)变量在业务上的可解释性(4)变量的生成难度(5)变量之间的相关性。

对于上述的第一点,就可以用IV和WOE值来进行判断,值越大就表示预测能力越强。计算WOE和IV是评分卡模型的一个重要环节,比如判断用户收入对用户是否会发生逾期的预测强度。这两个值有两个方面的应用:

           1.指导变量离散化。在建模过程中,时常需要对连续变量进行离散化处理,如将年龄进行分段。但是变量不同的离散化结果(如:年龄分为[0-20]还是[0-15])会对模型产生不同影响。因此,可以根据指标所反应的预测强度,调整变量离散化结果。(对一些取值很多的分类变量,在需要时也可以对其进行再分组,实现降维。)

           2.变量筛选。我们需要选取比较重要的变量加入模型,预测强度可以作为我们判断变量是否重要的一个依据。

接下来看看WOE和IV的计算方法。

一 WOE

1.1 概念

WOE(Weight Of Evidence)用来衡量变量的预测强度,要使用WOE的话,首先要对变量进行分箱,分箱之后,对于其中第i组的WOE值公式如下:

其中,表示表示该组中的正例占该组的比例,表示整体的正例占总样本的比例。

1.2 样例

下面用一个例子(该样例取自第三篇参考材料)来说明具体的步骤:

假设现在某个公司举行一个活动,在举行这个活动之前,先在小范围的客户中进行了一次试点,收集了一些用户对这次活动的一些响应,然后希望通过这些数据,去构造一个模型,预测如果举行这次的活动,是否能够得到很好的响应或者得到客户的响应概率之类。

假设我们已经从公司客户列表中随机抽取了100000个客户进行了营销活动测试,收集了这些客户的响应结果,作为我们的建模数据集,其中响应的客户有10000个。另外假设我们也已经提取到了这些客户的一些变量,作为我们模型的候选变量集,这些变量包括以下这些:

  • 最近一个月是否有购买;

  • 最近一次购买金额;

  • 最近一笔购买的商品类别;

  • 是否是公司VIP客户;

假设,我们已经对这些变量进行了离散化,统计的结果如下面几张表所示。

(1) 最近一个月是否有过购买:

(2) 最近一次购买金额:

(3) 最近一笔购买的商品类别:

(4) 是否是公司VIP客户:

我们以其中的一个变量“最近一次购买金额”变量为例:

我们把这个变量离散化为了4个分段:<100元,[100,200),[200,500),>=500元。首先,根据WOE计算公式,这四个分段的WOE分别为:

通过上述表格中的WOE结果,我们可以对这个结果的正负值做一个分析,直观的来看,根据ln函数的特性,就是当这个组中响应样本的比例比总体的响应比例小时为负数,相等时为0,大于时为正数。

有了上述的结果之后,我们可以把这个变量的所有分组的WOE值的绝对值加起来,这个可以在一定程度上表示这个变量的预测能力,但是我们一般的时候不会这么做,因为对于分组中的样本数量相差悬殊的场景,WOE值可能不能很好的表示出这个变量的预测能力,我们一般会用到另一个值:IV值。这个值在计算的时候,比WOE值多考虑了一层该变量下该分组占该变量下所有样本的比例。

二 IV

2.1 概念

IV值的计算公式是在WOE的基础上多乘了一个,还记得是表示该变量的该组中响应的样本占该组样本的比例,表示该变量所有响应样本占该变量所有样本的比例。

2.2 样例

还是继续上面的例子,我们在计算出WOE值之后,其实计算IV值就会简单很多了,接下来把“最后一次购买金额”这个变量的各个分组的IV值都计算出来

把上面的IV1,IV2,IV3,IV4加起来,就是这个变量的IV值,然后把所有变量的IV值都算出来,就可以根据IV值的大小来看出变量的预测能力。

三 参考材料

1. WOE与IV值

2. 用IV和WOE来做特征筛选

3.数据挖掘模型中的IV和WOE详解

【机器学习基础】IV和WOE值相关推荐

  1. 6 机器学习 IV与WOE 分箱 过抽样与欠抽样

    机器学习 1 IV与WOE 1.1 IV IV,Information Value,指的是信息价值或者信息量. IV可以理解为特征筛选的量化指标, 用于衡量数据特征的预测能力或者在模型预测过程中对预测 ...

  2. 学习记录633@python特征筛选之WOE值与IV值

    在使用逻辑回归.决策树等模型算法构建分类模型时,经常需要对特征变量进行筛选.因为有时可能会获得100多个候选特征变量,通常不会直接把这些特征变量放到模型中去进行拟合训练,而是从这些特征变量中挑选一些放 ...

  3. 【推荐系统】WOE、IV、OR值、信息增益、卡方检验

    目录 特征起因 评分卡模型中的IV和WOE详解 信息增益 OR值 卡方检验 GaussRank 高基数数据 特征起因 特征工程综述常看常新 工业级推荐系统中的特征工程 - 杨旭东的文章 - 知乎​​​ ...

  4. 【机器学习基础】非常详细!机器学习模型评估指标总结!

    作者:太子长琴,Datawhale优秀学习者 本文对机器学习模型评估指标进行了完整总结.机器学习的数据集一般被划分为训练集和测试集,训练集用于训练模型,测试集则用于评估模型.针对不同的机器学习问题(分 ...

  5. 特征工程中的IV和WOE详解

    1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量. 我们在用逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行筛选.比如我们有200个候选自变 ...

  6. 风控建模中的IV和WOE

      在风控建模中IV(信息价值)和WOE(证据权重)分别是变量筛选和变量转换中不可缺少的部分.   很多文章已经讨论过这两个变量,本文在吸收前人优秀成果的基础上,希望用通俗易懂的语言让大家快速理解这两 ...

  7. 信用评分的简单小结(ROC,IV,WOE)

    转自:http://chen.yi.bo.blog.163.com/blog/static/150621109201011115616880/ 由于专业的关系,我学习信用评分的时候往往最关注模型那一块 ...

  8. woe分析_特征工程中的IV和WOE详解

    1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量. 我们在用逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行筛选.比如我们有200个候选自变 ...

  9. woe分析_用IV和WOE来做特征筛选

    什么是变量的离散化 变量的离散化就是只抽取出一个变量,分析变量当中的分组与标签的分布情况. 比如对于某个活动客户有响应和不响应的情况(这里的响应与否就是我们的标签),有多个变量: 最近一个月是否有购买 ...

  10. 银行业评分卡制作——IV、WOE

    参考链接:https://blog.csdn.net/kevin7658/article/details/50780391 1.IV的用途 IV的全称是Information Value,中文意思是信 ...

最新文章

  1. 在线作图|2分钟绘制一张环状热图
  2. linux shell 获取字符串最后一个字符 去掉字符串最后一个字符 去掉末尾一个字符 去掉末尾两个字符
  3. 对MIME格式的邮件文件进行解码获取其可读内容和附件等
  4. 学科分类号4个空都填什么_高中英语完形填空的5个解题小技巧,大家都在用
  5. java随机抽题系统_在用java做一个在线考试系统,随机抽题遇到了问题,我写了一个随机抽题的方法,不知道在asp按钮中怎么用...
  6. 怪物刷新时间计时_热血传奇;散人对这类怪物可谓是情有独钟
  7. ORACLE 回收站管理
  8. 玩转运维编排服务的权限:Assume Role+Pass Role
  9. Kafka Shell 基本操作
  10. 1.3使用command-line runners
  11. android把2变成02_【Android】学习札记第2章之数组二(Arrays工具类)
  12. html滑动验证图片,js插件实现图片滑动验证码
  13. java版我的世界MITE怎么下_MITE极限生存模组
  14. 苹果商店上架流程_苹果app上架流程
  15. veu的常用指令(复习使用)
  16. 阿里云 root ssh远程登录 及 普通非root用户 ssh远程登录 Ubuntu1604
  17. 【翻译】代码指针完整性——Code Pointer Integrity
  18. 亚信卸载-无需密码卸载
  19. Alibaba Cloud 3 (Soaring Falcon) x86_64(Py3.7.8) 系统 YUM源
  20. 电影网站站架构(第一版)

热门文章

  1. Vue格式化CSS样式
  2. x86、ARM和MIPS三种主流芯片架构
  3. Servlet 实现上传附件(支持多附件)
  4. 面试必备之反问面试官
  5. java清空表格怎么实现_Java 创建、删除、操作PPT中的表格
  6. 约瑟夫问题MATLAB代码
  7. 约瑟夫问题c语言链表41人,约瑟夫问题 C语言链表实现
  8. 不同品牌路由器无线桥接的设置方法
  9. 移动硬盘计算机无法打开硬盘,移动硬盘打不开怎么办 硬盘打不开解决方法【详解】...
  10. 自动发送企业微信通知,让我来教你真的超简单