• WOE

WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。

要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)。分组后,对于第i组,WOE的计算公式如下:

其中,pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例,#yi是这个组中响应客户的数量,#ni是这个组中未响应客户的数量,#yT是样本中所有响应客户的数量,#nT是样本中所有未响应客户的数量。

从这个公式中我们可以体会到,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。

对这个公式做一个简单变换,可以得到:

变换以后我们可以看出,WOE也可以这么理解,他表示的是当前这个组中响应的客户和未响应客户的比值,和所有样本中这个比值的差异。这个差异是用这两个比值的比值,再取对数来表示的。WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大,WOE越小,差异越小,这个分组里的样本响应的可能性就越小。

  • IV

对于一个分组后的变量,第i 组的WOE前面已经介绍过,是这样计算的:

同样,对于分组i,也会有一个对应的IV值,计算公式如下:

有了一个变量各分组的IV值,我们就可以计算整个变量的IV值,方法很简单,就是把各分组的IV相加:

其中,n为变量分组个数。

  • 为什么用IV而不是直接用WOE

IV和WOE的差别在于IV在WOE基础上乘以的那个,我们暂且用pyn来代表这个值。

第一个原因,当我们衡量一个变量的预测能力时,我们所使用的指标值不应该是负数,否则,说一个变量的预测能力的指标是-2.3,听起来很别扭。从这个角度讲,乘以pyn这个系数,保证了变量每个分组的结果都是非负数,你可以验证一下,当一个分组的WOE是正数时,pyn也是正数,当一个分组的WOE是负数时,pyn也是负数,而当一个分组的WOE=0时,pyn也是0。

第二个原因,上面的原因不是最主要的,因为其实我们上面提到的这个指标也可以完全避免负数的出现。

更主要的原因就在于IV在WOE的前面乘以了一个系数,而这个系数很好的考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对变量整体预测能力的贡献越低。相反,如果直接用WOE的绝对值加和,会得到一个很高的指标,这是不合理的。

  • IV的极端情况以及处理方式

IVi无论等于负无穷还是正无穷,都是没有意义的。

由上述问题我们可以看到,使用IV其实有一个缺点,就是不能自动处理变量的分组中出现响应比例为0或100%的情况。那么,遇到响应比例为0或者100%的情况,我们应该怎么做呢?建议如下:

(1)如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件;

(2)重新对变量进行离散化或分组,使每个分组的响应比例都不为0且不为100%,尤其是当一个分组个体数很小时(比如小于100个),强烈建议这样做,因为本身把一个分组个体数弄得很小就不是太合理。

(3)如果上面两种方法都无法使用,建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0,可以人工调整响应数为1,如果非响应数原本为0,可以人工调整非响应数为1.

WOE编码和IV信息量相关推荐

  1. python评分卡建模-实现WOE编码及IV值计算

    在往期的文章中,小编多次写到过WOE和IV值的内容,也贴过相关的SAS代码,感兴趣的同学可以翻阅历史消息.这篇文章就不多介绍WOE及IV值的概念,主要讲讲怎么用python实现WOE编码和IV值的计算 ...

  2. 金融风控--申请评分卡模型--特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融风

    金融风控-->申请评分卡模型-->特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融 ...

  3. 金融风控-- >申请评分卡模型-- >特征工程(特征分箱,WOE编码)

    这篇博文主要讲在申请评分卡模型中常用的一些特征工程方法,申请评分卡模型最多的还是logsitic模型. 先看数据,我们现在有三张表: 已加工成型的信息: Master表 idx:每一笔贷款的uniqu ...

  4. 学习记录633@python特征筛选之WOE值与IV值

    在使用逻辑回归.决策树等模型算法构建分类模型时,经常需要对特征变量进行筛选.因为有时可能会获得100多个候选特征变量,通常不会直接把这些特征变量放到模型中去进行拟合训练,而是从这些特征变量中挑选一些放 ...

  5. 数据分析岗笔试知识点总结

    1,箱形图的基本概念 箱形图(盒形图.盒须图)的理解:https://blog.csdn.net/symoriaty/article/details/93978817 箱形图三种中Q1 Q2 Q3的计 ...

  6. 6 机器学习 IV与WOE 分箱 过抽样与欠抽样

    机器学习 1 IV与WOE 1.1 IV IV,Information Value,指的是信息价值或者信息量. IV可以理解为特征筛选的量化指标, 用于衡量数据特征的预测能力或者在模型预测过程中对预测 ...

  7. python sklearn 归一化_数据分析|Python特征工程(5)

    OX00 引言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的地位.在实际应用当中,可以说特征工程是机器学习成功的关键. 特征做不好,调 ...

  8. ​特征工程系列:特征预处理(上)

    特征工程系列:特征预处理(上) 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机器学习的上限,而模 ...

  9. 第四章 数据的预处理与特征构建(续)

    申请评分卡模型 数据的预处理与特征构建(续) 课程简介:逻辑回归模型的特征需要是数值型,因此类别型变量不能直接放入模型中去,需要对其进行编码.此外,为了获取评分模型的稳定性,建模时需要对数值型特征做分 ...

  10. T检验、F检验、卡方检验、互信息法及机器学习应用

    1.T检验 目的:主要是为了比较数据样本之间是否具有显著性的差异.主要通过样本均值的差异进行检验,判断差异性. 前置条件:样本服从正态分布:各样本间独立. 适用:小样本(n<30); 定量数据检 ...

最新文章

  1. Mysql InnoDB索引分析
  2. java url下载ics_使用Microsoft Graph API处理外部(Internet / .ics)日历URL
  3. 幸运三角形 南阳acm491(dfs)
  4. 自旋锁/互斥锁/读写锁/递归锁的区别与联系
  5. 系统结构图 数据结构_数据结构图简介
  6. 逻辑斯蒂回归java_机器学习 (五)逻辑斯蒂回归
  7. Debug学习资源汇总
  8. IPTV的QoE评价方法
  9. Windows下AndroidStudio 中使用Git(AndroidStudio项目于GitHub关联)
  10. C/C++结构体语法总结
  11. android生成系统应用签名
  12. 2021基于vscode以及jlink调试esp32最新
  13. 计算机系统组成思维导图
  14. 十分钟开发出神经网络五子棋(二)
  15. 在electron应用中检测网络
  16. 卸载 AutoCAD 清理注册表
  17. 阿里云服务器 smtpClient发送邮件问题
  18. 明星热图|王嘉尔、刘诗诗代言新品牌;王一博、周笔畅、刘恺威出席活动;吴彦祖、黄晓明演绎品牌大片...
  19. js动态删除表格中的某一行
  20. 面对200多人演讲是一种什么体验?

热门文章

  1. 上海交通大学2004年数学分析考研试题
  2. 重装系统win10安装教程(超详细)
  3. 取整函数 --- 以Python为例
  4. icePDF去水印方法
  5. 服务器备份软件cwRsync
  6. 通过 百度网盘 分享文件
  7. iosem.us app install nds.html,夭寿啦!用NDS4iOS无需越狱即可在iOS玩NDS游戏
  8. java读取pdf文档
  9. 运算放大器之开环增益
  10. matlab柱状图的绘制及数值的标注