什么是变量的离散化

变量的离散化就是只抽取出一个变量,分析变量当中的分组与标签的分布情况。

比如对于某个活动客户有响应和不响应的情况(这里的响应与否就是我们的标签),有多个变量:

最近一个月是否有购买;

最近一次购买金额;

最近一笔购买的商品类别;

是否是公司VIP客户;

那么我们每次取一个变量进行对其下分组的不同标签数目进行统计如下:

变量的离散化实例

数据挖掘当中的IV和WOE详解

IV就是information value,也就是信息量。我们可以这么理解,就是我们在预测A是属于Y1类还是Y2类的时候,需要有一部分的判断信息,这部分信息是来自于变量

,那么其中有一些变量是对预测具有比较大的贡献的,那么我们就说这一部分的自变量的信息量很大。因此我们想找出这部分自变量是哪些?之后我们可以把这些重要的特征传入到模型进行训练。IV就是用来定量衡量这一部分信息量大小的变量。其中IV是以WOE为基础的。

WOE

WOE的全称是“weight of evidence”,也就是证据权重。对某个离散型变量而言,具有不同的值,我们按照这些不同的值对不同标签数量进行分组就是分箱操作。对于某个分组WOE的计算公式如下:

在这里i代表该分组的序号,y代表yes,也就是有响应或者说标签为1的;n代表no,也就是无响应或者说标签为0的。T代表Total。这里的意义就是该分组有响应的客户占总的有响应客户的百分比,除以对应该分组无响应占总的百分比。其数值反映出该分组有响应与无响应情况跟总体的差异情况,比如说年龄段为[60, 80]的买保险的比例有80%,而总体各个年龄段买保险的人数只有50%,那么这个分组下响应情况与总体的响应情况差异就会很大,

这个值也会很大。

还可以写成

也就是该分组有响应和无响应的比例,与总体有响应和无响应的比例的比值。

IV的计算

IV的计算是在WOE前面加上

,也就是该分组有响应和无响应占总体比例的差值。

关于计算的实例可以参考这个链接。这是该分组的IV值,而该变量所有分组的IV值总和加起来就得到了该变量的IV值。

关于为什么用IV而不用WOE

WOE有正有负值,IV的正负与WOE的正负是相同的,乘积保证是正值,否则直接将WOE值加起来会正负抵消掉。

IV值前面的

其实反映出了该分组的有响应和无响应分别占总体的比例,也就是如果某个分组样本占总体数量比较低,那么对预测其实贡献也是比较低的,所以会给WOE基础上再打个折。

比如

A

响应

未响应

合计

响应比例

WOE

IV

1

90

10

100

90%

4.3944492

0.0390618

0

9910

89990

99900

10%

-0.00893

7.937E-05

合计

10000

90000

100000

10%

4.4033788

0.0391411

在这里本身A变量下分组1的响应数就很少,占总的比例很小,取A的1的可能性很低,因此对模型预测的贡献就 很小,因此通过

可以进行打折

注意

IV里面分组不能只有响应的数量而没有未响应的数量,否则的话一个会得到正无穷,另一个会得到负无穷。

woe分析_用IV和WOE来做特征筛选相关推荐

  1. woe分析_信用评分模型中WOE、IV详解

    IV(informaiton Value) IV的概念 IV全程是informaiton Value,中文意思是信息价值,或者信息量. 在逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行 ...

  2. woe分析_特征工程中的IV和WOE详解

    1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量. 我们在用逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行筛选.比如我们有200个候选自变 ...

  3. R语言回归模型构建、回归模型基本假设(正态性、线性、独立性、方差齐性)、回归模型诊断、car包诊断回归模型、特殊观察样本分析、数据变换、模型比较、特征筛选、交叉验证、预测变量相对重要度

    R语言回归模型构建.回归模型基本假设(正态性.线性.独立性.方差齐性).回归模型诊断.car包诊断回归模型.特殊观察样本分析.数据变换.模型比较.特征筛选.交叉验证.预测变量相对重要度 目录

  4. woe分析_评分卡模型剖析之一(woe、IV、ROC、信息熵)

    评分卡模型剖析之一(woe.IV.ROC.信息熵) 信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后 ...

  5. woe分析_【SAS宏】使用WOE和IV实现风险因素筛选

    在信用风险评估领域,信用评分卡模型在国内外都是一种非常成熟的预测模型,无论是使用传统的Logistic回归建模乃至一些使用Neural networks算法建模,变量筛选都是整个建模过程中至关重要的一 ...

  6. woe分析_WOE和IV

    WOE和IV是在评分卡模型开发中的名词 进过分箱操作之后,变量分布在了区间上,所以我们还需要对区间做一个数值编码 这个数值编码就叫做WOE(Weight of Evidence),先来看一下WOE的计 ...

  7. woe分析_【详解】银行信用评分卡中的WOE在干什么?

    WOE & IV woe全称叫Weight of Evidence,常用在风险评估.授信评分卡等领域. IV全称是Information value,可通过woe加权求和得到,衡量自变量对应变 ...

  8. woe分析_机器学习-谈谈逻辑回归里面的woe化-20170911

    1.woe是什么东西 如果有人接触过信用评分卡,那么肯定是有看过在变量处理那一步,有一个变量woe的过程.那么woe是如何计算的呢,有什么具体含义呢. woe全称是Weight of Evidence ...

  9. aspen怎么做灵敏度分析_不会敲代码怎么做智能分析?用奥威商业智能BI

    不会敲代码,怎么学也不会,那怎么做大数据智能分析?说来也简单,用商业智能BI软件就行.拖拉拽就能做报表,点击即可智能分析,即使是没有IT基础,完全不会敲代码的人也能轻松抽取数据做智能分析. 商业智能B ...

最新文章

  1. pandas在dataframe指定位置添加新的数据列、使用insert函数
  2. PC微信逆向:分析发送xml名片call
  3. pycharm解决Inconsistent indentation:mix of tabs and spaces
  4. JavaBean的get、set方法生成器
  5. 加拿大程序员趣闻系列 1/N
  6. Boost Log : Setting up sinks
  7. LVS调度算法权威讲解——官方文档翻译
  8. 主板定制X86嵌入式器件选型
  9. poj 3666 河南省第七届程序设计D题(山区修路)
  10. WPF 设置TextBox为空时,背景为文字提示。
  11. python分离数字_python从字符串中提取数字_filter
  12. 微信读书爬虫 wereader
  13. Android不发版也能在线修Bug?——AndFix 框架
  14. SQL中计算字符串的长度函数
  15. 链接Maya和UE4实现real-time预览——Connecting Maya to Unreal with Live Link
  16. CMake基础教程(32)文件搜索指令FILE
  17. window下搭建php环境
  18. 山东理工ACM[2444]正方形
  19. IDM+百度网盘提速下载复活版
  20. linux kde vga参数1366,Archlinux+KDE 下双屏VGA高分辨率设置

热门文章

  1. AndroidStudio系列之Live Templates
  2. 【CE实战-生化危机4重置版】实现角色瞬移、飞翔
  3. ubuntu打开终端的方法(5种)
  4. C/C++连接redis数据库
  5. 短视频抖音拍摄网红达人运营SOP脚本计划表方案模板
  6. 如何申请与配置微信小程序?
  7. Linux之常用基础指令二
  8. UWB技术之物理层和测距方法接收
  9. 《整体决策的统一框架和基于时空的高速路自动驾驶轨迹规划》论文分析
  10. C++enum枚举类型用法