woe分析_机器学习-谈谈逻辑回归里面的woe化-20170911
1、woe是什么东西
如果有人接触过信用评分卡,那么肯定是有看过在变量处理那一步,有一个变量woe的过程。那么woe是如何计算的呢,有什么具体含义呢。
woe全称是Weight of Evidence,即证据权重,也叫作自变量的一种编码,这种定义是不是很拗口,也很难理解,但你看过它的公式以后就会比较清楚了。
这是某一变量某一分组的woe,B代表风险客户,G代表正常客户,所以WOE衡量了这组里面的好坏客户的占比与整体样本好坏样本占比的差异,差异越大,对风险区分越明显。但woe只考虑了风险区分的能力,但没有考虑能区分的用户有多少,所以又引出了一个IV的定义,可以衡量一个变量的风险区分能力:
2、为什么可以woe化
看到我上面说的是为什么可以,而不是为什么一定要,这两者还是有差别的,毕竟我们并不一定要woe化,woe化只是一个好的习惯(经验)而已。
但是你知道为什么在这里是可以woe化的呢,那么在其他算法里面是不是可以woe化呢。
要回答上面这个问题,首先我们可以想想如果变量离散化后不做woe化,那么是不是这个时候的变量可以直接丢到算法里面去学习呢,答案是否定的。如果我们不采用woe化,我们一般会将离散后的变量或者一些类别变量dummy化,那为什么要dummy化呢,而不是直接使用离散后的变量呢,这里的原因就是离散后的变量很难知道各个组之间的数量关系,比如我将年龄分成了20岁以下、20-50、50岁以上三组,也许我可以直接赋1、2、3的数量关系,但是这个数量关系仅仅表示顺序,他们之间实质性的数值间隔你是不知道的。
所以我们知道了变量离散化后不能直接丢到模型里面的原因,那为什么woe化以后就可以了呢,那是因为woe化解决了组(类)与组之间数值未知的情况,为什么这样说呢。我们还需要回到逻辑回归的几个式子上,这里不会有公式推导,逻辑回归的线性公式是:
可以看到,右边是线性的式子,左边是因变量的一个映射,你们看左边,是不是和woe的公式定义很像,但又有点不一样,不一样的地方在哪里呢,就是
和
,分别是全量样本中的风险样本数和正常样本数,如果我们样本选定后,这两个值其实是确定,所以影响woe就只有这个组里面的B和G了,这个其实是和逻辑回归的左边式子是成一个正比的关系,其实说到这里基本上算是已经明朗了。我把逻辑回归右边的变量(x)woe化,其实就是因为左边需要拟合的就是这种形式,所以这种改变完全可以衡量组与组之间的数量关系。
既然woe化是和逻辑回归的式子是紧密联系的,那么这也说明woe化是不能用在其他算法(不包括树模型)中的。
3、woe化有什么好处呢
有啥好处其实是一个仁者见仁智者见智的事,就我的认知,好处有这么几个:第一,好解释,因为如果dummy的话其实是将一个变量拆开了,会出现某个维度有一部分入模的情况,而woe不会;第二是变量变少了,调整更直观(这个好有道理);第三是woe值可以很好的区分哪些组是负向的,哪些组是正向的。但其实它也有弊端,因为你无法从系数看出这个变量的正负向,因为woe化后,你拟合出来的系数应该都是正的,如果你拟合出的系数有些是负,那么说明你模型没建好,出现了共线性的问题,所以这也算是一个好处呢 。
下篇文章继续讲讲为啥woe后系数为正的的原因。
woe分析_机器学习-谈谈逻辑回归里面的woe化-20170911相关推荐
- logit回归模型假设_机器学习基础---逻辑回归(假设函数与线性回归不同)
一:分类 (一)分类基础 在分类问题中,你要预测的变量y是离散的值,我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法,这是目前最流行使用最广泛的一种学习算法. 在分类问题 ...
- woe分析_特征工程中的IV和WOE详解
1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量. 我们在用逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行筛选.比如我们有200个候选自变 ...
- woe分析_评分卡模型剖析之一(woe、IV、ROC、信息熵)
评分卡模型剖析之一(woe.IV.ROC.信息熵) 信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后 ...
- 机器学习:逻辑回归(logistics regression)
title: 机器学习:逻辑回归(logistics regression) date: 2019-11-30 20:55:06 mathjax: true categories: 机器学习 tags ...
- 吴恩达机器学习之逻辑回归(二分类)
吴恩达机器学习之逻辑回归 逻辑回归 二分类逻辑回归 二分类逻辑回归案例 python代码实现(含详细代码注释): 案例中几个问题的解析 不同于线性回归,逻辑回归的hθ(x)还需要用sigmoid函数处 ...
- 【机器学习】逻辑回归原理介绍
[机器学习]逻辑回归原理介绍 [机器学习]逻辑回归python实现 [机器学习]逻辑回归sklearn实现 Logistic 回归模型是目前广泛使用的学习算法之一,通常用来解决二分类问题,虽然名字中有 ...
- 机器学习实战-逻辑回归-19
机器学习实战-逻辑回归-用户流失预测 import numpy as np train_data = np.genfromtxt('Churn-Modelling.csv',delimiter=',' ...
- 传统机器学习之逻辑回归的分类预测,以威斯康辛州乳腺癌数据集为例
传统机器学习之逻辑回归的分类预测,以威斯康辛州乳腺癌数据集为例 文章目录 传统机器学习之逻辑回归的分类预测,以威斯康辛州乳腺癌数据集为例 1导入基本库 2读取数据并且变换类型 3输出数据 4可视化数据 ...
- 量词逻辑量词里面的v表示?_代理知识表示中的量词简介(基于人工智能)
量词逻辑量词里面的v表示? As we know that in an AI-based agent, the knowledge is represented through two types o ...
最新文章
- rea t插件 vscode_推荐VSCode12个比较实用的插件
- iPhone开发之网络编程 AsyncSocket
- AtCoder AGC034F RNG and XOR (概率期望、FWT)
- HTML之六:图像的热区连接
- jdbc mysql驱动_MySQL JDBC驱动程序如何处理准备好的语句
- python输入print跳到documentation-习题 48: 更复杂的用户输入
- javascript数组的各种操作
- Maven 核心原理
- 多目标跟踪的评价指标
- Unity 导出obj模型
- leetcode 森林中的兔子
- Aspect基础使用方法
- Updating indexes
- 汇编语言--D/A转换实验
- cocos 随机变色的拖尾
- vim-python怎么用_技术|如何在使用 Vim 时访问/查看 Python 帮助
- katalon等待时间、断言、setup teardown
- CTF入门学习思维导图
- 基于Netty实现分布式IM即时通讯开发
- idea指定maven的settings文件不生效