IV WOE 评分卡分箱

数据分箱：对连续变量离散化；实际上就是按照属性值划分的子区间，可以简单理解为分段处理（不同的是对特征进行分箱后，需要对分箱的每组进行woe编码进行分箱评估，才能放进模型训练）；

意义：

1.模型更稳定，特征离散化后，起到简化逻辑回归模型的作用，降低过拟合风险；

2.变量离散化后对异常数据有很强的鲁棒性；

3.将逻辑回归模型转换为评分卡形式的时候，分箱也是必须的；

分组原则：

1.组间差异大；

2.组内差异小；

3.每组占比不低于5%

4.必须有1、0两种分类；

----------------------------------------------------------------------------------------------

无监督分箱：

1.等距离（宽度）分箱：每个箱的区间范围是一个常量；

2.等频度（深度）分箱：每箱具有相同的记录数；

3.聚类分箱：基于K-means聚类，聚类过程中需要保证分箱的有序性；

4.用户自定义区间：根据需要自定义区间

有监督分箱： 分箱时考虑因变量的取值，使得分箱后达到最小熵或最小描述长度；

最小熵：熵值公式 https://blog.csdn.net/huobanjishijian/article/details/52893357；需要使总熵值最小，也就是使分箱能够最大限度区分因变量的各类别；

1.Best-KS 分箱

KS衡量好坏样本累计部分之间的差距[评分的K-S值：最大差异]；KS越大，越能将１、０样本区分的程度越大；

计算方式：　refer https://blog.csdn.net/hxcaifly/article/details/84593770

2.卡方分箱：

思想：判断相邻的两个区间是否有分布差异，类似类分布则可合并区间，否则分开这两区间；

判别指标：卡方统计量；衡量区间内样本的频数分布与整体样本的频数分布的差异;

[卡方值:]

卡方分布：若K个独立的随机变量Z1~Zk满足标准正态分布N(0,1)，这K个随机变量的平方和服从自由度为k的卡方分布；卡方检验以卡方分布为基础的一种假设检验方法，用于分类变量之间的独立性检验，衡量实际值与理论值的差异程度；

卡方值计算公式：

卡方阈值的确定：根据显著性水平和自由度得到卡方值；

阈值的意义：大于阈值的卡方值说明属性和类不是相互独立的，不能合并；如果阈值选的大，区间合并会进行多次，离散后的区间数量少、区间大（合并的多，区间多样性少）；

分箱步骤：

(0) 预先设定一个卡方的阈值；（1）初始化：根据要离散的属性对实例进行排序；每个实例属于一个区间；（2）合并区间：1.计算每一对相邻区间的卡方值；2.将卡方值最小的一对区间合并；

分箱限制： （1）限制最终的分箱个数；（2）卡方阈值：迭代合并直到最小卡方值超过设定阈值为止；

refer : https://www.sohu.com/a/224569101_793685

----------------------------------------------------------------------------------------------

噪声：一个测量变量中的随机误差和偏差，包括错误值和偏离期望的孤立点值；

进行噪声检查后，通常采用分箱、聚类、回归等方法“光滑”数据，去掉数据中的噪声；

对于箱中数据的平滑方法：

1.按平均值平滑：对同一箱值中的数据求均值，用均值代替该箱子中所有数据；

2.按边界值平滑：用距离较小的边界值代替箱中每一数据；

3.按中值平滑：取箱子的中值替代箱中所有数据；

----------------------------------------------------------------------------------------------

分箱评估：

IV 信息量筛选特征

Information Value： 挑选放进模型的变量，作为一个量化指标衡量变量的预测能力，类似的指标还有信息增益、基尼指数等。

计算公式（基于WOE）：

N为分组个数；求出每个分组的IV值，将各分组的IV相加得到整个变量的IV值；下式中good指的是模型中预测变量取值为１的个体；

根据IV值调整分箱结构重新计算WOE和IV，直至IV达到最大值，此时分箱最好；

WOE证据权重

Weight of Evidence：对原始自变量的一种编码方式；对变量进行WOE编码前，需要对变量进行分箱处理；分箱后，对于第i组，WOE的计算公式：

也有bad占比/good占比计算得到WOE的，其实没影响；因为计算WOE的目的是计算IV从而达到预测的目的；因为后面IV计算中，会通过相减相乘的方式把负号消掉，不影响最终的IV预测结果；

意义： https://blog.csdn.net/kevin7658/article/details/50780391（也有实例解释）

---为什么使用IV值判断，而不直接使用WOE判断呢？

１.IV值是非负的（WOE对数存在负数情况）；

２.IV体现出当前分组中个体的数量占整体数量的比例；

----------------------------------------------------------------------------------------------

数据变换：

光滑（去掉噪声）

属性构造（特征提取）

聚集（描述性特征：求和）

标准化

离散化

数据预处理：

A.缺省字段的处理：

1、缺失很多：直接丢弃

2、离散量缺失量适中：将Nan作为一个新类别加到特征中

3、连续量缺失量适中：给一个step（比如年龄，考虑每隔2/3岁为一个步长），然后进行离散化，再将Nan作为一个新类别加到特征中

4、缺失很少：可用均值、中位数、众数等填充；

B.异常值处理

离群值检测：单变量离群值检测（可采用箱线图）、局部离群值因子检测、基于聚类方法的离群值检测

EDA：

分析各变量对输出结果的影响：单变量分析、多变量分析（比如python中的corr( )函数计算各变量间的相关性；）

----------------------------------------------------------------------------------------------

评分卡：

常使用LR模型[LR借助WOE转变为标准评分卡格式]、决策树；

定义：

1.以分数的形式衡量风险几率的方式；

2.对未来一段时间内违约、逾期、失联概率的预测

3.评分越高越安全

4.在信贷场景中，不同的评分卡分为：反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡【四种类型定义：refer https://blog.csdn.net/lll1528238733/article/details/76602006】

计算方式：

odds=good/bad=good/(1-good)

score=A+B*In(odds)

若odds是坏客户概率/好客户概率，odds应取倒数，再经过ln转换则B前面是减号。所以有的地方此公式B前为负号。这里的坏客户、好客户定义为是否违约，违约为坏客户；

这里的In(odds)实际上就是WOE值；

如何求解A\B：

给出特定odds时的score值S0、该特定odds值翻倍时Score增加值PD0带入公式得到A、B；

分值分配：

计算各个变量的各分箱对应的分值；

refer https://blog.csdn.net/lll1528238733/article/details/76601897

得到每个变量对应分配到的分数，接着把每个变量对应的分数分别乘以变量中每个分箱的WOE，得到每个分箱的评分结果；

refer https://blog.csdn.net/gxhzoe/article/details/80428560

IV WOE 评分卡分箱相关推荐

【菜菜的sklearn课堂笔记】逻辑回归与评分卡-用逻辑回归制作评分卡-分箱
视频作者:菜菜TsaiTsai 链接:[技术干货]菜菜的机器学习sklearn[全85集]Python进阶_哔哩哔哩_bilibili 分训练集和测试集 from sklearn.model_sele ...
评分卡分箱原则及单调性
1.分箱的原则 (1)最小分箱占比不低于5% (2)箱内不能全部是好客户 (3)连续箱单调 2.单调性评分卡模型之特征工程中的BadRate单调与特征分箱之间的联系_Michael_Shentu的博 ...
[风控] 评分卡分箱WOE，IV出现正无穷、负无穷解决方法
问题: 当pi=0 时,WOE为负无穷当ni=0时,WOE为正无穷解决方法: 加上一个常数 ϵ, 范围是 [0,1], 一般的,ϵ=0.5. E = 0.5 d3['woe']=np.log((( ...
WOE评分卡--WOE理论
1.评分卡概述最常见的用于信用评分的模型就是logistic回归,这是一种处理二分类因变量的广义线性模型.这种模型的理论基础比较扎实,但是对于不同的问题当然也存在一些特殊的处理方式. 由于制作评分卡 ...
python评分卡1_woe与IV值
本系列分以下章节: python评分卡1_woe与IV值 python评分卡2_woe与IV分箱方法 python评分卡3_woe与IV分箱实现 python评分卡4_logistics原理与解法_s ...
转：Python数据分箱，计算woe，iv
转自:https://zhuanlan.zhihu.com/p/38440477 https://www.cnblogs.com/wzdLY/p/9853209.html https://github ...
基于logistics回归的评分卡模型【相关理论】
评分卡模型 KS和roc曲线 KS值 ROC 曲线 AUC 评分卡分箱 WOE IV 分箱 WOE与IV值逻辑回归模型转化为评分卡: KS和roc曲线 TN:将负类预测为负类(真负类) FN:将正 ...
特征工程之特征分箱（决策树分箱、卡方分箱、bestks以及评价标准WOE和IV)
特征工程之特征分箱:决策树分箱.卡方分箱.bestks以及评价标准 1.WOE和IV 2.无监督分箱 2.1等频分箱 2.2等距分箱 3.有监督分箱 3.1决策树分箱 3.2best-ks分箱 3.3 ...
python woe分箱_python自动分箱,计算woe,iv的实例代码
笔者之前用R开发评分卡时,需要进行分箱计算woe及iv值,采用的R包是smbinning,它可以自动进行分箱.近期换用python开发, 也想实现自动分箱功能,找到了一个woe包,地址https:// ...
6 机器学习 IV与WOE 分箱过抽样与欠抽样
机器学习 1 IV与WOE 1.1 IV IV,Information Value,指的是信息价值或者信息量. IV可以理解为特征筛选的量化指标, 用于衡量数据特征的预测能力或者在模型预测过程中对预测 ...

IV WOE 评分卡分箱

IV WOE 评分卡分箱相关推荐

最新文章

热门文章

IV WOE 评分卡 分箱

IV WOE 评分卡 分箱相关推荐

最新文章

热门文章

IV WOE 评分卡分箱

IV WOE 评分卡分箱相关推荐