IV与PSI的理解--深入浅出
IV与PSI的理解–深入浅出
一、IV理解
IV衡量的是某一个变量的信息量,是基于WOE来计算的,也可以说是基于KL散度的计算。用于变量个数较多场景下的变量初筛。
Iv取值范围 | 含义 |
---|---|
(0,0.02] | 无预测力 |
(0.02,0.1] | 较弱预测力 |
(0.1,+∞) | 预测力可以 |
理论上,是保留IV值大于0.1的变量进行筛选。
工业上,一般IV超过0.05可以通过初筛,根据变量iv实际情况可以灵活设置阈值。
WOE理解
woe是一种分箱手段,我理解的最主要有四个作用:
1)归一化:分箱且woe编码映射后的变量,可以将变量归一到近似尺度上;
2)引入非线性:对于逻辑回归这类线性模型,引入变量分箱可以增强模型的拟合能力,实现了按WOE排序的区间正样本比例呈单调趋势;
3)增强鲁棒性:分箱可以避免异常数据对模型的影响
4)可解释性:使变量具有可解释性WOE计算
WOE=ln(Pxi / Qxi)
Pxi 表示正样本中某一箱的占比,Qxi表示负样本中某一箱的占比。KL散度计算
KL散度(相对熵)通常用于衡量两个分布之间的差异。
KL(P | Q)=sum( Pxi * log(Pxi / Qxi) )
KL散度通常被称作KL距离,根据公式可以看出,KL散度满足距离的非负性和同一性,不满足对称性和直递性,因此不是严格意义上的“距离"。IV计算
IV=sum( (Pxi - Qxi) * ln(Pxi / Qxi) )1)基于WOE的计算
IV=sum( (Pxi - Qxi) *woe)
公式中的 Pxi - Qxi 弥补了 woe的为负性
2)基于KL散度的理解
IV = sum( (Pxi - Qxi) * ln(Pxi / Qxi) )
= sum( Pxi * ln( Pxi / Qxi ) - Qxi * ln( Pxi / Qxi ) )
= sum(Pxi * ln( Pxi / Qxi ) + Qxi * ln( Qxi / Pxi ) )
= KL(P | Q)+KL(Q | P)
通过观察公式可以发现,IV部族了KL的不对称性
二. PSI理解
在第二part ,WOE计算中,我故意没有像其他博主一样写的很细节 ,以便让我们注意到,PSI 和IV的计算公式是一样的。不同点在于,PSI一般用于衡量两个样本分布的差异,如标签监控和模型监控来判断标签和模型的稳定性。IV一般用于判断正负样本中标签的信息量,如上面所说的标签筛选。
PSI取值范围 | 含义 |
---|---|
<0.1 | 模型\标签 稳定性很高 |
(0.1,0.2] | 一般 |
(0.2,+∞) | 建议修复 |
工业上,一般阈值可以根据具体情况灵活选择,一般到0.3都是ok的
- psi超出阈值时,排查点:
1)观察历史至今的统计值,如果是随着时间变化逐渐提高,可能是正常的;
2)如果是突然提高,要排查底层标签问题,查看哪个分段出现异常,是否出现促销活动或者底层表更新异常。
三. IV&PSI落地注意点
- 共同注意点
1)一般实际计算时,Pxi / Qxi部分可能出现分母为0的情况,导致程序报错,此时可以分子分母同时加一个极小值,如0.000001; - PSI注意点
1)psi 代码实现时,一般涉及到base样本和当前样本分箱统计结果 merge,要注意两份样本分箱的类型一致;
2)一般连续型字段,我们选择等频分箱方法而不是等距,避免某一箱为空;
3)分类型字段,通常直接value_counts进行统计,但是要注意可能会出现长尾分布,这种情况,可以将尾部类别进行合并;
4)计算时要注意保留base和当前样本的中间统计结果,便于排查问题。
参考文章 https://www.cnblogs.com/insomniaM/p/15164206.html
IV与PSI的理解--深入浅出相关推荐
- 评分卡:WOE、IV、PSI计算及ROC和KS曲线
公式定义和原理解释见: 风控模型-WOE与IV指标的深入理解应用 - 知乎 风控模型-群体稳定性指标(PSI)深入理解应用 - 知乎 1.WOE和IV 延伸:分箱后求 WOE 和 IV 1. WOE ...
- 风控模型—WOE与IV指标的深入理解应用
风控业务背景 在评分卡建模流程中,WOE(Weight of Evidence)常用于特征变换,IV(Information Value)则用来衡量特征的预测能力.风控建模同学可能都很熟悉这两者的应用 ...
- 特征工程 | 信息价值IV与群体稳定性PSI
特征工程 | 信息价值IV与群体稳定性PSI 关键词:特征筛选,信息量,稳定性 文章目录 特征工程 | 信息价值IV与群体稳定性PSI 前言 一.信息价值IV 1.1 使用条件 1.2 评价基准 1. ...
- 逻辑回归-关于WOE和IV的一些理解
本文主要解决为什么WOE能用于逻辑回归建模 写到最后才发现出问题了 这里认为少数类为good,就是正类 理解WOE和IV IV的定义公式 IV = ∑ i = 1 N ( g o o d % − b ...
- 【推荐系统】WOE、IV、OR值、信息增益、卡方检验
目录 特征起因 评分卡模型中的IV和WOE详解 信息增益 OR值 卡方检验 GaussRank 高基数数据 特征起因 特征工程综述常看常新 工业级推荐系统中的特征工程 - 杨旭东的文章 - 知乎 ...
- 风控ML[13] | 特征稳定性指标PSI的原理与代码分享
PSI这个指标我们在风控建模前后都是需要密切关注的,这个指标直接反映了模型的稳定性,对于我们评估模型是否需要迭代有着直接的参考意义.今天我将从下面几方面来介绍一下这个指标. Index 01 PSI的 ...
- 视觉惯性SLAM:VINS-Mono
视觉惯性SLAM:VINS-Mono 这篇博客 一些符号说明 IV 测量数据的预处理 A.视觉处理前端 B.IMU预积分 V. 初始化 A.Vision-Only SfM in Sliding Win ...
- 评分卡中的一些理论知识
写文章也一年多了,这一年的时间里一直在学习.总结.思考不停地反复,逐渐从一个菜鸟到对这门技术慢慢有了自己的认知.但是即便如此,我内心还是深知自己不明白的东西有很多,依然有许多需要实践和积累的.最近又回 ...
- 当金融风控遇上人工智能,众安金融的实时特征平台实践
导读:随着企业数字化转型升级,线上业务呈现多场景.多渠道.多元化的特征.数据要素价值的挖掘可谓分秒必争,业务也对数据的时效性和灵活性提出了更高的要求.在庞大分散.高并发的数据来源背景下,数据的实时处理 ...
最新文章
- 素数类型C语言题目总结
- 运算符——Python
- 线性回归和广义线性回归
- 【特征提取】基于matlab熵函数语音端点检测【含Matlab源码 1764期】
- 发送邮件 空格 java_java实现邮件发送功能
- 电源大师课笔记 3.5
- 微信防撤回补丁来了!更新也不会失效
- leapFTP上传网页到服务器,leapftp登录ftp服务器
- PC端 VUE 官网项目 前端开发 响应式布局(宽+高 等比例缩放)
- 详解条件概率,全概率,贝叶斯公式
- Cloudera Manager5.14.3集群搭建
- UI之苹果各种屏的屏幕大小及分辨率
- Java JRE 6安全更新
- 如何配置java的环境变量
- sap crm button_SAP携Intelligent RPA 2.0 参加中国流程自动化产业峰会
- Spring依赖注入IOC(给字段赋值)和Spring测试
- pam_limits(crond:session): unknown limit item ‘noproc‘
- Python-Python基础代码实现
- /etc/hosts.allow和/etc/hosts.deny的讲解
- Image Processing Unit(IPU)简介