IV与PSI的理解–深入浅出

一、IV理解

IV衡量的是某一个变量的信息量,是基于WOE来计算的,也可以说是基于KL散度的计算。用于变量个数较多场景下的变量初筛。

Iv取值范围 含义
(0,0.02] 无预测力
(0.02,0.1] 较弱预测力
(0.1,+∞) 预测力可以

理论上,是保留IV值大于0.1的变量进行筛选。
工业上,一般IV超过0.05可以通过初筛,根据变量iv实际情况可以灵活设置阈值。

  1. WOE理解
    woe是一种分箱手段,我理解的最主要有四个作用:
    1)归一化:分箱且woe编码映射后的变量,可以将变量归一到近似尺度上;
    2)引入非线性:对于逻辑回归这类线性模型,引入变量分箱可以增强模型的拟合能力,实现了按WOE排序的区间正样本比例呈单调趋势;
    3)增强鲁棒性:分箱可以避免异常数据对模型的影响
    4)可解释性:使变量具有可解释性

  2. WOE计算
    WOE=ln(Pxi / Qxi)
    Pxi 表示正样本中某一箱的占比,Qxi表示负样本中某一箱的占比。

  3. KL散度计算
    KL散度(相对熵)通常用于衡量两个分布之间的差异。
    KL(P | Q)=sum( Pxi * log(Pxi / Qxi) )
    KL散度通常被称作KL距离,根据公式可以看出,KL散度满足距离的非负性和同一性,不满足对称性和直递性,因此不是严格意义上的“距离"。

  4. IV计算
    IV=sum( (Pxi - Qxi) * ln(Pxi / Qxi) )

    1)基于WOE的计算
    IV=sum( (Pxi - Qxi) *woe)
    公式中的 Pxi - Qxi 弥补了 woe的为负性
    2)基于KL散度的理解
    IV = sum( (Pxi - Qxi) * ln(Pxi / Qxi) )
    = sum( Pxi * ln( Pxi / Qxi ) - Qxi * ln( Pxi / Qxi ) )
    = sum(Pxi * ln( Pxi / Qxi ) + Qxi * ln( Qxi / Pxi ) )
    = KL(P | Q)+KL(Q | P)
    通过观察公式可以发现,IV部族了KL的不对称性
    二. PSI理解
    在第二part ,WOE计算中,我故意没有像其他博主一样写的很细节 ,以便让我们注意到,PSI 和IV的计算公式是一样的。不同点在于,PSI一般用于衡量两个样本分布的差异,如标签监控和模型监控来判断标签和模型的稳定性。IV一般用于判断正负样本中标签的信息量,如上面所说的标签筛选。

PSI取值范围 含义
<0.1 模型\标签 稳定性很高
(0.1,0.2] 一般
(0.2,+∞) 建议修复

工业上,一般阈值可以根据具体情况灵活选择,一般到0.3都是ok的

  • psi超出阈值时,排查点:
    1)观察历史至今的统计值,如果是随着时间变化逐渐提高,可能是正常的;
    2)如果是突然提高,要排查底层标签问题,查看哪个分段出现异常,是否出现促销活动或者底层表更新异常。

三. IV&PSI落地注意点

  1. 共同注意点
    1)一般实际计算时,Pxi / Qxi部分可能出现分母为0的情况,导致程序报错,此时可以分子分母同时加一个极小值,如0.000001;
  2. PSI注意点
    1)psi 代码实现时,一般涉及到base样本和当前样本分箱统计结果 merge,要注意两份样本分箱的类型一致;
    2)一般连续型字段,我们选择等频分箱方法而不是等距,避免某一箱为空;
    3)分类型字段,通常直接value_counts进行统计,但是要注意可能会出现长尾分布,这种情况,可以将尾部类别进行合并;
    4)计算时要注意保留base和当前样本的中间统计结果,便于排查问题。

参考文章 https://www.cnblogs.com/insomniaM/p/15164206.html

IV与PSI的理解--深入浅出相关推荐

  1. 评分卡:WOE、IV、PSI计算及ROC和KS曲线

    公式定义和原理解释见: 风控模型-WOE与IV指标的深入理解应用 - 知乎 风控模型-群体稳定性指标(PSI)深入理解应用 - 知乎 1.WOE和IV 延伸:分箱后求 WOE 和 IV 1. WOE ...

  2. 风控模型—WOE与IV指标的深入理解应用

    风控业务背景 在评分卡建模流程中,WOE(Weight of Evidence)常用于特征变换,IV(Information Value)则用来衡量特征的预测能力.风控建模同学可能都很熟悉这两者的应用 ...

  3. 特征工程 | 信息价值IV与群体稳定性PSI

    特征工程 | 信息价值IV与群体稳定性PSI 关键词:特征筛选,信息量,稳定性 文章目录 特征工程 | 信息价值IV与群体稳定性PSI 前言 一.信息价值IV 1.1 使用条件 1.2 评价基准 1. ...

  4. 逻辑回归-关于WOE和IV的一些理解

    本文主要解决为什么WOE能用于逻辑回归建模 写到最后才发现出问题了 这里认为少数类为good,就是正类 理解WOE和IV IV的定义公式 IV = ∑ i = 1 N ( g o o d % − b ...

  5. 【推荐系统】WOE、IV、OR值、信息增益、卡方检验

    目录 特征起因 评分卡模型中的IV和WOE详解 信息增益 OR值 卡方检验 GaussRank 高基数数据 特征起因 特征工程综述常看常新 工业级推荐系统中的特征工程 - 杨旭东的文章 - 知乎​​​ ...

  6. 风控ML[13] | 特征稳定性指标PSI的原理与代码分享

    PSI这个指标我们在风控建模前后都是需要密切关注的,这个指标直接反映了模型的稳定性,对于我们评估模型是否需要迭代有着直接的参考意义.今天我将从下面几方面来介绍一下这个指标. Index 01 PSI的 ...

  7. 视觉惯性SLAM:VINS-Mono

    视觉惯性SLAM:VINS-Mono 这篇博客 一些符号说明 IV 测量数据的预处理 A.视觉处理前端 B.IMU预积分 V. 初始化 A.Vision-Only SfM in Sliding Win ...

  8. 评分卡中的一些理论知识

    写文章也一年多了,这一年的时间里一直在学习.总结.思考不停地反复,逐渐从一个菜鸟到对这门技术慢慢有了自己的认知.但是即便如此,我内心还是深知自己不明白的东西有很多,依然有许多需要实践和积累的.最近又回 ...

  9. 当金融风控遇上人工智能,众安金融的实时特征平台实践

    导读:随着企业数字化转型升级,线上业务呈现多场景.多渠道.多元化的特征.数据要素价值的挖掘可谓分秒必争,业务也对数据的时效性和灵活性提出了更高的要求.在庞大分散.高并发的数据来源背景下,数据的实时处理 ...

最新文章

  1. 素数类型C语言题目总结
  2. 运算符——Python
  3. 线性回归和广义线性回归
  4. 【特征提取】基于matlab熵函数语音端点检测【含Matlab源码 1764期】
  5. 发送邮件 空格 java_java实现邮件发送功能
  6. 电源大师课笔记 3.5
  7. 微信防撤回补丁来了!更新也不会失效
  8. leapFTP上传网页到服务器,leapftp登录ftp服务器
  9. PC端 VUE 官网项目 前端开发 响应式布局(宽+高 等比例缩放)
  10. 详解条件概率,全概率,贝叶斯公式
  11. Cloudera Manager5.14.3集群搭建
  12. UI之苹果各种屏的屏幕大小及分辨率
  13. Java JRE 6安全更新
  14. 如何配置java的环境变量
  15. sap crm button_SAP携Intelligent RPA 2.0 参加中国流程自动化产业峰会
  16. Spring依赖注入IOC(给字段赋值)和Spring测试
  17. pam_limits(crond:session): unknown limit item ‘noproc‘
  18. Python-Python基础代码实现
  19. /etc/hosts.allow和/etc/hosts.deny的讲解
  20. Image Processing Unit(IPU)简介

热门文章

  1. 对于计算机等级考试的建议
  2. Quartus 平台 FPGA 片内 RAM 使用
  3. log4cpp的配置
  4. Packet Tracer - 使用 Traceroute 发现网络
  5. 移动 App 接入 QQ 登录/分享流程
  6. 咨询行业细分——管理咨询、战略咨询、IT咨询
  7. 02-StringStringBuilderStringBuffer
  8. js - 内存溢出与内存泄漏
  9. CodeLab:Android fundamentals 04.2:Input controls
  10. 小程序直播公测,微信再造电商梦?