● 每周一言

既有工作又有生活,人生才没那么无趣。

导语

之前讲解过AUC评价指标,AUC能很好地描述模型整体性能的高低。除了AUC,还有一个指标也能达到相同的效果,那便是ks。不仅如此,ks还能给出最佳的划分阈值。那么,ks具体是什么指标?计算方式和AUC有何不同?

ks评价指标

ks(Kolmogorov-Smirnov)评价指标,通过衡量好坏样本累计分布之间的差值,来评估模型的风险区分能力。其计算方式和AUC的计算方式基本类似,我们不妨先来回顾一下评价指标必备的四个概念,如下:

  • 伪阳性率(FPR)
    判定为正例却不是真正例的比率
  • 真阳性率(TPR)
    判定为正例也是真正例的比率
  • 伪阴性率(FNR)
    判定为负例却不是真负例的比率
  • 真阴性率(TNR)
    判定为负例也是真负例的比率

AUC的计算方式在文章(如何直观理解AUC评价指标?)中描述的比较清楚,建议大家先看一遍,再继续阅读此文,会更加流畅。相比之前对AUC的讲解,上面四个概念的介绍我更新成用“比率”描述,会更加准确一点。

但是AUC只评价了模型的整体训练效果,并没有指出如何划分类别让预估的效果达到最好。

ks和AUC一样,都是综合了真阳性率(TPR)和伪阳性率(FPR)两个指标来衡量模型的好坏。不同之处在于,ks取的是TPR和FPR差值的最大值

怎么理解这个最大差值?我们先仔细思考一下TPR和FPR的含义。拿二分类来说,通常接sigmoid函数输出到0-1之间取阈值划分,假定0为正例标签,1为负例标签,当阈值从0到1变化时,TPR表示所有小于阈值的正例,在所有正例中的比率。同样的,FPR则表示所有小于阈值的负例,在所有负例中的比率。

令横轴为阈值,纵轴为TPR和TPR,值域均为[0, 1]。可以这样直观理解,随着横坐标从0到1变化,TPR越快提升,模型效果越好;反之,FPR越快提升,模型效果就越差。 ks值,正是图中的最大差值,此时的横轴取值,便是最佳阈值。

同样的,我们可以拿AUC讲解中的例子来直观说明ks:现假设有一个训练好的二分类器对10个正负样本(正例5个,负例5个)进行预测,得分从高到低排序得到的最好预测结果为[1, 1, 1, 1, 1, 0, 0, 0, 0, 0],即5个正例均排在5个负例前面,正例排在负例前面的概率为100%。

绘制其ks折线。首先,我们按照之前的描述方式,绘制TPR、FPR随着阈值(样本比例)变化的折线图,如下图所示:

从上图我们可以知道,TPR提升最快而FPR提升最慢,的确说明了预测结果最好。然后,计算它们的差值,作ks折线图如下:

上图的ks值为1,最佳划分阈值是0.5,这是最理想的结果了。ks值域为[0, 1],一般情况下,ks值大于0.2就能判定模型是有效的。

为了加深理解,我们稍微改变一下预测结果序列为[1, 1, 1, 1, 0, 1, 0, 0, 0, 0],看看ks值有何不同的变化。


可知上图的ks值为0.8,最佳划分阈值为0.4或者0.6。

至此,我们便可以直观地理解ks评价指标。敬请期待下节内容。

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

ks:能定阈值的评价指标相关推荐

  1. 分类模型指标ks的含义

    如果理解ROC曲线的话,就很容易理解KS了.roc横纵坐标分别为FPR.TPR. KS横轴为阈值,纵轴为不同阈值下的TPR,FPR,KS值是MAX(TPR - FPR),即两曲线相距最远的距离 ks值 ...

  2. ks 曲线_模型算法基础——KS曲线

    原创: 栗老师 金科应用研院 关于判断逻辑回归模型的分别能力,我们前面已经介绍了基尼系数和ROC曲线,今天我们来介绍一下KS曲线.KS曲线主要体现了模型对违约对象的区分能力,通常是在模型预测全体样本的 ...

  3. 数学建模学习(2)—— 客户流失预警模型案例评估 ROC曲线与KS曲线(2022.7.19)

    昨天晚上做了个梦,梦到被老师臭骂了一顿,可以说当时把我直接吓醒了,醒过来后,惊叹一声,还好是个梦.在上个笔记中学习了逻辑回归的运用,这节课再来看一看对模型评估的方法. 文章目录 目录 文章目录 一.R ...

  4. 你要的机器学习常用评价指标,以备不时之需

    导读 在机器学习中,我们前期经过数据采集.数据清洗,中期进行特征分析.特征选择,后期对处理好的数据集分割,将数据集划分为训练集.验证集.测试集,最后基于划分好的数据集进行训练调优,并选择性能最好的模型 ...

  5. python图像分割动态域值_图像处理基本算法 动态阈值分割

    在图像处理时,受外界光线的干扰一般比较大,假如在阈值分割时采用固 定阈值,那么在环境改变时分割效果受影响极大,那么为了避免此影响就 必须采用动态阈值,自动求出合适的阈值进行分割. 本文的介绍几种主要的 ...

  6. sklearn 绘制roc曲线_sklearn——逻辑回归、ROC曲线与KS曲线

    一.sklearn中逻辑回归的相关类 在sklearn的逻辑回归中,主要用LogisticRegression和LogisticRegressionCV两个类来构建模型,两者的区别仅在于交叉验证与正则 ...

  7. python ks曲线_sklearn——逻辑回归、ROC曲线与KS曲线

    一.sklearn中逻辑回归的相关类 在sklearn的逻辑回归中,主要用LogisticRegression和LogisticRegressionCV两个类来构建模型,两者的区别仅在于交叉验证与正则 ...

  8. 百度飞桨半监督学习目标定位竞赛冠军方案分享

    赛题介绍 赛题背景 监督学习模型的优异性能要以大量标注数据作为支撑,可现实中获得数量可观的标注数据十分耗费人力物力.于是,半监督学习逐渐成为深度学习领域的热门研究方向,只需要少量标注数据就可以完成模型 ...

  9. 机器学习基础:ROC曲线与AUC计算详解

    AUC & ROC AUC是一个模型评价指标,只能用于二分类模型的评价,对于二分类模型,还有损失函数(logloss),正确率(accuracy),准确率(precision),但相比之下AU ...

最新文章

  1. Spring Cloud Alibaba教程:使用Nacos作为服务注册中心
  2. openssl下开发sm4-gcm-ciphers
  3. oracle数据库查询代码,ORACLE数据库查询表实例代码
  4. 知方可补不足~CSS中的几个伪元素
  5. P5664-Emiya家今天的饭【dp】
  6. 开机自启动和由一个APK启动另一个APK核心代码
  7. android x86 sleep,如何打开Android X86对houdini的支持
  8. 计算机学科研究方向统计
  9. UI素材|标签页 Tab实用案例,可临摹学习
  10. 设计原则在设计模式的应用
  11. CentOS/Ubuntu/Debian常用版本更换国内源的方法
  12. 计算机组成原理—半导体随机存储器的基本结构
  13. LabVIEW哪些软件需要运行时许可
  14. 配置淘宝Maven镜像仓库
  15. 【运筹学】分支定界法 ( 分支定界法求整数规划示例 ) ★★
  16. 八位数字后加逗号_【PTE干货】英文数字的读法
  17. Gif动图如何自制?一招教你快速完成gif制作
  18. SAP基底数据仓库实战项目(序章)
  19. 禁用MacOS系统自带输入法最简单的方法
  20. 神经系统位置图高清,中枢神经系统位置图

热门文章

  1. 安装SQl Server Polybase 报错解决方法
  2. sqlserver常用语句(报表,递归,分页等)
  3. android button的美化
  4. 安卓app之按键美化
  5. SLAM学习笔记《Past, Present, and Future of Simultaneous Localization and Mapping: Toward the Robust-Per》
  6. java字符串转list_java将String字符串转换为ListLong类型实例方法
  7. Android 在应用图标上设置未读消息数量
  8. DCDC基础(8)-- 同步BUCK芯片的电性能参数解读二
  9. 斐讯PSG1208 K1 路由器刷机
  10. 史上最全!每个程序员必须知道的学习网站!