ks:能定阈值的评价指标
● 每周一言
既有工作又有生活,人生才没那么无趣。
导语
之前讲解过AUC评价指标,AUC能很好地描述模型整体性能的高低。除了AUC,还有一个指标也能达到相同的效果,那便是ks。不仅如此,ks还能给出最佳的划分阈值。那么,ks具体是什么指标?计算方式和AUC有何不同?
ks评价指标
ks(Kolmogorov-Smirnov)评价指标,通过衡量好坏样本累计分布之间的差值,来评估模型的风险区分能力。其计算方式和AUC的计算方式基本类似,我们不妨先来回顾一下评价指标必备的四个概念,如下:
- 伪阳性率(FPR)
判定为正例却不是真正例的比率 - 真阳性率(TPR)
判定为正例也是真正例的比率 - 伪阴性率(FNR)
判定为负例却不是真负例的比率 - 真阴性率(TNR)
判定为负例也是真负例的比率
AUC的计算方式在文章(如何直观理解AUC评价指标?)中描述的比较清楚,建议大家先看一遍,再继续阅读此文,会更加流畅。相比之前对AUC的讲解,上面四个概念的介绍我更新成用“比率”描述,会更加准确一点。
但是AUC只评价了模型的整体训练效果,并没有指出如何划分类别让预估的效果达到最好。
ks和AUC一样,都是综合了真阳性率(TPR)和伪阳性率(FPR)两个指标来衡量模型的好坏。不同之处在于,ks取的是TPR和FPR差值的最大值。
怎么理解这个最大差值?我们先仔细思考一下TPR和FPR的含义。拿二分类来说,通常接sigmoid函数输出到0-1之间取阈值划分,假定0为正例标签,1为负例标签,当阈值从0到1变化时,TPR表示所有小于阈值的正例,在所有正例中的比率。同样的,FPR则表示所有小于阈值的负例,在所有负例中的比率。
令横轴为阈值,纵轴为TPR和TPR,值域均为[0, 1]。可以这样直观理解,随着横坐标从0到1变化,TPR越快提升,模型效果越好;反之,FPR越快提升,模型效果就越差。 ks值,正是图中的最大差值,此时的横轴取值,便是最佳阈值。
同样的,我们可以拿AUC讲解中的例子来直观说明ks:现假设有一个训练好的二分类器对10个正负样本(正例5个,负例5个)进行预测,得分从高到低排序得到的最好预测结果为[1, 1, 1, 1, 1, 0, 0, 0, 0, 0],即5个正例均排在5个负例前面,正例排在负例前面的概率为100%。
绘制其ks折线。首先,我们按照之前的描述方式,绘制TPR、FPR随着阈值(样本比例)变化的折线图,如下图所示:
从上图我们可以知道,TPR提升最快而FPR提升最慢,的确说明了预测结果最好。然后,计算它们的差值,作ks折线图如下:
上图的ks值为1,最佳划分阈值是0.5,这是最理想的结果了。ks值域为[0, 1],一般情况下,ks值大于0.2就能判定模型是有效的。
为了加深理解,我们稍微改变一下预测结果序列为[1, 1, 1, 1, 0, 1, 0, 0, 0, 0],看看ks值有何不同的变化。
可知上图的ks值为0.8,最佳划分阈值为0.4或者0.6。
至此,我们便可以直观地理解ks评价指标。敬请期待下节内容。
结语
感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白!
ks:能定阈值的评价指标相关推荐
- 分类模型指标ks的含义
如果理解ROC曲线的话,就很容易理解KS了.roc横纵坐标分别为FPR.TPR. KS横轴为阈值,纵轴为不同阈值下的TPR,FPR,KS值是MAX(TPR - FPR),即两曲线相距最远的距离 ks值 ...
- ks 曲线_模型算法基础——KS曲线
原创: 栗老师 金科应用研院 关于判断逻辑回归模型的分别能力,我们前面已经介绍了基尼系数和ROC曲线,今天我们来介绍一下KS曲线.KS曲线主要体现了模型对违约对象的区分能力,通常是在模型预测全体样本的 ...
- 数学建模学习(2)—— 客户流失预警模型案例评估 ROC曲线与KS曲线(2022.7.19)
昨天晚上做了个梦,梦到被老师臭骂了一顿,可以说当时把我直接吓醒了,醒过来后,惊叹一声,还好是个梦.在上个笔记中学习了逻辑回归的运用,这节课再来看一看对模型评估的方法. 文章目录 目录 文章目录 一.R ...
- 你要的机器学习常用评价指标,以备不时之需
导读 在机器学习中,我们前期经过数据采集.数据清洗,中期进行特征分析.特征选择,后期对处理好的数据集分割,将数据集划分为训练集.验证集.测试集,最后基于划分好的数据集进行训练调优,并选择性能最好的模型 ...
- python图像分割动态域值_图像处理基本算法 动态阈值分割
在图像处理时,受外界光线的干扰一般比较大,假如在阈值分割时采用固 定阈值,那么在环境改变时分割效果受影响极大,那么为了避免此影响就 必须采用动态阈值,自动求出合适的阈值进行分割. 本文的介绍几种主要的 ...
- sklearn 绘制roc曲线_sklearn——逻辑回归、ROC曲线与KS曲线
一.sklearn中逻辑回归的相关类 在sklearn的逻辑回归中,主要用LogisticRegression和LogisticRegressionCV两个类来构建模型,两者的区别仅在于交叉验证与正则 ...
- python ks曲线_sklearn——逻辑回归、ROC曲线与KS曲线
一.sklearn中逻辑回归的相关类 在sklearn的逻辑回归中,主要用LogisticRegression和LogisticRegressionCV两个类来构建模型,两者的区别仅在于交叉验证与正则 ...
- 百度飞桨半监督学习目标定位竞赛冠军方案分享
赛题介绍 赛题背景 监督学习模型的优异性能要以大量标注数据作为支撑,可现实中获得数量可观的标注数据十分耗费人力物力.于是,半监督学习逐渐成为深度学习领域的热门研究方向,只需要少量标注数据就可以完成模型 ...
- 机器学习基础:ROC曲线与AUC计算详解
AUC & ROC AUC是一个模型评价指标,只能用于二分类模型的评价,对于二分类模型,还有损失函数(logloss),正确率(accuracy),准确率(precision),但相比之下AU ...
最新文章
- Spring Cloud Alibaba教程:使用Nacos作为服务注册中心
- openssl下开发sm4-gcm-ciphers
- oracle数据库查询代码,ORACLE数据库查询表实例代码
- 知方可补不足~CSS中的几个伪元素
- P5664-Emiya家今天的饭【dp】
- 开机自启动和由一个APK启动另一个APK核心代码
- android x86 sleep,如何打开Android X86对houdini的支持
- 计算机学科研究方向统计
- UI素材|标签页 Tab实用案例,可临摹学习
- 设计原则在设计模式的应用
- CentOS/Ubuntu/Debian常用版本更换国内源的方法
- 计算机组成原理—半导体随机存储器的基本结构
- LabVIEW哪些软件需要运行时许可
- 配置淘宝Maven镜像仓库
- 【运筹学】分支定界法 ( 分支定界法求整数规划示例 ) ★★
- 八位数字后加逗号_【PTE干货】英文数字的读法
- Gif动图如何自制?一招教你快速完成gif制作
- SAP基底数据仓库实战项目(序章)
- 禁用MacOS系统自带输入法最简单的方法
- 神经系统位置图高清,中枢神经系统位置图
热门文章
- 安装SQl Server Polybase 报错解决方法
- sqlserver常用语句(报表,递归,分页等)
- android button的美化
- 安卓app之按键美化
- SLAM学习笔记《Past, Present, and Future of Simultaneous Localization and Mapping: Toward the Robust-Per》
- java字符串转list_java将String字符串转换为ListLong类型实例方法
- Android 在应用图标上设置未读消息数量
- DCDC基础(8)-- 同步BUCK芯片的电性能参数解读二
- 斐讯PSG1208 K1 路由器刷机
- 史上最全!每个程序员必须知道的学习网站!