目录

1、ROC曲线

2、如何画ROC曲线

3、为什么使用ROC曲线

4、信用评分的简单小结(ROC,IV,WOE)

5、KS

6、群体稳定指数(PSI)————模型的稳定性


准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure

混淆矩阵.png

1、ROC曲线

需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision,recall,F-score,以及我们今天要讨论的ROC和AUC。下图是一个ROC曲线的示例。正如我们在这个ROC曲线的示例图中看到的那样,ROC曲线的横坐标为false positive rate(FPR),纵坐标为true positive rate(TPR)。下图中详细说明了FPR和TPR是如何定义的。(真阳性/假阳性=roc)(acu为roc曲线下的面积0.5到1)

下面考虑ROC曲线图中的虚线y=x上的点。这条对角线上的点其实表示的是一个采用随机猜测策略的分类器的结果,例如(0.5,0.5),表示该分类器随机对于一半的样本猜测其为正样本,另外一半的样本为负样本。

ROC更好的参考

2、如何画ROC曲线

假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率。

样例.png

接下来,我们从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一点。这样一来,我们一共得到了20组FPR和TPR的值,将它们画在ROC曲线的结果如下图:

3、为什么使用ROC曲线

既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡现象(class imbalance),即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和Precision-Recall曲线的对比:

4、信用评分的简单小结(ROC,IV,WOE)

常见的用于信用评分的模型就是logistic回归,这是一种处理二分类因变量的广义线性模型。这种模型的理论基础比较扎实,但是对于不同的问题当然也存在一些特殊的处理方式,我最大的困惑就在于建模时对分类自变量的处理方法。由于制作评分卡的某些需要,通常会在建立评分模型时将自变量做离散化处理(等宽切割,等高切割,或者利用决策树来切割),但是模型本身没办法很好地直接接受分类自变量的输入,因此需要对自变量进行再次的处理。比较常规的做法有两种:做dummy变量,做基于目标的变量编码。

dummy变量是比较顺其自然的操作,例如某个自变量m有3种取值分别为m1,m2,m3,那么可以构造两个dummy变量M1,M2:当m取m1时,M1取1而M2取0;当m取m2时,M1取0而M2取1;当m取m3时,M1取0且M2取0。这样,M1和M2的取值就确定了m的取值。之所以不构造M3变量,是基于信息冗余和多重共线性之类的考虑。但是,构造dummy变量也存在一些缺点,例如无法对自变量的每一个取值计算其信用得分,并且回归模型筛选变量时可能出现某个自变量被部分地舍弃的情况。

另一种处理分类变量的方法是基于目标对其进行编码,在信用评分中比较常见的就是用WOE编码。WOE叫做证据权重(Weight of Evidence),表示的其实是自变量取某个值的时候对违约比例的一种影响。

直观地可以认为WOE蕴含了自变量取值对目标变量(违约概率)的某种影响,因此可以自然地将自变量重新编码:当自变量取值Ai时,编码为相应的WOEi。

参考:信用评分的简单小结(ROC,IV,WOE)

5、KS

风控分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)、区分度指标(KS)是度量具体模型下正常样本和违约样本分布的最大差距,首先按照样本的信用分数或预测违约率从小到大进行排序,然后计算每一个分数或违约率下好坏样本的累计占比。正常和违约样本的累计占比差值的最大值即为区分度指标(KS)。区分度指标(KS)的示意如图2所示。区分度指标(KS)小于0.2代表模型准确性差,超过0.75则代表模型准确性高。

实际上是就是你建立好模型后,按照评分从大到小排列后:检验你所谓的好客户和坏客户两类客户分布的差异性,即模型区分度。分布根据好坏两个客户评分的累积密度分布曲线,画出来的:比如好坏客户共100个,按照评分排序后前百分之十的客户即10个,其中好的客户有8个,坏的客户有2个(总体样本中好客户80个,坏客户20个),那么前10%的客户的累积密度为:好客户10%,坏客户10%。同理前20%的客户中其中好的客户有15个,坏的客户有5个那么前20%的客户的累积密度为:好客户18.75%,坏客户25%
以此类推可以得出前30%,40%。。。。100%的累积密度。以10%,20%,30%。。。100%为横坐标,以两类客户累积密度为纵坐标,即可画出KS曲线图。

6、群体稳定指数(PSI)————模型的稳定性

群体稳定性指标(population stability index),公式: psi = sum((实际占比-预期占比)/ln(实际占比/预期占比))

psi.png

举个例子解释下,比如训练一个logistic回归模型,预测时候会有个概率输出p。你测试集上的输出设定为p1吧,将它从小到大排序后10等分,如0-0.1,0.1-0.2,......。现在你用这个模型去对新的样本进行预测,预测结果叫p2,按p1的区间也划分为10等分。实际占比就是p2上在各区间的用户占比,预期占比就是p1上各区间的用户占比。意义就是如果模型跟稳定,那么p1和p2上各区间的用户应该是相近的,占比不会变动很大,也就是预测出来的概率不会差距很大。一般认为psi小于0.1时候模型稳定性很高,0.1-0.25一般,大于0.25模型稳定性差,建议重做。

模型的稳定性用PSI指标来检验

分类算法—ROC指标应用相关推荐

  1. 分类算法—Performance指标

    目录 一.分类问题 二.回归问题 三.聚类 四.信息检索 五.总结 在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准,这里统一汇总.主要以两大类分类与回归分别阐述. 一.分类问题 1.混 ...

  2. 机器学习分类算法统一指标

    混淆模型 TP 预测正确 实际为正 TN 预测正确 实际为负 FP 预测错误 实际为正 FN 预测错误 实际为负 准确率 acc (TP+TN/TP+TN+FP+FN) 精准率(查准率) pre TP ...

  3. 机器学习5—分类算法之随机森林(Random Forest)

    随机森林(Random Forest) 前言 一.随机森林 1.什么是随机森林 2.随机森林的特点 3.随机森林的生成 二.随机森林的函数模型 三.随机森林算法实现 1.数据的读取 2.数据的清洗和填 ...

  4. 分类算法中的ROC与PR指标

    本文转自:http://blog.csdn.net/xiahouzuoxin/article/details/43165253 做过图像识别.机器学习或者信息检索相关研究的人都知道,论文的实验部分都要 ...

  5. 「机器学习速成」分类,评估指标(TP、FP、TN、FN),ROC曲线和AUC

    https://www.toutiao.com/a6706449645901464078/ 2019-06-25 20:49:47 大家好,今天我们学习[机器学习速成]之 分类,评估指标(TP.FP. ...

  6. 机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

    北京 | 高性能计算之GPU CUDA课程11月24-26日3天密集学习 快速带你晋级阅读全文> 在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度.错误率指的是在所有测试样例中错分 ...

  7. 分类性能度量指标:准确性(AC)、敏感性(SE)、特异性(SP)、F1评分、ROC曲线、PR(Precision-Recall)曲线、AUC曲线,混淆曲线

    一:比较容易理解的比喻 以糖尿病人的筛查为例.第一个钟形代表正常人,第二个钟形代表糖尿病人.理想中,如果正常人和糖尿病人的血糖范围完全没有重合就好了.这样我就把标准定在中间那个最低点.低于此点的,就是 ...

  8. 二分类最优阈值确定_一文搞懂分类算法中常用的评估指标

    导读 通常我们在解决某个问题的时候,会设计多种分类算法在训练的时候我们还会调节各种超参以及使用各种trick以获取最优的分类模型,那这时候我们应该如何来衡量这个最优呢? 分类算法的评估指标有很多种,选 ...

  9. 分类性能度量指标:ROC曲线、AUC值、正确率、召回率、敏感度、特异度

    在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度.错误率指的是在所有测试样例中错分的样例比例.实际上,这样的度量错误掩盖了样例如何被分错的事实.在机器学习中,有一个普遍适用的称为混淆矩阵 ...

最新文章

  1. iOS11和iPhone X的适配
  2. Linux密码文件passwd和shadow分析
  3. mongon命令(转)
  4. Qt Creator在桌面上预览
  5. SAP Fiori应用里日期格式的显示奥秘
  6. [转]Android中handler机制的原理
  7. docker export_docker使用简介
  8. yolov3代码详细解读
  9. Win7和win10下python3和python2同时安装并解决pip共存问题
  10. python 文件名以数字开头_python-如何使XML标记以数字开头?
  11. arcgis利用Model Builder构建器进行批量处理数据
  12. css网页设计作业_运动中心网页设计作业成品
  13. java pojo 类 怎么写_[转]Java中的POJO类
  14. 查看alexa世界排名
  15. 吃鸡显示服务器资源不足,Win10系统玩绝地求生提示虚拟内存不足的解决方法教程[多图]...
  16. 开发一个会员管理系统
  17. 网络管理与维护(5.1)RMON 远程网络监视
  18. plt.style绘图风格展示(matplotlib)
  19. win10无限蓝屏 ,错误代码BAD_SYSTEM_CONFIG_INFO
  20. small rtos51学习资料收集

热门文章

  1. HDMI-USB视频采集卡使用教程
  2. 1.Postman之发送get请求
  3. (2)RIL简析(高通)——消息处理
  4. C语言实验(十三):函数(求两个任意分数和的最简形式、将正整数转换为字符串输出、某日期是该年第几天)
  5. 【新网数码】急聘研发总监/架构师
  6. Android 原生支持 Opus、AV1!但你真正要了解的还有更多
  7. 超市会员管理系统,数据库课程设计
  8. win10下安装最新版HALCON19.05
  9. 台式机计算机图标不见了,win7系统电脑右下角无线网络连接图标不见了怎么办-台式电脑怎么设置无线网络...
  10. 知识付费系统如何快速二开