KS-指标

  • ks定义

    ks是指通过衡量好坏样本累计分布之间的差值,来评估模型的风险区分能力。KS曲线又叫洛伦兹曲线。以TPR和FPR分别作为纵轴,以阈值作为横轴,画出两条曲线。KS曲线则是两条曲线的在每一个阈值下的差值
    真阳性率(TPR) : 判定为正例也是真正例的比率
    伪阳性率(FPR) :判定为正例却不是真正例的比率
    注:ks取的是TPR和FPR差值的最大值

  • KS(Kolmogorov-Smirnov)指标即max(TPR-FPR)

  • KS指标的含义

    KS值可以反映模型的最优区分效果,此时所取的阈值一般作为定义好坏用户的最优阈值。KS值越大,模型的预测准确性越好。KS值的取值范围是[0,1] ,一般,KS>0.2即可认为模型有比较好的预测准确性。
    KS<0.2:模型无鉴别能力;
    0.2-0.4之间,模型勉强接受;
    0.41-0.5之间,模型具有区别能力;
    0.51-0.6之间,模型有很好的区别能力;
    0.61-0.75之间,模型有非常好的区别能力;
    KS>0.75,模型异常,很有可能有问题。

  • ks 图像

    ks图线显示的是不同的阈值(cut_off)对应的不同ks值,取两条曲线的差值的最大值为ks值。故,ks值是找出模型中差异最大的一个分段,如评分卡这种相对就比较适合ks值的评估。对于一般任务更加关注负样本,那么区分度肯定就是很重要的,使用KS比AUC更加适合用于模型的评估。

  • 代码的实现

  • 第一种方法:

    def compute_ks(data):
    sorted_list = data.sort_values([‘predict_proba’], ascending=[True])#按照样本为正样本的概率值升序排序 ,也即坏样本的概率从高到低排序
    total_good=sorted_list[‘label’].sum()
    total_bad = sorted_list.shape[0] - total_good
    max_ks = 0.0
    good_count = 0.0
    bad_count = 0.0
    for index, row in sorted_list.iterrows(): #按照标签和每行拆开
    if row[‘label’] == 0:
    bad_count +=1
    else:
    good_count +=1
    val = abs(bad_count/total_bad - good_count/total_good)
    max_ks = max(max_ks, val)
    return max_ks
    test_pd=pd.DataFrame()
    y_predict_proba=est.predict_proba(X_test)[:,1]#取被分为正样本的概率那一列
    Y_test_1=np.array(Y_test)
    test_pd[‘label’]=Y_test_1
    test_pd[‘predict_proba’]=y_predict_proba
    print (“测试集 KS:”,compute_ks(test_pd))

  • 第二种方法:

    y_predict_proba = est.predict_proba(X_test)[:,1]
    fpr,tpr,thresholds= sklearn.metrics.roc_curve(np.array(Y_test),y_predict_proba)
    print (‘KS:’,max(tpr-fpr))

风控模型中的KS-指标相关推荐

  1. 风控模型中的KS指标

    ks-指标 ks定义 ks是指通过衡量好坏样本累计分布之间的差值,来评估模型的风险的区分能力. ks曲线又叫洛伦兹曲线,以TRP和FPR分别作为纵轴,以阈值作为横轴,画出两条曲线.KS曲线则是两条曲线 ...

  2. 如何浅显得理解风控模型中的特征筛选|附实操细节(全)

    今天我们综合了星球同学的一些需求,给大家梳理了这样一篇风控建模中特征筛选,希望对所有的风控人员在模型开发上都有所启发. 本文,我们会跟大家介绍特征选择的内容,包括其中的重点问题跟注意的细节. 因为完整 ...

  3. python稳健性检验_风控模型6大核心指标(附代码)

    欢迎各位同学学习python金融风控评分卡模型和数据分析微专业课 在我们开发完信用分模型后,经常需要计算如下的一些指标:●      区分度的指标:○      AUC○      KS○       ...

  4. 回归模型和时间序列模型中的MAPE指标是什么?MAPE指标解读、MAPE越大越好还是越小越好、使用MAPE指标的注意事项

    回归模型和时间序列模型中的MAPE指标是什么?MAPE指标解读.MAPE越大越好还是越小越好.使用MAPE指标的注意事项 目录

  5. 风控模型中的变量替换

    昨天的文章我们提到了评分模型中的监控报表汇总.文章中提及的监控报表内容,大部分是跟业务指标结合的监控内容,该文章所提及的监控的维度也较为丰富,大家抽空可以学习了解.传送:评分模型的监控报表汇总. 今天 ...

  6. 风控模型—WOE与IV指标的深入理解应用

    风控业务背景 在评分卡建模流程中,WOE(Weight of Evidence)常用于特征变换,IV(Information Value)则用来衡量特征的预测能力.风控建模同学可能都很熟悉这两者的应用 ...

  7. 来啦|深度讲解风控模型中的参数调优

    大数据时代的风控体系必有模型部分的参与,用策略贯穿整个风控体系,以数据为驱动,模型一定是标配内容.于是在模型的建设上,如何精细化地输出一套有效的模型,就是在精细化管理上非常重要的一个差异点.不管传统的 ...

  8. 风控模型中PSI指标

    PSI指标 PSI定义:群体稳定性指标PSI(Population Stability Index)是衡量模型的预测值与实际值偏差大小的指标:稳定度指标可衡量测试样本及模型开发样本评分的分布差异,为最 ...

  9. 风控模型中的五大类聚类算法介绍

    关注"金科应用研院",回复"CSDN" 领取"风控资料合集" 聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程. 聚 ...

最新文章

  1. 电脑里面的微软的事件跟踪收集服务器,Windows 10 加入关机原因提醒功能,就是那个关闭事件跟踪...
  2. mysql字段中ID值自动增长
  3. 网安面试只要掌握这十点技巧,轻轻松松吊打面试官
  4. cmi编码用c语言实现,CMI编码与解码
  5. SAP Cloud for Customer的产品主数据通过PI同步到CRM
  6. IDEA 配置Maven项目
  7. B2C全开源无加密单商户商城源码可二开双端自适应
  8. 算法分析与设计「二」递归算法
  9. PATH和CLASSPATH
  10. Codeforces Round #249 (Div. 2) A. Queue on Bus Stop
  11. centos7搭建CDH
  12. 分布式系统设计之DB类(来自深空老大)
  13. LaTeX 长度和单位 Lengths Units
  14. 安卓支持AES 256加密解密
  15. 多字节字符与宽字节字符
  16. Python基础教程--【2022暑假全新总结】
  17. matlab2016 dll,VS2012Matlab2016b dll文件混合编
  18. ssdt 表修改详细
  19. RabbitMQ入门篇、介绍RabbitMQ常用的五种模式
  20. 指纹浏览器是什么,有什么用,指纹浏览器有哪些,指纹浏览器排行

热门文章

  1. 观影感受 之 《绿皮书》
  2. OFDM调制matlab仿真详细代码
  3. 2d激光重定位系列(一)AMCL:算法源码参数 相关资源整合
  4. ZN-1AI工业机器人与智能视觉系统应用实训平台
  5. shell切分字符串到数组
  6. oracle 执行计划(F5)详解
  7. linux 设置开机自启
  8. Air202入坑指南4---UART2(简单使用)
  9. 网络流量 pv、uv、ip 各代表的含义
  10. 关于单片机PDR和POR应用注意事项