定量指标是数值型的,我们还可以用回归的方法来筛选,那么定性的指标怎么办呢?
R里面给我们提供了非常强大的IV值计算算法,通过引用R里面的informationvalue包,来计算各指标的IV值,即可得到各定性指标间的重要性度量,选取其中的high predictive指标即可。
有很多小伙伴不知道informationvalue是什么:
我大概说一下,IV值衡量两个名义变量(其中一个是二元变量)之间关联性的常用指标。

library(InformationValue)
library(klaR)
credit_risk<-ifelse(train_kfolddata[,"credit_risk"]=="good",0,1)
#将违约状态变量用0和1表示,1表示违约。
tmp<-train_kfolddata[,-21]
data<-cbind(tmp,credit_risk)
data<-as.data.frame(data)factor_vars<-c("status","credit_history","purpose","savings","employment_duration","personal_status_sex","other_debtors","property","other_installment_plans","housing","job","telephone","foreign_worker")
#获取所有名义变量
all_iv<-data.frame(VARS=factor_vars,IV=numeric(length(factor_vars)),STRENGTH=character(length(factor_vars)),stringsAsFactors = F)
#初始化待输出的数据框
for(factor_var in factor_vars)
{all_iv[all_iv$VARS==factor_var,"IV"]<-InformationValue::IV(X=data[,factor_var],Y=data$credit_risk)  #计算每个指标的IV值all_iv[all_iv$VARS==factor_var,"STRENGTH"]<-attr(InformationValue::IV(X=data[,factor_var],Y=data$credit_risk),"howgood")  #提取每个IV指标的描述
}
all_iv<-all_iv[order(-all_iv$IV),]    #排序IV

由结果可知,可选择的定性入模指标,如表3.12所示。

综上所述,模型开发中定量和定性的入模指标如表3.13所示。

对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分段),以便于计算定量指标的WOE和对离散变量进行必要的降维。对连续变量的分段方法通常分为等距分段和最优分段两种方法。等距分段是指将连续变量分为等距离的若干区间,然后在分别计算每个区间的WOE值。最优分段是指根据变量的分布属性,并结合该变量对违约状态变量预测能力的变化,按照一定的规则将属性接近的数值聚在一起,形成距离不相等的若干区间,最终得到对违约状态变量预测能力最强的最优分段。

定量指标筛选见上篇:
http://blog.csdn.net/lll1528238733/article/details/76600019

评分卡模型开发-定性指标筛选相关推荐

  1. 评分卡模型开发-定量指标筛选

    模型开发的前三步主要讲的是数据处理的方法,从第四步开始我们将逐步讲述模型开发的方法.在进行模型开发时,并非我们收集的每个指标都会用作模型开发,而是需要从收集的所有指标中筛选出对违约状态影响最大的指标, ...

  2. 信用评分卡模型开发及评估指标

    版权声明:本文为博主原创文章,未经博主允许不得转载. 一.信用风险评级模型的类型 信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用&qu ...

  3. 评分卡模型开发(十)--总体流程

    转自: https://blog.csdn.net/lll1528238733/article/details/76602006 一.信用风险评级模型的类型 信用风险计量体系包括主体评级模型和债项评级 ...

  4. 信用标准评分卡模型开发及实现

    一.信用风险评级模型的类型 信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用"四张卡"来表示,分别是A卡.B卡.C卡 ...

  5. 信用评分卡模型开发中双峰分布原因及解决方案

    信用评分卡模型开发中双峰分布原因及解决方案   文: 郑旻圻 邹钰 刘巧莉 转自:  数信互融 在信用评分卡模型开发过程中,正态性是检验模型信用评分分布是否有效的一个重要指标.正常情况下,标准的正态分 ...

  6. 评分卡模型开发(五)--定性指标筛选

    转自:https://cloud.tencent.com/developer/article/1016327 定量指标是数值型的,我们还可以用回归的方法来筛选,那么定性的指标怎么办呢? R里面给我们提 ...

  7. 评分卡模型开发(四)--定量指标筛选

    模型开发的前三步主要讲的是数据处理的方法,从第四步开始我们将逐步讲述模型开发的方法.在进行模型开发时,并非我们收集的每个指标都会用作模型开发,而是需要从收集的所有指标中筛选出对违约状态影响最大的指标, ...

  8. 评分卡模型开发(七)--基于逻辑回归的标准评分卡实现

    由逻辑回归的基本原理,我们将客户违约的概率表示为p,则正常的概率为1-p.因此,可以得到几率,也叫对数比率: 此时,客户违约的概率p可表示为: 评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表 ...

  9. 评分卡模型开发(六)--WOE值计算

    转自:https://cloud.tencent.com/developer/article/1016331 对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分段),以便于计算定量指标的W ...

最新文章

  1. MySQL百万级数据分页查询及优化
  2. HTML5 新增内容
  3. 【原创】kafka client源代码分析
  4. 计算质数通过分区(Partition)提高Spark的运行性能(转载+自己理解)
  5. 【渝粤教育】21秋期末考试混凝土结构10515k1
  6. 20155320 第十一周课堂总结
  7. Win10+CUDA10.0.130+cudnn7.4.1+tensorflow1.13.1+anaconda3 5.2.0+GTX1060
  8. RabbitMQ架构模型(一)
  9. 易语言html实现报表打印,易语言报表统计功能例程可打印
  10. SQL UNION使用
  11. zencart 批量修改价格
  12. C语言:数组排序(选择法排序)
  13. 小巷开店问题(答案揭晓)
  14. iOS设备 历代 机型对照表
  15. 第十三题:中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱百鸡问题”:一只公鸡值5钱,一只母鸡值3钱,三只小鸡值1钱,现在要用百钱买百鸡,请问公鸡、母鸡、小鸡各多少只?
  16. python plot坐标轴显示比例一致_绘图,x轴和y轴的比例相同
  17. 格签名相似概念区分: SVP、SIS、LWE的区分
  18. Android 键盘属性
  19. Ubuntu共享文件夹设置
  20. linux两个光驱,llinux挂载多个光驱

热门文章

  1. 《思科数据中心I/O整合》一2.13 VEB:虚拟以太网桥接
  2. 网络编程基础【day09】:socket实现文件发送(六)
  3. 项目启动会的内容和意义(选自张成功项目管理记)
  4. “MOSE就是战略”系列之一:MOSE是什么?
  5. php zitian虚拟主机配置_建设网站怎么选择虚拟主机
  6. 一起学习Hive基础(多知识点)
  7. windows本地git账户信息修改
  8. 兮克SKS7300-12GPY2XGT2XGS交换机搭配爱速特NAS的链路聚合设置教程
  9. @font-face自定义字体包
  10. 基于Office Online Server 2016 的 office在线编辑