《Credit Risk Scorecard》第五章: Development Database Creation
第五章:Scorecard Development Process, Stage 3: Development Database Creation
Selection of Characteristics
特征选择需要考虑:(1)有预测能力; (2)可靠并且鲁棒性; (3)易于收集; (4)可解释性;
Sampling
Development/Validation: 样本划分为训练集和测试集。这种常用的方法,交叉验证,跨时间窗验证等。
Good/Bad/Reject:
常见的开发样本采样方式:()oversamling (过采样),这种需要事后进行模型调整; (2)按比率采样,开发样本分布和真实样本分布保持一致。
Development Data Collection and Construction
Random and Representative: 样本选择必须是随机的,代表开发的评分卡应用的对象(需要排除特定类型的样本)。样本倾斜某些群体会造成弱化其他群体的预测能力。
Nonsegmented Dataset:划分不同场景开发评分卡,所有需要对不同场景构造相对独立的切分样本集。同时,也需要保留一份没划分的样本。这样的做的目的,是方便统计划分场景的评分卡对不划分场景的评分卡模型带来的提升效果有多大。
Data Quirks:当收集数据的时候,需要了解数据库相关数据变更历史,尤其样本窗口前后。这里面可能设计点字段值定义的改变,字段名的改变等。
Adjusting for Prior Probabilities (预测概率调整)
实际开发样本是经过一定过采样后的,这样开发样本好坏样本分布和真实样本中好坏分布是不一致的。针对这样情况,需要模型做一定的处理,来还原真实的分布情况。当然,有些情况是不需要调整的,比如如果你只关心评分相对排序(关心分数具体值),或者自变量和目标值关系。
一般信用评分模型中是需要做特殊处理的,因为信用评分模型是用来做真实决策,设定阈值,考察评分和坏样本率具体真实对应关系。
假设一个开发样本集,有2000好样本,2000坏样本,2000拒绝样本组成,那开发样本,申请通过率为67%,坏样本率为50%。但是真实的样本分布情况,如下图所示,其中申请通过率为70.5%, 坏样本率为12.4%。
常见的调整方法:(1)偏置调整(offset); (2)样本权重调整(sample weight)
Offset Method:
偏置调整,一般可以在模型预测概率后进行调整,下面是调整公式。
Sampling Weights:
样本加权,对样本进行加权后再进行训练。下面提到不同类别的样本权重。
具体采用偏置调整方法,还是样本加权方法? 如果是lr模型,优先选择偏置调整方法,如果是一些非线性模型,加权方法更合适。同时,如果是基于非分组变量开发,那偏置调整方法更好;如果基于分组变量,点分卡开发,加权方法更好,因为他不仅修正预测概率,同时更正了参数估计,进而使派生出的特征评分更合理。
《Credit Risk Scorecard》第五章: Development Database Creation相关推荐
- 《Credit Risk Scorecard》第八章: Scorecard Implementation
第八章: Scorecard Development Process, Stage 6: Scorecard Implementation 这章主要涉及开发后期的分析和处理,主要涉及三个方面: (1) ...
- 《Credit Risk Scorecard》 第六章: Scorecard Development
范涛 发表于2017-03-31 第六章:Scorecard Development Process, Stage 4: Scorecard Development 开发流程: 对于申请评分卡(A 卡 ...
- 《Credit Risk Scorecard》第四章:Data Review and Project Parameters
第四章:Scorecard Development Process, Stage 2: Data Review and Project Parameters 一: data avaliablity a ...
- 设计数据密集型应用 第五章:复制
设计数据密集型应用 第五章:复制 与可能出错的东西比,'不可能'出错的东西最显著的特点就是:一旦真的出错,通常就彻底玩完了. --道格拉斯·亚当斯(1992) 文章目录 设计数据密集型应用 第五章:复 ...
- Programming Entity Framework-dbContext 学习笔记第五章
### Programming Entity Framework-dbContext 学习笔记 第五章 将图表添加到Context中的方式及容易出现的错误 方法 结果 警告 Add Root 图标中的 ...
- Gradle 1.12用户指南翻译——第三十五章. Sonar 插件
本文由CSDN博客万一博主翻译,其他章节的翻译请参见: http://blog.csdn.net/column/details/gradle-translation.html 翻译项目请关注Githu ...
- 《NodeJS开发指南》第五章微博实例开发总结
所有文章搬运自我的个人主页:sheilasun.me <NodeJS开发指南>这本书用来NodeJS入门真是太好了,而且书的附录部分还讲到了闭包.this等JavaScript常用特性.第 ...
- mysql第五章事务_mysql 第五章 备份恢复
mysql 第五章 备份恢复 一.备份策略***** 1.每周一次全备,每天一次增量备 2.每天检查备份是否成功 3.每季度进行备份恢复演练 4.设置 -master-data=2 (记录备份的GTI ...
- mysql第五章项目二_Todo List:Node+Express 搭建服务端毗邻Mysql – 第五章(第1节)
点击右上方红色按钮关注"web秀",让你真正秀起来 前言 万丈高楼平地起,我们的Todo List项目也是越来越结实了.Todo List的前面4章内容都是在为Client端开发, ...
最新文章
- 浅读设计模式 - 1
- C++类的Const数组的初始化
- linux 网络服务器 源码下载,linux下 各类tcp网络服务器的实现源代码.doc
- Google Research新成果,让表格理解和检索更上一层楼!
- ecs 云服务器 管理控制台_【弹性计算】教您快速学会云服务器ECS 创建命令!
- 公共界面_公共建筑东营市档案馆能耗计量分析系统
- 主成分分析碎石图_ISLR读书笔记十九:主成分分析(PCA)
- 微服务RPC框架-Feign
- django2自动发现项目中的url
- String类两种实例化方式的区别
- 揭秘让您正确识别和处理恶意邮件的五种方法
- wso2 esb 配置mysql_WSO2企业服务总线(WSO2 ESB)介绍
- fei 正则表达式_正则表达式 匹配 中文/日文/韩文
- Golang的反射机制(The Laws of Reflection)
- Lock wait timeout exceeded
- vue实现li列表的新增删除和修改
- 计算机的喇叭接口显示的英文,电脑没声音右下角小喇叭显示红X,播放设备AMDHDMIOUTPUT...
- [go游戏开发实践]游戏唯一id产生算法
- linux搭建raid5命令,命令行操作RAID5
- 【视频分享】尚硅谷HTML5前端视频_Vue核心技术视频
热门文章
- mysql自动异地备份脚本_MYSQL数据库自动本地/异地双备份/MYSQL增量备份
- 银行家算法的分析与实现
- django html5 关系,Django REST FrameWork中文教程5:关系和超链接API
- qt定时连续发送udp数据包_TCP和UDP
- php企业站数据表,php – 创建一个站点来查询表的数据库
- 返回数据给上一个活动
- sql 精读(一)标准 SQL 中的分析函数概念
- git push代码到远程新分支
- 整合rpc远程调用_远程过程调用(RPC)
- 深度学习~生成式对抗神经网络GAN