1.极端值的识别

极端值的来源无非是数据差错和数据差异。

大多数情况下,极端值被删除或者被重置。但是,当极端值的观测量很大时,需要考虑分群(segments),ie.针对每个群开发独立的评分卡。

识别方法如下:

  • 设定正常的取值范围
  • 考虑数据的多元属性,建立拟合模型,偏离模型值为极端值
  • 聚类算法
  • 依靠决策树发现包含少量观测值的持续节点。这取决于一个好的交互式决策树软件和对数据进行可视化探索的可能。

2.用SAS实现对极端值的识别

  • 计算出均值和标准差之后,调用宏%extremes

/* identifying outliers using the mean and three standard deviations */

%extremes(dsin,varx,idvar,nsigma,dsout);

/* 输入数据集,被分析变量,ID变量,标准差倍数,输出数据集 */

  • K-均值聚类识别 (考虑了数据的多元特征)

/* 宏%clustol用proc fastclus创建总计为nclust的簇,参数pmin被设定一个簇中的观测值相对于数据集总体的百分比。大多数风险评分实践中,被设定为0.05~0.10 */

%ClustOL (&dsin,&varlist,&NClust,&Pmin,&DSout);

/*  输入数据集,变量列表,簇的数量,簇的最大规模,输出数据集 */

  • 多级别识别

ie.首先单变量分析识别极端值,然后聚类在多元特征上识别极端值

3.极端值的处理

  • 考虑分群处理 (极端值数量很多)
  • 删除
  • 用一些单变量统计量替代(缺点:有偏)
  • 多重归因? (proc MI)

转载于:https://www.cnblogs.com/jane-lau/p/8458924.html

3.6评分卡极端值的识别以及处理相关推荐

  1. 信用风险评估评分卡 之 极端值

    极端值的产生: 1.数据生成的过程来源于某些未知的函数形式的分布,很难确定哪些观测值是极端值: 2.在获取原始业务数据过程中,产生差错. 极端值的识别: 1.为每个变量(feature)设定一个正常的 ...

  2. [机器学习] 信用评分卡中的应用 | 干货

    背景介绍与评分卡模型的基本概念 如今在银行.消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判.交易对手未能履行约定契约中的义务而造成经济损失的风险,即 ...

  3. 标准评分卡分数计算原理_评分卡的形式、刻度及应用场景

     看到有伙伴提问: ①我们的评分卡做好后,后续的使用策略是什么呀,都有哪些方向? ②评分卡分数切割点如何定,制定的业务逻辑是什么? 其实,这个问题不好回答,也好回答. 一方面,不好回答是因为金融市场 ...

  4. 使用逻辑回归制作评分卡

    1.什么是评分卡? 在银行借贷场景中,评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,一般来说,评分卡打出的分数越高,客户的信用越好,风险越小. 2.评分卡怎么使用? 对于需要借贷的个人或者 ...

  5. 【模型开发】评分卡应用

      看到研习社有伙伴提问:   ①我们的评分卡做好后,后续的使用策略是什么呀,都有哪些方向?   ②评分卡分数切割点如何定,制定的业务逻辑是什么?   其实,这个问题不好回答,也好回答.   一方面, ...

  6. 催收评分卡(五)--浅显理解模型一个非常重要的验证指标

    关注公众号" 番茄风控大数据",获取更多数据分析与风控大数据的实用干货.   之前说的关于变量的整理,按照一套标准化的建模流程,变量整理完后,一般会基于各种基础变量做数据衍生.   ...

  7. python如何确定拐点_经典评分卡模型python实现(mdlp离散化,woe拐点判断以及iv值筛选变量)...

    美丽的周三早上,被专利问题所困扰,完全写不进去,换个思维决定把之前做过的评分卡模型整体流程逻辑记录在知乎上,希望能给大家提供帮助. 前言: 评分卡模型经常被用于银行,电信等领域,作为识别用户欺诈概率或 ...

  8. python评分卡1_woe与IV值

    本系列分以下章节: python评分卡1_woe与IV值 python评分卡2_woe与IV分箱方法 python评分卡3_woe与IV分箱实现 python评分卡4_logistics原理与解法_s ...

  9. 分计算iv值_一文读懂评分卡的IV、KS、AUC、GINI指标

    前言: 当一张评分卡构建完成时,筛选出一组特征生成了分数,我们会想要知道这个分数是否靠谱,即是否可以依赖这个分数将好坏客户区分开来,这个时候就需要评判评分卡有效性的指标. 测量评分卡好坏区分能力的指标 ...

最新文章

  1. Forrester发表2010年度MSS市场分析报告
  2. 利用存储过程来实现分页性能比较
  3. MFC串口通信上位机(采用静态库编译生成的)不能在其他电脑运行的问题
  4. 回溯算法-02遍历所有组合方式问题
  5. 21行代码AC——习题3-7 DNA序列(UVa-1368)_解题报告
  6. java中compile函数用法_【转】关于java中Pattern.compile函数的相关解释
  7. sum of two integers
  8. 18-ESP8266 SDK开发基础入门篇--TCP 服务器 RTOS版,串口透传,TCP客户端控制LED
  9. 最优化学习笔记(十九)——拟牛顿法(5)BFGS算法
  10. linux signal 处理
  11. JS生成UUID的几种方法
  12. 「经济/商学/理财」简说
  13. 木讷的程序员需要知道的事情 (八)
  14. win10注册ocx控件的步骤(包含错误处理方法0x80040200)
  15. 数仓即席查询---Presto
  16. 6款逆天黑科技,颜值爆表,瞬间提升你的手机逼格!
  17. Multisim # 数字逻辑仿真实验一些基础的tips
  18. strsep() 函数
  19. 安卓WebView在线预览office文档功能实现
  20. 手机桌面便签app哪个比较好用

热门文章

  1. 每天一道LeetCode-----在字符方格中查找某个单词
  2. VMware+Win7+windbg 双机调试
  3. 算法总结之编码(C++)
  4. 德州扑克里的专业术语你知道几个?
  5. python3中的while语句、if语句
  6. excel 下拉框选择月份显示不同的日历_秒杀Excel的数据分析工具,几分钟教你完成数据填报...
  7. log4j xml配置详解
  8. XSD(Schema)教程
  9. smarty课程---smarty3的安装和使用
  10. Shiro 编码/加密