一条案例:如何选择合适的第三方数据源

真实案例阐述

不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通。获客、导流、风控、委外催收,正是因为整个产业链条的分工合作,金融信贷产业才可以总体维稳、获益。

不论是金融第一梯队银行类,还是二、三梯队非银机构,风控部门在进行信贷风险控制环节都需要接入大量的第三方外部数据,以此支撑信用风险精准判断与预险。

如何选择合适的第三方数据源,保证风险可控的前提下节省数据成本,一条实操案例教你来选!

案例介绍

一条案例:现有1000个样本数据,分别测试2家黑名单,2家欺诈名单与2家多头,如何选择合适的第三方数据源?

首先要专业科普选择第三方数据源重要考察的5大指标计算公式(以黑名单为例):

查得率(Search rate)=查得数/样本量
覆盖率(Cover rate)=查得命中黑名单数/样本中命中黑名单量
误拒率(Error reject rate)=查得命中黑名单数/样本中通过且为Good量
有效差异率(Effective difference rate)=查得命中黑名单数/样本中通过且Bad量
无效差异率(Invalid difference rate)=查得命中黑名单数/样本中其他拒绝量

其中SR、CR、EDR指标越高越好,ERR越低越好,IDR与EDR结合起来观察,如果IDR和EDR都较高,反应的一种情况是数据源定义黑名单是广撒网式,黑名单质量相对不够精准。

其中前三个指标是重点考察,如果想更全面的测试第三方数据源,后面两个差异率指标也可以加入考核标准。

测试数据与考核指标关系图如下

数据介绍

1000个测试样本数据中,审批结果字段表示样本通过和拒绝,其中通过样本中有未逾期和发生逾期的客户样本,拒绝样本中有通过黑名单库拒绝客户,也有其他原因产生拒绝。比如,数据源1(黑名单)代表一家提供黑名单数据的数据供应商A,数据源2(黑名单)代表另一家提供黑名单数据的数据供应商B,以此类推。

分析方法

本次以黑名单数据测试为例讲解

对1000条测试数据返回结果进行整理可以总结出如上数据概要,对比看到数据源1的返回结果如下:

查得总量814个;
命中黑名单35个;
通过中为Good3个;
通过中为Bad8个;
其他拒绝为22个;

数据源2的测试返回情况以此类推。

采用专业考察第三方数据源的五大指标,对以上返回结果计算分析得到以下结果:

按照文章开始介绍的指标分析方法,对比数据源1和数据源2的测试结果可以得出如下结论:

数据供应商1的查得率、覆盖率高于数据供应商2大约5%、4%;
数据供应商1的误拒率低于数据供应商2大约0.3%;
数据供应商1的有效差异率低于数据供应商2大约8%,无效差异率低于数据供应商2大约7%;

依据五大指标分析标准,SR、CR、EDR指标越高越好,ERR越低越好,IDR与EDR结合起来观察,如果IDR和EDR都较高,反应的一种情况是数据源定义黑名单是广撒网式,黑名单质量相对不够精准!

最终分析结论:

数据供应商2虽然覆盖的黑名单比数据供应商1的更广,但其不如数据供应商1精准,更偏向选择数据供应商1的黑名单数据。

想要了解查得率在80%还是70%比较好?误拒率的容忍线在哪里?更多指标的深度含义?不妨参加金融科技应用研究院(简称FAL)11月份大力筹备的第八期量化风控全线条训练营!

搜索:「 金科应用研究院」

可以从微信公众号菜单栏点击「在线学习」

更多风控资讯与干货学习资料,都在微信公众号


回复关键字: 「风控福利包」➡️领取干货学习资料

一条案例:如何选择合适的第三方数据源相关推荐

  1. 【数据来源】如何选择合适的第三方数据源

    转:原文链接:https://mp.weixin.qq.com/s/jtaJWqR6SRnw5GLLC54dbw 不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通. ...

  2. ML之FE:Vintage曲线/Vintage分析(观察用户的全周期风险情况/明确用户风险的成熟期/确定逾期率何时趋向于稳定/从而选择合适的表现期)的简介、计算逻辑、案例应用之详细攻略

    ML之FE:Vintage曲线/Vintage分析(观察用户的全周期风险情况/明确用户风险的成熟期/确定逾期率何时趋向于稳定/从而选择合适的表现期)的简介.计算逻辑.案例应用之详细攻略 目录 Vint ...

  3. redis value多大会影响性能_选择合适Redis数据结构,减少80%的内存占用

    前言 redis作为目前最流行的nosql缓存数据库,凭借其优异的性能.丰富的数据结构已成为大部分场景下首选的缓存工具. 由于redis是一个纯内存的数据库,在存放大量数据时,内存的占用将会非常可观. ...

  4. 正确选择合适的移动应用测试工具很重要

    您知道吗,据Statista称,到 2025 年,智能手机用户数量将达到 182.2 亿?其实也不用惊讶,数字化转型正在飞速发展,并将继续如此.这给移动应用程序开发市场带来了各种选择,并引发了对最佳移 ...

  5. 「Web应用架构」轮询,SSE 和WebSocket,如何选择合适的?

    构建实时Web应用程序有点挑战,我们需要考虑如何将数据从服务器发送到客户端.能够"主动"实现这一功能的技术已经存在了很长时间,并且仅限于两种通用方法:客户端请求或服务器请求. 实现 ...

  6. 「首席看应用架构」轮询,SSE 和WebSocket,如何选择合适的?

    构建实时Web应用程序有点挑战,我们需要考虑如何将数据从服务器发送到客户端.能够"主动"实现这一功能的技术已经存在了很长时间,并且仅限于两种通用方法:客户端请求或服务器请求. 实现 ...

  7. 3.2 为超参数选择合适的范围-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 3.1 调试处理 回到目录 3.3 超参数训练的实践: Pandas vs. Caviar 为超参数选择合适的范围 (Using an Appropriate Scale t ...

  8. mysql数据库 数据类型自动编号选哪个_MySQL表类型、选择合适数据类型、字符集...

    MySQL学习笔记(4) 表类型(存储引擎)的选择 插件式存储引擎是MySQL最重要特性之一,5.5之前默认引擎为MyISAM,之后为InnoDB,如需修改默认存储引擎,可在参数文件中设置defaul ...

  9. (转)如何选择合适的射频模块

    要选择合适的射频模块,以下几个问题我们都需要搞搞清楚:无线设备该通多远.该用多大的功率.如何扩大通信距离.天线是否该重视.该选什么样的模块.初学者如何选择仪器.如何确定通信状况等等. 无线设备该通多远 ...

最新文章

  1. 中间省略_手机号码中间4位设置为*号,我用了5小时,可同事8秒就搞定了
  2. JSP中四种传递参数的方法
  3. Jenkins+SonarQube6.5.5+SonarScanner2.5代码质量管理平台
  4. 区块链101:区块链的应用和用例是什么?
  5. 最强大的人工智能系统 | NVIDIA DGX-2
  6. 约数之和(分治,公式变形)
  7. QAction QActionGroup QMenu 使用方法
  8. python安装sqlalchemy-Python流行ORM框架sqlalchemy安装与使用教程
  9. win10打开蓝牙_win10动态锁,只要你离电脑远一点,电脑就自动锁定
  10. 常用元器件封装的命名规范-002
  11. 自考 软件工程专业 07169 软件开发工具
  12. 2000字谏言,给那些想学Python的人,建议收藏后细看!
  13. InstallShield Limited Edition Project下载及进行打包发布汇总
  14. “共码未来”——2022Google开发者大会纪行
  15. 语音信号处理-概念(三):FBank特征、MFCC特征(梅尔频率倒谱系数)【由于二者蕴含信息较少,已不适合这个大数据时代。但有些任务由于其本身的特殊性质,还是会使用到MFCC谱。如情感语音转换任务】
  16. mybatis学习1
  17. 作业——05 理解爬虫原理
  18. windows搭建wordpress方法-windows搭建wordpress教程
  19. Italvibras M3/4-S02振动电机M3/20-S02 3/100-S02 3/200-S02 MVSI 3/300-S02振动电机
  20. 计算机英语汇总(保持更新)

热门文章

  1. 《统计学习方法》读书笔记——机器学习常用评价指标
  2. oracle时分秒修改值_Oracle SQL Developer显示的时间包含时分秒的设置方法
  3. 数据建模_漫谈数据仓库之维度建模
  4. 关于机器人方面的sci论文_如何给论文润色?从这两个方面入手
  5. vscode打开自动提示_Python编程的最好搭档:VSCode 详细指南
  6. Python基础-列表(列表常用函数/列表遍历)
  7. python编程基础之二十九
  8. java并发总结思维导图
  9. qwt的安装和移植-
  10. RESTful Request:GET/PUT/DELETE/POST/HEAD/OPTIONS