在开发信用申请评分卡之前,最基本面的工作就是梳理理解数据。不要自认为知道这些字段的中文意思、来自哪张数据表就可以了,还要尽可能的去了解这些数据是从生产库怎么生成的,也就是说这些可能用到的变量数据还原到业务中是怎样的衍生过程,当然如果你们是直接从生产库里挑选数据提炼到建模表上,那么恭喜你,可以花更多的时间去梳理整理数据了,建好的模型也会更稳定准确。

现在很多科技数据公司一味的去强调算法、大维度变量,但却忽略了业务数据的理解,做出来的模型自然也就与实际业务偏差很大,就算是ks为0.5以上也是很难实际落地。

变量业务理解梳理,尽管很繁琐,却尤为重要。

举个例子

对于现在很流行的现金贷业务,客户申请的三基本要素:姓名,身份证、手机号(不要傻傻认为申请时只要你三要素,这是个幌子,通过用户授信、SDK抓取,任何信息都可以拿到,毕竟隐私这种事说说就算了)。

对于一个客户填写了这三要素之后,业务生产库里就会存在name、idcard、phonenumber三个字段去存储每一个申请客户的数据。如果对于建模的你来说,没有权限看到生产库的数据,只有数据仓库给你使用,你从数仓里看到了sex、province、city、sex、Valid_period_of_ID_card等等。这些字段都是从生产库里衍生出来的,有些是业务逻辑需要,有些是报表需求。

就以身份证idcard为例,一个申请客户提供了idcard:440306199005113437,申请时点为2017.10.28,

18位身份证号码各位的含义:
1-2位省、自治区、直辖市代码;
3-4位地级市、盟、自治州代码;
5-6位县、县级市、区代码;
7-14位出生年月日,比如19670401代表1967年4月1日;
15-17位为顺序号,其中17位(倒数第二位)男为单数,女为双数;

根据身份证编码含义,我们就可以在在数仓里衍生出如下字段

小科普板块

对于Valid_period_of_ID_card这个变量的衍生,大家首先要知道身份证号的含义,还要去测算申请客户目前是第几代身份证,然后去了解关于身份证法对于身份证有效期的划分标准,最后根据客户申请时点去测算他目前的身份证还有多长的有效期。

Valid_period_of_ID_card这个衍生变量可以在策略规则和建模中使用,比如身份证有效期较短的客群通过历史数据分析发现在公司cash loan中大占比为骗贷客户,策略引擎里已经设置了强拒绝规则,那么我们在建模的时候,就要把身份证有效期超出相应规则界限的客群剔除掉,直接排除这部分数据进入评分卡模型的训练样本,可以很好的排除这部分客群对模型的干扰,提升模型的区分好坏能力。

回归正题

假如现阶段公司现金贷业务限定只给予年龄在20-35岁,非广东区域的客户进行放款,产品业务已经明确了各个维度的限制,那么我们在数据导入前,在了解了衍生变量的业务逻辑之后,很明确的知道这个申请客户是不可能进行贷款的,不满足业务要求的客群也是应该通过相关变量进行排除的,这就是我想跟大家聊的梳理理解数据的重要性。

理清数据的来源,也才能更方便的让我们脑洞大开地去创造变量!

一句话概要:数据建模评分卡,业务理解是第一

更多金融风控知识,请关注【金融科技应用学苑】公众号

开发申请评分卡的第一步要做什么相关推荐

  1. 互联网金融行业申请评分卡(A卡)简介

    文章目录 前言 基本概念 1.信用违约风险的基本概念 什么是信用违约风险: 组成部分 违约的主体 个贷中常用的违约定义 M0,M1,M2的定义 2.申请评分卡的重要性和特性 信贷场景中的评分卡 申请评 ...

  2. 机器学习之金融信贷风控(一)互联网金融业申请评分卡的介绍

    金融信贷风控中的机器学习 在信贷风控领域,随着大数据.计算机集群技术.网络技术和人工智能的发展,越来越多的金融机构将传统的策略风控手段转向依赖机器学习模型等量化手段.信贷环节中的审批.预警.催收以及营 ...

  3. (信贷风控一)互联网金融业申请评分卡的介绍

    互联网金融业申请评分卡的介绍 本文主要讲解以下知识点 信用违约风险的基本概念 申请评分卡的重要性和特性 贷款申请环节的数据介绍和描述 非平衡样本问题的定义和解决方法 信用违约风险的基本概念 什么是信用 ...

  4. 金融风控-申请评分卡模型-申请评分卡介绍

    从这篇博文开始,我将总结金融风控中的另外一个模型:申请评分卡模型.这篇博文将主要来介绍申请评分卡的一些基本概念. 本篇博文将以以下四个主题来进行介绍说明: 信用风险和评分卡模型的基本概念 申请评分卡在 ...

  5. 金融风控-- >申请评分卡模型-- >申请评分卡介绍

    从这篇博文开始,我将总结金融风控中的另外一个模型:申请评分卡模型.这篇博文将主要来介绍申请评分卡的一些基本概念. 本篇博文将以以下四个主题来进行介绍说明: 信用风险和评分卡模型的基本概念 申请评分卡在 ...

  6. (信贷风控七)申请评分卡模型Python实现(图文+代码实现)

    (七)申请评分卡模型Python实现(图文+代码实现) 贷前准入环节流程图大致如下 为什么需要建立评分卡? 所有的模型一定是服务于业务的,那么业务上到底出现了什么问题,需要用到评分卡模型去解决呢?我们 ...

  7. 机器学习之金融信贷风控(二)申请评分卡中的数据预处理和特征衍生(未完待续)

    申请评分卡中的数据预处理和特征衍生 模型处理的一般流程: 构建信用风险模型的特征 获取数据 链接:https://pan.baidu.com/s/1CsY11ArZ6YK3o1icghWj2w 提取码 ...

  8. 数据的预处理与特征构建(申请评分卡模型)

    数据的预处理工作可以有效处理缺失值与异常值,从而增强模型的稳定性: 而特征构建工作则可以将信息从字段中加以提炼,形成有业务含义的优异特征 评分卡使用策略: 1.进件量较大,规则无法满足更细的切分需要: ...

  9. 金融风控--申请评分卡模型--特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融风

    金融风控-->申请评分卡模型-->特征工程(特征分箱,WOE编码) 标签: 金融特征分箱-WOE编码 2017-07-16 21:26 4086人阅读 评论(2) 收藏 举报 分类: 金融 ...

最新文章

  1. jdk1.7 hashmap多线程下的死循环
  2. MongoDB3.6.3 windows安装配置、启动
  3. FSMC(STM32)
  4. iPhone音频播放后台控制
  5. 手把手教你Chrome浏览器安装Postman(含下载云盘链接)【转载】
  6. plsql查询数据中文乱码
  7. ndk-build生成.so
  8. PP点点通介绍与下载
  9. java ehcache使用_EhCache使用详细介绍
  10. 分布式事务CAP理论
  11. Xmarks书签同步工具的用法
  12. 如何使用纯 CSS(border-radius 和 clip)属性画出半圆
  13. Visual Studio 2010 Power Tool
  14. ReferenceError Cannot access ‘xxx‘ before initialization
  15. linux系统安装软件报错,Linux安装软件时报错解决方法
  16. Linux/Centos安装oracle11超详细图文教程
  17. python源码只有编译成二进制_setup-cython(2):把Python打包成二进制应用吧
  18. java 对比度_调整图像亮度、对比度、饱和度
  19. Linux基础之计划任务
  20. 基于UWB的隧道管廊定位系统、井下定位构建方式

热门文章

  1. android 自动读取ecxel_android 读取excel表格数据,并存入数据库
  2. keyshot渲染玻璃打光_KeyShot新手的第一次打光,无脑三点打光塑造模型质感
  3. linqto 多个关键字模糊查询_查询函数Choose、Lookup、Hlookup、Vlookup应用技巧解读
  4. linux打if语句如何换行,如何在Linux中的列内换行
  5. Tiny-Event-Manager 安全轻量的资源管理器
  6. [Web 前端] SuperAgent中文使用文档
  7. O记云基础架构大跃进:甲骨文睡醒了
  8. 怎么灵活使用Graph, Document, Key/Value 三种混合模型的数据库?--Java 10分钟教程
  9. MYSQL MYSQLI PDO
  10. MS SQL SERVER 读取数据库中每个表的描述/注释以及表中字段/列的字段名,字段类型,字段描述/注释/说明等信息...