成也标签败也标签--真实的模型案例分享

关注公众号“番茄风控大数据”，获取更多数据分析与风控大数据的实用干货。

模型从来都不是风控里最好用的里东西，但是当你除了模型没有什么东西可以用的时候，你也只能使用模型，这也是模型的价值跟意义所在。这也是我们为什么千辛万苦都需要整一个模型的原因了。

我们来看一个真实的案例场景：

真实场景

在一家第三方数据A公司里，现在想要重新开发个模型来对外输出评分。

几年之前开发过一个数据模型，目前因为和A合作的甲方B反馈目前的数据情况非常不理想，所以A公司想对这部分数据进行优化。

在数据公司里工作过的朋友就知道，很多甲方调用完数据之后是不会给到数据的好坏标签的，除非在合作前有互换咨询的商务沟通。那问题来了，目前缺乏好坏标签，如果想要优化自身的征信分数，怎么做？

有些同学看得理论书多了也上过一部分网课，一上来就来一大堆上采样下采样，标签传播….但是问题来了，本身就基本没有太多的坏样本，而且即使用也是历史久远的坏样本，也就是坏样本基本在很少；占比可能值达到了区区0.01%；对于这样的数据，如果单单使用这样的标签，直接做下采样或者上采样，效果都是非常不理想；

A公司想使用B公司调用的用户清单作为样本，利用这批样本再去调用第三方的数据情况，比如调取第三方数据厂商C(此处不给任何厂商打广告的机会)的数据，希望返回类催收数据作为Y标签。什么是类催收数据，就是跟催收相似的数据。比如催收次数、催收时长、催收等，具体的类催收数据可以参考：

使用类催收数据的逻辑是，客户是因为表现不好才会进入到贷后催收，所以才有跟贷后相关的数据。

最后A公司决定使用催收次数作为相关标签进行定义。这个数据在C的数据标签里是有很明显的数值。那我们就可以根据具体的业务情况，把这个客户在最近1个月内被催收了10次，把这个客户定义为坏客户。

那接下来怎么选取客户样本？根据B公司的使用情况来分析，B公司一个月调用的数据量在十几万左右，而且根据B公司反馈，目前客群的拒绝量已经达到了百分之九十左右。如果直接拿B公司的样本去整体进行建模，在理论上是可行的。然后实际上，这里会涉及到一个数据费用的问题。

所以这里就想采用随机抽取的方法，将B公司调用的样本，用随机抽取的方式，将样本压缩在1万条左右。

比如如果查10万这样的客户数，C公司给到的报价是一条2毛，那10万一个月查一次就需要2万。即使抽3个月，也才6万元。所以随机抽取是大大减少了费用。

随机抽取是可以将成本大幅降低了，但是这里又有一个抽取问题。因为我们之前说过在B公司调用样本的过程中，拒绝的客户达到90%左右，那也就是说，我们抽取的客户数，有很大一部分是混淆着拒绝客户的。在模型里有个概念：拒绝的坏跟进件后逾期的坏客群是不一样的坏，这得分属两种不同的范畴。

拒绝掉的客群，肯定是黑名单或者某些准入的关系被拒之门外的。所以这部分客群被拒是跟政策或者欺诈类相关的。在风控系统里，最外层的也是拒绝规则。客户准入后，又是因为信用情况烂掉被归为坏的，又属于信用风险的范畴。这是两类不同的风险。

建议操作

需要在自己的业务系统里搭建一套最通用的准入规则，比如黑名单库、准入规则等；
过完1步骤后，在之前的模型跑出客群，这里跑之前的模型，虽然ks值才只有十几，但是总比随机抽取的客群来的好，总算有些比较在里面。
首期用这波客群进入贷后里去查询相关的贷后数据
计算模型验证指标，再去纠正之前的数据情况再重新建立个模型，计算模型评估效果
如果模型效果不太理想，再重复几步的步骤，进行观察几次，观察最后的结果。

十年职场生涯，这个长期混迹在风控界和科技界，摸爬滚打的大叔，曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司，如果你想了解他，欢迎关注 “番茄风控大数据”一起学习一起聊！

成也标签败也标签--真实的模型案例分享相关推荐

截至2022.2.1全网最全面最开放的蓝牙AOA高精度定位行业生态解决方案配套产品及商用案例真实视频合集分享来自深圳核芯物联科技
截至2022.2.1全网最全面最开放的蓝牙AOA高精度定位行业生态解决方案配套产品及商用案例真实视频合集分享来自深圳核芯物联科技原创核芯物联岳毅恒国产蓝牙AOA高精度定位岳毅恒 2022-01- ...
【小白学习PyTorch教程】十六、在多标签分类任务上微调BERT模型
@Author:Runsen BERT模型在NLP各项任务中大杀四方,那么我们如何使用这一利器来为我们日常的NLP任务来服务呢?首先介绍使用BERT做文本多标签分类任务. 文本多标签分类是常见的NLP ...
用于多标签Tweets 分类的微调bert模型转载于论文（适用于小白讨论，大佬可以过来凑个热闹）
分享来自用于多标签Tweets分类的微调Bert模型为了解决数据不平衡问题,本文采用自适应的方式为类赋权大家好,很高兴认识各位第一次发文章我是只会一本正经胡说八道,又菜又爱玩爱水文 ...
机器学习：基本概念-标签、特征、样本、模型、回归与分类
什么是(监督式)机器学习?简单来说,它的定义如下: 机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测. 下面我们来了解一下机器学习的基本术语. 标签标签是我们要预测的事物,即简单 ...
java struts2标签库常用标签
基本概述对于一个MVC框架而言,重点是实现两部分:业务逻辑控制器部分和视图页面部分.Struts2作为一个优秀的MVC框架,也把重点放在了这两部分上.控制器主要由Action来提供支持,而视图则是由 ...
dede中list标签php,dedecms标签中什么表示列表标签
dedecms标签中什么表示列表标签? dedecms标签中list表示列表标签: 标签名称:list 功能说明:表示列表模板里的分页内容列表适用范围:仅列表模板 list_*.htm 基本语法:{ ...
学会怎样使用Jsp 内置标签、jstl标签库及自定义标签
学习jsp不得不学习jsp标签,一般来说,对于一个jsp开发者,可以理解为jsp页面中出现的java代码越少,对jsp的掌握就越好,而替换掉java代码的重要方式就是使用jsp标签. jsp标签的分 ...
Struts2标签库常用标签
Struts2标签库常用标签基本概述对于一个MVC框架而言,重点是实现两部分:业务逻辑控制器部分和视图页面部分.Struts2作为一个优秀的MVC框架,也把重点放在了这两部分上.控制器主要由Act ...
bert 是单标签还是多标签的分类_标签感知的文档表示用于多标签文本分类（EMNLP 2019）...
原文: Label-Speciﬁc Document Representation for Multi-Label Text Classiﬁcation(EMNLP 2019) 多标签文本分类摘要: ...

成也标签败也标签--真实的模型案例分享

成也标签败也标签--真实的模型案例分享相关推荐

最新文章

热门文章