风控特:关系网络特征工程入门实践
风控业务背景
常规RFM时间切片统计特征侧重于纵向维度量化用户风险,而关系网络特征则从横向维度来评估。纵向是指同一用户在不同时间段上的行为异常风险;横向是指在同一个时间段里聚集的不同用户放在一起评估风险。因此,关系网络特征可作为常规RFM特征的一个有力补充,为风控模型带来可预见的增量效果。
芝麻信用分中的人脉关系维度可以给我们带来很多启发,其又细分为人脉圈稳定性、社交影响力指数和信用环境指数三个子指标。其中信用环境指数是本文主要参考学习的方向。
图1 - 芝麻信用评分维度之人脉关系
本文不围绕各种复杂的社区发现算法展开,只从业务角度分享下构建关系特征的一些实践经验。关系网络中最重要的两部分无非就是——边(edge)和节点(node)。围绕这两点,我们可以考虑几个问题:如何分析可用数据?如何根据已有数据源来构建关系网络?如何构建关系特征?如何评估关系特征的性能?如何落实上线方案?
目录
Part 1. 如何分析可用数据?
Part 2. 如何构建边关系?
Part 3. 如何使用节点特征?
Part 4. 如何使用存量数据和增量数据?
Part 5. 如何实时上线?
Part 6. 如何验证关系特征的效果?
Part 7. 如何去优化关系特征?
致谢
版权声明
Part 1. 如何分析可用数据?
考虑数据源的稳定性。
在风控中, 稳定性压倒一切。数据源是构建特征的前提,如果数据源采集上就不稳定,必然导致特征波动。那么为了调研数据源采集情况,我们该咨询哪些人员,以及关注哪些问题呢?以下是笔者的一些实践建议:
信贷产品设计人员 :了解产品页面跳转流程,包括:在哪个页面将会要求用户导入资料?需要用户授权同意哪些数据采集协议?新用户相对于老用户会少哪些数据?
外部数据对接开发人员 :外部数据是其他数据公司所提供的,从而可能存在一些不确定性。例如,由于输出变量不稳定而被使用方下线,或者由于协议到期而被提供商下线。需要明确:外部数据在哪个环节(额度、定价、支用)调用?覆盖哪些产品和客群?外部数据接口调用的稳定性?
风控策略人员 :了解风控流程和未来业务调整计划。风控流程图帮助你理解在整个风控链路上数据采集和风控策略之间的映射关系;业务调整计划帮助你排除一些未来不可用数据。例如,为提高用户转化率或合规性要求,未来计划把某些用户数据 由必导项改为自选项 ,那么可预见这块数据未来的采集率将会逐渐下降。如果对这块数据依赖性高,就会导致模型不稳定。此时,我们就不得不放弃实时数据的使用,或者考虑分箱等方式来平滑影响,或者考虑如何利用存量历史数据。
风控特:关系网络特征工程入门实践相关推荐
- 风控特征—关系网络特征工程入门实践
" 本文业务角度分享了风控业务中构建关系特征的一些实践经验,包括数据源分析,关系网络和特征的构建,特征性能的评估以及线上方案的落实." 作者:求是汪在路上 来源:知乎专栏 风控模型 ...
- 《特征工程入门与实践》--- 特征学习
<特征工程入门与实践>--- 特征学习 数据形状的无参数假设:特征学习方法 1. 受限玻尔兹曼机(RBM) 受限玻尔兹曼机(RBM)学习笔记 RBM的训练过程: 从MNIST中提取PCA成 ...
- 数据挖掘实践(金融风控)——task3:特征工程
文章目录 一.数据预处理 1.缺失值填充 2.时间格式处理 3.对象类型特征转换到数值 4.类别特征处理 二.异常值处理 1.方法一:均方差 方法二:箱线图 三.数据分桶 1.固定宽度分箱 2.分位数 ...
- 风控建模二、特征工程---风控
本节主要将风控中比较常见的特征工程. 目录 目录 一.分箱 1.1 Best-KS 1.2 卡方分箱法(ChiMerge) 二.WOE和IV 2.1 两种woe处理分类问题. 三.共线性 3.1 相关 ...
- 【译】特征工程最佳实践
本文是译文,可以转载,但需注明出处,点击这里可以获取原文,有删减. 机器学习中,特征工程是创建新特征,能有效提高模型性能的方法之一. 特征工程比较困难,耗时且需要领域专业知识. 应用机器学习的基础是特 ...
- 推荐算法工程笔记:PySpark特征工程入门总结
PySpark Feature Tool 1. 数据准备 我们定义了一些测试数据,方便验证函数的有效性:同时对于大多数初学者来说,明白函数的输入是什么,输出是什么,才能更好的理解特征函数和使用特征: ...
- 特征工程入门与实践_笔记_sklearn_python
目录 一.特征理解 1.定类数据 2.定序数据 3.定距数据 4.定比数据 二.清洗数据 1.识别缺失值 (1)删除缺失值的行 (2)填充缺失值(医学类数据禁用,因为要求真实) 2.标准化.归一化 三 ...
- 股票量化交易SQL特征工程入门
虽然现在各种量化教程和自助平台铺天盖地,但是对于新人来说入门最重要的事情就是挖掘特征. 对于传统的学习路径第一步是学习Python或者某一门编程语言,虽说Python入门容易上手快,但是要在实际应用中 ...
- 手把手教你入门和实践特征工程 的全方位万字笔记,附代码下载
???? 说起特征工程,都说是机器学习建模中最为重要而且费时的一项工作,而且它涉及的知识点会非常地多,经验老道的老司机自然是轻车熟路了,但对于刚刚入门的新手司机,学习到的知识点都是东一点西一点的,不够 ...
最新文章
- java.lang.OutOfMemoryError及解决方案
- Swift之深入解析基于闭包的类型擦除
- shiro源码篇 - 疑问解答与系列总结,你值得拥有
- csgo手机上看demo_仪表上的车速和手机导航不一样,哪个更准?碰到测速了该看哪个?...
- suse11 mysql 5.7_SUSE Linux系统中单实例二进制方式安装MySQL 5.7.22
- Docker 数据管理
- 使用注册表清理远程桌面连接历史记录
- 基于信息增益率的决策树特征选择算法(C4.5)及其python实现
- 4G的小程序与5G的Chromium OS?
- 【HAVENT原创】nginx 配置
- 大动作,天津农学院专升本停招了吗
- GD32F130之LVD低压检测
- 中文CTEX加下划线无法换行问题
- 黑客养成—CTF笔记(一)
- php判断数组的值是否为空,PHP判断数组(多维数组)值是否为空
- 8.法律法规与标准化知识
- 不同类型的 BPM 软件与客户
- cmd imp导入dmp文件_导入Oracle的dmp备份的dmp文件报错“IMP-00002:无法打开c:/Documents.DMP进行读取”...
- Mybatis中and和循环or混用 (or转换成in)
- 【计算机视觉与深度学习】全连接神经网络(二)
热门文章
- equals()和==
- 一段CyclicBarrier代码
- python基本数据类型包括哪些_python入门3——基本数据类型
- 2 自动递增_有石CAD自动下单,1天工作量1小时完成
- c++判断正在使用的显卡_7°C警告:廉价硅脂害死显卡系列!还在用¥5块钱一大碗的导热膏吗...
- 冷藏温度范围_冰箱冷藏温度多少合适 冰箱冷藏温度调节范围
- PHP包含文件函数include、include_once、require、require_once区别
- ubuntu copy命令
- 笔记本电脑有蓝牙连接功能吗_百元蓝牙无线键盘推荐——罗技K380
- python如何复制一个变量_Python中变量、赋值、浅拷贝、深拷贝