Behavior Language Processing with Graph based Feature Generation for Fraud Detectionin OnlineLending
节点的度描述了与这个信息节点相连的申请节点的个数,也遵循幂律。以公司为例的话就是大规模的公司例如顶尖保险公司和主要的物流公司通常与大量的贷款申请相关联。
全局欺诈传播的传播算法是度相关的,有大的度的节点等比例地传播更多欺诈比起
低度节点。因此,信息节点的枢纽将会暴漏在大量的欺诈中,从而引起误报。
Graph Fraud Feature Extraction
在本节中讨论如何以网络分析为基础提取申请节点风险相关的特征。主要有三种主
要的技术。
Local Metrics:测量应用程序节点周围n阶邻域的特征.给出申请节点的自我网络,有许多图度量来评估本地网络结构,例如degree、quadrangle、density.特征是从三个不同的角度来提取的:基本统计、标签依赖、边强度的权重,看table2中的特征集。
– Degree Related Features :在二分图中,一阶邻居是信息节点,邻居大小衡量与申请相关的不同信息;二阶邻居是与目标申请节点分享相同信息的申请者。
– Quadrangles : 二分图中的四边形是由两个不同的信息节点连接两个应用节点的子图.quadrangle研究的是两个申请者之间的连接强度。
– Local Cluster Coefcient:另一个衡量网络局部密度的邻居度量叫做聚类系数。Density metric是用子图的连通性比上一个完全图的期望连通性。
Global Metrics:给出一个有历史标记欺诈申请节点的网络,我们怎么用这个知识去推断未标记申请节点的初步欺诈概率。利用个性化页面排序算法将欺诈行为从标记的欺诈应用节点传播到信息节点,然后对未标记的应用节点按比例对关系强度进行加权,同时对过去欺诈行为的权重进行衰减。未标记节点的初步欺诈概率叫做fraud score.这个metric在Gotach framework中证明是有效的。
Mismatch Defined By Human Expertise :在风险管理中,寻找不匹配的线索是一个检测欺诈行为的有效方法。有两方面的不匹配,一个是由不同渠道搜集的信息引起的,Jaccard距离用于数学上量化来自不同数据源的给定信息类型的相似性(两个子图的相似性)。另一种可能导致不匹配的方式是,个人信息与网络的其他部分发生冲突。
总计上,数以百计的图特征从二分图中提取出来,信息值(IV)被用于评估特征的有效性。最好的特性在
table4如下,FraudScore衡量申请如何被网络的其余部分影响,高FraudScore是一个很强的欺诈相关的指标。
4.FRAUD PREDICTION MODEL RESULT
提取具有成熟贷款表现的9个月历史申请者(大约1350万申请),得到一个包含1亿个节点和1.5亿个边的二分
图。从第7到第9个月的申请被取样用于欺诈预测建模(75%用于训练,25%用于测试)。由于网络是动态的,训练数据中每个申请的图特征是基于过去6个月的图快照,这样每个申请都有相同的观察时间窗。然后使用BLP特征提取模块中的特征适配器自动提取单个特征。在采用BLP解决方案之前,该机构的欺诈检测很大程度上依赖于专家的经验,缺乏有效、系统的方法来控制网络欺诈行为。其他金融机构也无法将行为数据处理成有效的风险信号,即使行为数据已经被收集。在此之前,没有行业标准可以与BLP结果进行比较。由于图分析是BLP的核心组成部分,因此本实验旨在说明为什么图分析能够增强BLP的欺诈检测能力
-BLP_base:基于BLP个体特征组件的集成模型
-BLP_graph:基于组合的BLP特征层,既有个体特征又有图特征。
这两个模型都是用相同的集成模型框架进行训练,LightGBM,来自BLP模型模块的目前最好分类器。
4.Results
Model Performance :结果如下。把AUC作为performace metric。
Model Stability : 除了预测能力之外,稳定性也是有效检测机制的关键因素。有多种方法评估模型稳定性。
1. Preditive ability in out-of-time window dataset
将连续6个月的历史申请插入图数据库。从第13到第15个月的申请被采样作为时间窗口留存集。从测试集到留存集,BLP图的最大KS下降了16%,比起它BLP_base下降了23%,体现了图特征比个体特征更鲁棒。需要注意的
是,在快速变化的市场环境下,BLP模型预测能力的衰退是可以接受的
2.Feature stability:特征稳定性对于模型稳定性是很重要的,在金融风险模型中,Population Stability Index(PSI)通常被用于评估特征分布。在这个实验中,特征PSI是根据训练集和留存集的分布来计算的。所有
图特征的PSI都小于0.05,表明图特征的稳定性。
3. Model transfer ability
将实验中的BLP base模型和BLP图模型应用于另一款网络借贷产品。这两款产品除了针对不同的地理区域外,
都是相似的。通过对第二批贷款产品的Max KS评价,再次证明了BLP图的鲁棒性。
5.CONCLUSION
本文提出了一种结合图论分析的复杂行为语言处理框架来解决网络借贷欺诈问题。
Behavior Language Processing with Graph based Feature Generation for Fraud Detectionin OnlineLending相关推荐
- Behavior Language Processing with Graph based Feature Generation for Fraud DetectioninOnline Lending
欺诈检测存在很多挑战:信用相关特征的稀疏性,例如社会保险,工作认证,然而这些对于目标人群来说都是稀疏的.数据的速率.种类和容量.设备的行为数据在容量和维度上有爆炸性的增长,而且行为数据对说明一个人的金 ...
- [论文解读] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey
Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey 文章目录 Adversaria ...
- 论文阅读:A Primer on Neural Network Models for Natural Language Processing(1)
前言 2017.10.2博客园的第一篇文章,Mark. 由于实验室做的是NLP和医疗相关的内容,因此开始啃NLP这个硬骨头,希望能学有所成.后续将关注知识图谱,深度强化学习等内容. 进入正题,该文章是 ...
- Deep Learning in Natural Language Processing中文连载(三)
第二章 对话语言理解中的深度学习 Gokhan Tur, Asli Celikyilmaz, 何晓东,Dilek Hakkani-Tür 以及邓力 摘要 人工智能的最新进展导致对话助手的可用性增加, ...
- 论文阅读笔记(一)【Journal of Machine Learning Research】Natural Language Processing (Almost) from Scratch(未完)
学习内容 题目: 自然语言从零开始 Natural Language Processing (Almost) from Scratch 2021年7月28日 1-5页 这将是一个长期的过程,因为本文长 ...
- 【课程笔记】李弘毅2020 Deep Learning for Human Language Processing
简要说明 这是我在学习李弘毅老师的2020春季课程[Deep Learning for Human Language Processing]时做的课程笔记.写课程笔记的初衷是为了帮助自己之后快速的回顾 ...
- 【Gaze】A Survey on Using Gaze Behaviour for Natural Language Processing
A Survey on Using Gaze Behaviour for Natural Language Processing 1. Abstract 摘要中主要介绍本文的工作,整篇主要讨论了在NL ...
- 【论文阅读笔记|ACL2019】PLMEE:Exploring Pre-trained Language Models for Event Extraction and Generation
论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...
- 自然语言处理(Natural language processing) 1
2009-08-17 16:43:17| 分类: 计算语言学|举报|字号 订阅 原文来自Wikipedia自由的百科全书(From Wikipedia, the free encyclopedia) ...
最新文章
- pushpop指令的操作数必须是字操作数_指令格式
- Java Process类的浅学习
- hiredis — Redis 的 C 语言客户端
- html制作顶部选项卡,html: 原生javascript实现选项卡
- 网站搭建从零开始(一)域名
- mssql访问 oracle
- JS编写自己的富文本编辑器
- 《HBase权威指南》读书笔记6:第六章 可用客户端
- 安全加密 - 加密算法 - 摘要算法 - 秘钥交换协议 - 量子加密
- [日推荐]『饿了么外卖服务』饿了么官方小程序,无需下载安装!
- Unity制作AR小程序
- 实用的Android ui分析工具
- 渲染算法学习(四)-- Environment Lighting
- TestCenter测试管理工具功能详解五(J)
- HTB打靶(Active Directory 101 Mantis)
- 【JDBC】JDBC 简介 ( JDBC 概念 | JDBC 本质 | 使用 JDBC 操作数据库的好处 | JDBC 提供的 API 组件 )
- 常用H5标签-第三部分
- Android判断手机的电池状态
- 美国主流网站所使用的JavaScript框架
- 关于linux的音频驱动
热门文章
- 信贷常用风控报表(二)
- [SHOI2008]小约翰的游戏John
- C++ preprocessor /lib/cpp fails sanity check See `config.log' for more details
- (转)gcc 的简单使用说明
- 第6章 循环结构程序设计
- ELK日志系统之使用Rsyslog快速方便的收集Nginx日志
- SpringMVC-@RequestMapping的参数和用法
- IIS Tomcat共享80端口
- 日常问题解决记录一:远程桌面进程如果关闭了怎么呼出?
- Python Lambda 的简单用法