1. 欺诈检测存在很多挑战:信用相关特征的稀疏性,例如社会保险,工作认证,然而这些对于目标人群来说都是稀疏的。数据的速率、种类和容量。设备的行为数据在容量和维度上有爆炸性的增长,而且行为数据对说明一个人的金融风险很有用,因为它揭示了申请人的兴趣、社会关系、生活方式,很难伪造。实际上问题就是如何整合这些数据并且应用合适的数据挖掘方法去为风险控制提取金融的信号,因为像浏览器日志这样的信息有着复杂的结构。欺诈策略越来越狡诈熟练,一些人会用虚拟机器伪造机器和位置特性,传统的方法会失效。
  2. BLP数据收集了丰富的行为数据,包括但不限于移动设备的物理特征、网络访问记录、移动设备的社交联系记录、app上的行为追踪、位置的GPS追踪和申请人的基础信息。这些行为数据提供了丰富的实体集合,例如申请人的电话号码,申请人的家庭住址,申请人的公司地址,申请人的紧急联系电话号,还有设备相关的信息例如设备id,wifi mac地址,GPS坐标等等。这些实体被历史申请记录和不同的社会网络交互连接起来,实体和联系组成了图。
  3. 图分析在欺诈检测方面如此有效对的原因是欺诈者彼此社交联系更为紧密。在数学上有三种方法来衡量同质性。

Homophilic Test:检测cross-labeled edges的比例是否小于期望值。 edges cross-labeled edges意思是边的两个结点有不同的label,一个是欺诈一个是合法的。

Dyadicity:有两个欺诈节点的边/(随机网络中有两个欺诈节点的边的期望) Dyadicity>1的时候,暗示着欺诈结点联系的更紧密,展现了很好的同质性

Heterophilicity:有不同标签结点的边/(随机网络中有不同标签节点的边的期望)  Heterophilicity<1,指的是欺诈结点与合法结点联系更少也证明了同质性。

除了同质性之外连通性是另一个重要因素,连通性衡量网络的密度,边的数量与完全图的比。如果定义的图有更小的联通性,欺诈更难传播。有用的关系是那些高同质性和高联通性的。

121164个申请人样本中,6%的申请样本是欺诈的。期望的交叉标签边的比例是0.12,那些交叉边比例小于0.12同时有更大连通性的量被选择。  选择也依赖专家的商业意识,例如公司的电话比名字展现更大的同质性因为前者更精确, wifi mac地址比ip地址更好因为后者更加不固定而且与移动设备的联系松散。

Bipartite Graph(二分图):但是在文档里写了异构图,不是很懂。

在上面的部分都是说有一种结点类型的图,当共享几个同样的关系时两个申请人结点可能被几个边连接起来。因此使用了复杂图,所有的实体,例如设备id,wifimac地址也是结点,然而申请结点不能彼此直接相连,他们必须通过一个关系实体连接。这些关系实体被当做相同类型的结点,信息节点。复杂图就被简化为二分图。在这种图中,申请结点有申请日期、贷款决定、贷款行为、贷款数量等等属性。信息节点的属性因实体不同而不同,从申请结点到信息结点的边表明关系的类型。

Edge Weight Setting:二分图中边的权值表示关系的强度。强度揭示了两个特征,一个是关系连接的强度,解释起来就是身份证号码的联系比公司名字的联系更紧密。在欺诈检测设置中,利用同质性度量的映射函数估计关系的亲密度。另一个要考虑的特征是时间衰减影响。欺诈是时间动态的,网络的历史信息应该基于最近衰减或者重新加权。下面的指数函数用来估计动态网络的权值。

a是通过同质性度量得到的关系的紧密度,b是时间衰减系数。

Hubs Removal:在图论中,节点的度遵循幂律,在二分图设置中仍然有效。一个信息

低度节点。因此信息节点的枢纽将面临大量的欺诈行为从而产生误报。

Behavior Language Processing with Graph based Feature Generation for Fraud DetectioninOnline Lending相关推荐

  1. Behavior Language Processing with Graph based Feature Generation for Fraud Detectionin OnlineLending

    节点的度描述了与这个信息节点相连的申请节点的个数,也遵循幂律.以公司为例的话就是大规模的公司例如顶尖保险公司和主要的物流公司通常与大量的贷款申请相关联. 全局欺诈传播的传播算法是度相关的,有大的度的节 ...

  2. [论文解读] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey

    Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey 文章目录 Adversaria ...

  3. 论文阅读:A Primer on Neural Network Models for Natural Language Processing(1)

    前言 2017.10.2博客园的第一篇文章,Mark. 由于实验室做的是NLP和医疗相关的内容,因此开始啃NLP这个硬骨头,希望能学有所成.后续将关注知识图谱,深度强化学习等内容. 进入正题,该文章是 ...

  4. Deep Learning in Natural Language Processing中文连载(三)

    第二章 对话语言理解中的深度学习 Gokhan Tur, Asli Celikyilmaz, 何晓东,Dilek Hakkani-Tür 以及邓力 摘要  人工智能的最新进展导致对话助手的可用性增加, ...

  5. 论文阅读笔记(一)【Journal of Machine Learning Research】Natural Language Processing (Almost) from Scratch(未完)

    学习内容 题目: 自然语言从零开始 Natural Language Processing (Almost) from Scratch 2021年7月28日 1-5页 这将是一个长期的过程,因为本文长 ...

  6. 【课程笔记】李弘毅2020 Deep Learning for Human Language Processing

    简要说明 这是我在学习李弘毅老师的2020春季课程[Deep Learning for Human Language Processing]时做的课程笔记.写课程笔记的初衷是为了帮助自己之后快速的回顾 ...

  7. 【Gaze】A Survey on Using Gaze Behaviour for Natural Language Processing

    A Survey on Using Gaze Behaviour for Natural Language Processing 1. Abstract 摘要中主要介绍本文的工作,整篇主要讨论了在NL ...

  8. 【论文阅读笔记|ACL2019】PLMEE:Exploring Pre-trained Language Models for Event Extraction and Generation

    论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...

  9. 自然语言处理(Natural language processing) 1

    2009-08-17 16:43:17|  分类: 计算语言学|举报|字号 订阅 原文来自Wikipedia自由的百科全书(From Wikipedia, the free encyclopedia) ...

最新文章

  1. Linux ssh/scp/docker学习
  2. 《Java语言导学(原书第6版)》一一1.5 问题和练习:快速入门
  3. 机器学习第4天:线性回归及梯度下降
  4. OncePerRequestFilter的作用
  5. 爬早-精典小结-0226
  6. C++ 什么是伪函数,以及伪函数的使用
  7. html table tr 动态加减行操作
  8. GitHub 优秀的 Android 开源项目第二篇——转自多篇网络文章
  9. STC8A 进行USB直接ISP下载
  10. putty连接服务器显示连接超时,putty连接云服务器超时连接
  11. 东南亚跨境电商ERP怎么选?萌店长ERP,含大数据分析的免费erp系统
  12. 2分钟定制自己的专属桌面——win10仿Mac os风格美化!
  13. S905L(P211)盒子刷android tv以及刷emuelec 4.4/4.5的向导/方法
  14. AVUE 富文本编辑器 avue-plugin-ueditor 格式刷功能 ver.0.2.7
  15. 2020年如何成为全栈工程师
  16. 牛客网实战项目详细到每一步(更新中)
  17. 从粉丝经济看粉丝运营
  18. 【php毕业设计】基于php+mysql+apache的课程网站管理系统设计与实现(毕业论文+程序源码)——课程网站管理系统
  19. 美团内部讲座|北航全权:一种城市空中移动性管理分布式控制框架
  20. 所见不可得?NO!500px 图片保存攻略

热门文章

  1. SAP License:SAP 系统参数设置
  2. uTools:一个方法“改变”uTools的插件安装/数据目录
  3. web元件库/axure元件库/常用web组件/常用表单/导航栏/边框/图标/日期时间选择器/评分组件/穿梭框/输入框/步骤条/
  4. 玩深度学习选哪块英伟达 GPU?有性价比排名还不够!
  5. 如何爬取了知乎用户信息,并做了简单的分析
  6. 你不知道的JavaScript--大白话讲解Promise
  7. iOS工程师常用的命令行命令总结
  8. CAD环境中求算接合表面积
  9. XML-RPC技术在WP上研究(一)
  10. 结构之法算法之道CSDN博客-第一期全部博文集锦[CHM 文件下载]