本次介绍的文章是来自于氪信科技的《Behavior Language Processing with Graph based Feature Generation for Fraud Detection in Online Lending》。氪信科技利用行为语言处理技术(BehaviorLanguageProcessing,BLP)对欺诈性质的网络借贷行为进行识别。

一、基于用户行为的反欺诈框架(BLP)

  • 数据获取模块 :通过schema映射到网贷专家知识图谱上
  • 知识图谱模块
  • 特征自动抽取模块
  • 集成学习模块:树模型+LR集成

在BLP中有很多类型的特征,如文本特征、时序特征、位置轨迹特征、图特征以及人工特征,这篇论文讲的是基于关联数据的图特征生成。关于时序特征的生成,可以参考:

金柔:CraiditX基于行为序列的欺诈检测建模​zhuanlan.zhihu.com

二、网络构建

  1. 图关系选择

通过APP中的数据采集模块,可以获取许多不同类型的信息实体,如份证号、邮箱、电话、地址、设备 GPS。那么这就出现了一个问题,我们应该选择哪些实体作为网络的关系进行节点的连接。

选择的方法是这样的,针对每一类型的实体都可以构成一个单部图,图上的节点是申请件,若两个申请件关联到该类型实体下(至少)同一个实体,那么则形成边。通过计算单部图的连通性和同质性指标,确定连接的实体。

1.1 同质性指标

欺诈与非欺诈结点关联稀疏,而欺诈结点间关联紧密的网络,更具有挖掘价值。

  • 同质性检验(Homophilic Test):反映网络中欺诈与非欺诈申请结点的关联紧密程度,衡量指标是CrossEdgeFraction=由欺诈和非欺诈节点形成的边/总边数;
  • Dyadicity:反映欺诈结点之间的关联紧密程度,Dyadicity=欺诈结点之间的边数观察值/欺诈结点之间的边数期望值,Dyadicity>1表示与随机网络相比,欺诈结点之间的关联紧密;
  • Heterophilicity:反映欺诈与非欺诈结点之间的紧密程度,Heterophilicity=欺诈和非欺诈节点形成的边的观察值/欺诈和非欺诈节点形成的边期望值,Heterophilicity<1表示与随机网络相比,欺诈与非欺诈结点的关联稀疏。

1.2 连通性指标

  • Connectedness: 用于刻画网络的稠密程度,该值越接近于1表征网络越稠密,稠密的网络更有利于欺诈标签的传播。

1.3 筛选结果

有121164申请件 , 其中6%被标记为诈骗,计算指标对关系进行筛选:

根据上述讨论,挑选低CrossEdgeFraction、高Dyadicity、低Heterophilicity、高Connectedness的Relation,从上表的计算结果中identity number、mobile number这些就比较好而像ip address则不能挑选。

2. 双模网络构建

根据筛选出的节点、边、节点的属性以及边的属性构建出双模网络

3. 计算边权重

边权重表示连接的强度,使用公式a*exp(-b)进行计算,其中a是同质性指标,b是时间衰减系数。

4. 移除hubs

对图数据中各节点,按关系类型分别计算各点的中心度,通过Head-tail-break算法剔除中心度极大的结点,筛选出构建双模网络模型所需的结点。

三、网络风险特征提取

采用一下三种方法提取基于网络的特征:

  • 局部网络风险特征:用于描述申请件邻居结点的统计类特性,包括邻结点风险特征、四角形风险特征和局部聚合系数风险特征等,如当前申请件关联的欺诈申请件个数、当前申请件关联申请件中欺诈申请的比例等;
  • 全局网络风险特征:用于描述当前申请的风险情况,在通过图挖掘算法(如pagerank)得到各结点的欺诈概率之后,可计算当前申请的欺诈概率,邻居结点(一度关联的信息结点)欺诈概率的最大值、平均值等;
  • 专家风险特征:常根据业务经验进行定义,如不同渠道个人信息重合度比对、个人信息与网络一致性检验等。

通过上述方法可以抽取数百维特征,使用IV评估特征有效性。结合专家经验,挑选最合适的网络特征,与个体特征分别建立反欺诈模型,并在此基础上进行树模型集成,从而获得信贷申请人欺诈概率预测。

这篇论文在如何挑选关联关系构建图上有值得借鉴的地方,如何构造网络特征在需要解释的评分卡应用中也值得取学习。下面抛出几个问题供大家讨论:

  1. 除了论文介绍的方法,还有哪些可以评估图构建的合理性;
  2. 使用network embedding提取网络特征与论文采用的方法相比,在有监督的欺诈检测任务中有什么利弊。

blp模型 上读下写_CreditX在线借贷欺诈检测框架BLP相关推荐

  1. blp模型 上读下写_Java高并发编程(三):Java内存模型

    1 Java内存模型的基础 在并发编程里,需要处理两个问题: 线程之间如何通信 线程之间如何同步. 通信指的是线程之间以何种机制来交换信息.在命令式编程里中,线程之间的通信机制有两种:共享内存和消息传 ...

  2. blp模型 上读下写_Golang 并发模型系列:1. 轻松入门流水线模型

    Go语言中文网,致力于每日分享编码.开源等知识,欢迎关注我,会有意想不到的收获! Golang作为一个实用主义的编程语言,非常注重性能,在语言特性上天然支持并发,它有多种并发模型,通过流水线模型系列文 ...

  3. blp模型 上读下写_读写模型整理笔记

    读模型 1.主键读 最常见的读模型,说是主键,其实也包括其它索引键,或者联合主键. 常见实现:hash,时间复杂度可以接近 O(1):B 树或变种:时间复杂度接近 O(log(n)). 关于 B 树和 ...

  4. 机器学习案例(一):在线支付欺诈检测

    在线支付系统的引入对支付的便利性有很大帮助.但是,与此同时,支付欺诈也有所增加.使用任何支付系统的任何人都可能发生在线支付欺诈,尤其是在使用信用卡付款时.这就是为什么检测在线支付欺诈对于信用卡公司来说 ...

  5. python blp模型 估计_谁能简单解释一下经济学中的BLP模型?

    BLP 是Berry, Levinson和Pakes三个作者名字的缩写,这个模型是由他们在1995年的AER论文提取出来的(Berry(1994)算是奠定了基础).我来试着讲讲好了. 模型结构 BLP ...

  6. matlab实现大气湍流退化模型算法,大气湍流下退化序列图像的目标检测方法

    引言 目标检测是计算机视觉的重要应用之一, 是后续目标识别.跟踪.目标分类以及行为分析的前提.远距离成像时通常会受到复杂变化的大气湍流影响, 使得成像结果中存在不规则抖动.偏移和模糊等退化现象[.因此 ...

  7. 基于机器学习与BERT的在线招聘欺诈检测平台

    向AI转型的程序员都关注了这个号

  8. 面试官问:在读多写少的情况下,如何优化 MySQL 的数据查询方案

    作者 | 面试官问     责编 | 张文 来源 | 面试官问(ID:interviewer_asked) 面试官问:假设你负责的某业务在双十一期间要搞运营活动,公司投入了大量的营销费用进行推广,此举 ...

  9. Python 学习笔记(3)对txt文件的读与写操作(下)

    上一章节我们讨论了如何对txt文本文件进行读写操作,这一张将讨论如何进行二进制文件的写与读.<Python 学习笔记(3)对txt文件的读与写操作(上)>的链接如下https://blog ...

最新文章

  1. mysql行锁加在什么上_mysql怎么加行锁?
  2. android蓝牙开启后会尝试自动连接,以编程方式配对后,Android会自动连接蓝牙设备...
  3. [ASP.NET]EF选一个空表的情况
  4. stop() 和 suspend() 方法为何不推荐使用
  5. 查看PLC IP 端口_西门子828D数控系统X130接口通讯怪异现象(X130手动设置的 IP)...
  6. Linux下创建动态库与使用
  7. hp打印机怎么连接电脑_hp打印机驱动怎么安装 惠普打印机驱动程序安装方法【详解】...
  8. Windows Server 2012 存储 (三)SMB 的高可用性
  9. Netty之大动脉Pipeline
  10. 最好用的jQuery日期插件合集,前端设计必备素材
  11. 世纪难题相关问题被证明!?——黎曼猜想的前后今生
  12. 关于VLAN-tag
  13. java translate_java – 当使用translate()方法时,JPanel中的Tit...
  14. 学生信息管理系统-教师端
  15. eclipse工具的使用
  16. SEO是什么意思?为什么要做SEO?
  17. k8s部署kong+konga+pgs
  18. java实现飞机大战小游戏——————【附素材、源码、逐行注释讲解】
  19. OpenCV 中的 warpAffine
  20. 学了 C 语言到底能做什么, 能从事什么工作?

热门文章

  1. python with contextmanager yield 语法糖
  2. Python的一些技巧
  3. windows编写第一个MFC程序
  4. Android代码实现新建文件夹,并将文件保存到新建的文件夹中
  5. 26、HTML 区块
  6. Python_sqlalchemy——创建、查询、删除、更新一对多的表
  7. jQuery的过滤遍历
  8. C语言printf与scanf函数
  9. python如何进入文件夹_python之文件的读写和文件目录以及文件夹的操作实现代码...
  10. java安装了为什么运行不了_安装jdk后运行javac可以运行,为什么不能运行java?...