关系图谱概要

随着近几年互联网金融的发展,玲琅满目的信贷产品早已被羊毛党盯上,层出不穷的营销活动更是让欺诈分子有了可乘之机,伪造资料、恶意注册大量虚假账号、团伙包装、刷单、抢红包、套返利等等,他们的欺诈技术手段也越来越高明(群控、云控),成本也越来越低。为了限制这些欺诈用户,信贷机构通过建立反欺诈团队和风控防范体系,使用专家规则和预测模型来拦截欺诈份子。但是道高一尺魔高一丈,再严密的规则也难免有漏洞,被钻空子,传统的反欺诈工具就显得势单力薄。因此关系图谱就有了用武之地。

关系图谱本质就是语义网络,是一种基于图的数据结构,由节点(Point)(“实体”)和边(Edge)(“关系”)组成。把所有不同种类的信息连接在一起而得到的一个关系网络,从“关系”的角度去分析问题,解决问题。目前已被广泛应用于智能搜索、智能问答、个性化推荐、精准营销、风控反欺诈、金融风险预测等领域。具体的关系图谱基础概念本文不再详述,本文重点介绍关系图谱在鲲鱼反欺诈场景中的应用及实践。

02

反欺诈场景中的应用

构建关系图谱的前提就是要把需要的数据从不同的数据源抽取出来存入到图数据库里,所以信息抽取是构建关系图谱的基础。一种是以关系型数据库存储的结构化数据,例如:IP地址、经纬度、设备指纹等,另一种是爬虫采集的非机构化数据,例如行为记录、网上的浏览记录,鲲鱼关系图谱利用机器学习、自然语言处理技术把这些数据变成结构化数据也存入到图谱里。

实体主要包括:IP地址、经纬度、设备指纹、账户、联系人、逾期黑名单等相关信息,关系包括: 从属关系、紧急联系人、互通电话、同一网络等等;整个实体和关系构建了鲲鱼反欺诈的图谱体系。

用户信息交叉校验

校验用户信息可以用来判断借款人是否疑似存在欺诈风险,使用关系图谱做交叉校验,虽然不能保证百分之百的准确,但是它在人工审核时是一个有力的参考依据。例如:比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司名和李四填写的公司名完全不一样,这就是一个可疑点,需要审核人员格外的注意。我们将关系图谱数据可视化,可以很直观的发现两者的矛盾,可以判断他们二人至少有一人存在欺诈行为。再结合用户其他行为数据,如果张三的行为是一个正常用户,那么可以判定李四存在欺诈风险。


图1  用户信息交叉检验图

团伙欺诈分析

团伙欺诈相对于信息造假、撸羊毛等行为造成的损失更加严重,发现团伙的难度也更大,为了发现团伙,我们通常需要分析多层级的数据,一度关联、二度关联、三度关联,甚至是更多维度关联。通过共享实体找出强连通图,可以帮助我们有效快速的发现隐藏的共同特征。也可以通过一些概率统计的方法,比如:社区挖掘、标签传播、聚类等技术,从图中找出一些社区。

图2  团伙欺诈分析图

失联客户管理

通过用户的注册信息,我们无法联系到借款用户,可能用户已跑路。对于催收人员来说,这个时候根本联系不到用户,甚至是用户填写的联系人也消失的无影无踪。这个时我们可以利用关系图谱去发现失联用户的潜在联系人,提高我们的催收成功率。例如张三是失联用户,李四是张三的联系人,李四也失联了,张三的联系人全部失去联系了,这时我们可以看李四的联系人是否可以与张三有关联,或者查看与张三使用相同设备的用户,在同一个区域的用户等。

图3  失联客户关系图

03

关系图谱在反欺诈中的实践

关系图谱区别于其他数据存储类型的最重要特征在于其关系可视化,也带来了良好的可解释性。因此,在数以亿计的节点和更庞大的边集合下,将图谱可视化特性充分发挥出来将决定图谱的实际应用价值。鲲鱼科技在关系图谱的实践过程中,对图谱由简单到复杂的结构如何表达做了不同的尝试。

原始图信息

通过D3重构了图谱展示,不同的颜色表示不同的数据类型。本谱图中已经限定了初始节点展示数量和查询层级。用户可以在此图谱的基础上筛选节点和边,点击节点也可以继续拓展更深维度的关系。

图4  原始图谱信息

黑产简图

在关系图谱运行过程中会不断的尝试去发现并标记恶意用户,以识别欺诈用户和正常用户。这部分被标记的恶意用户具有较高参考价值。恶意群体,往往活跃于不同的平台中,留下他们的足迹,将这些用户记录下来并做重点防护是非常有必要的。同时也对外输出这些欺诈风险用户的核验结果。

A )周边黑产

图5  周边黑产图

可以看到,我们提取了待查节点与其周边黑产节点的关联关系并生成简图,给予核查者最初步直观的印象。而图中标记最黑的节点是结合路径长度与路径权重得来的,与待查节点最接近的黑产节点,在核查时相对的会具有更高参考价值。

B)两点关联性查询

无论是通过查看“周边黑产”继而进行后续查询又或者类似于核查“否认交易”的情况,我们都需要拥有一个查询两节点间关联关系的功能。这一功能将展示两节点间所有的关联路径,核查者可以详细分析两者是否具备“强关联”,进而可以通过强关联节点的黑与白来推断待查节点的黑与白。因为两个节点间的关系可能是非常复杂的,因此为方便调查人员使用,在应用的过程中我们将两节点的最短路径及路径中的重要节点单独标记了出来(如下图中的红色节点与红色加粗的边)。图中的节点提供了扩展功能,用户可以根据需要进一步拓展图谱。

图6  两节点关联关系

社群发现与可疑点挖掘

根据六度空间理论,由单个节点不断向外扩散六度,理想的情况下几乎可以扩展出整个世界。关系图谱中的一些节点,往往可以拓展出数十万甚至百万的关联节点, 即使只是三度以内的连接也可以拓展出上万节点。而如此多的节点是我们所无法直接观察并分析的。同时,虽然有如此多的关联,但是节点往往成团的聚在一起,与其他团之间“弱关联“在一起,提高了调查难度。所以寻找出待查节点所在的真实团体,才能进一步的分析这个团伙。社群在此产生了巨大的价值。

图7  待查接节点三度空间的社群划分图

提取用户直接所在的团,是提供给核查人员分析的基础。如下图所示,我们也可以直观的看到待查节点所在社群中拥有多少黑产节点。

图8  待查接节点所在社群简图

社群算法本身不具备排查恶意节点的能力,即使是基于黑产标记的标签传播算法,在排查恶意节点时也显的有些模棱两可。毕竟,我们的黑产标记不见得全面,黑产节点在巨大的用户群体下,显得及其渺小。如此情况下,单一的占比往往无法提供很好的鉴别能力。因此我们在实践中综合了“社群黑产占比“以及”节点黑产连接度“两项指标来做可疑节点识别。

公式中i代表node节点的i层相邻关系,numi代表在node节点的第i层有numi个黑产节点;wi则是第i层黑产节点可以给node节点传染的黑产连接系数。对于黑产连接度,我们统计其周围三度连接内所有黑产节点。认为一度连接的节点可以传播w1(0.1)的值给当前节点,二度连接节点可以传播w2(0.05)的值给当前节点,三度连接节点可以传播w3(0.02)的黑产值给当前节点。那么,如果当前节点的一度相邻中有5个黑产节点,二度有10个黑产节点。这个节点的黑产连接度为1,可疑度较大,我们将该节点标记为灰色。

图9  发现社群内可疑节点图

04

总结

1反欺诈的特点在于行为的隐蔽性、稀释性,群体坏样本量小但聚集度高,对传统方法提出了很多挑战,深度挖掘用户背后复杂的网络关系成为解决团伙欺诈的重中之重。关系图谱技术因为其良好的特征表现方式成为目前反欺诈领域解决团伙欺诈、信息伪造炙手可热的技术。

2我们对关系图谱初步的尝试和应用也取得了一些成果,成功打击了数百个欺诈、盗刷等黑产团伙,关系图谱的模型也在实战中得到了不断优化。

3未来我们也将持续利用各种新技术、新手段,新模型、结合互联网风控场景的特征,进一步探索更多行之有效的方法,应用到更多的领域当中。相信在未来2,3年时间里,关系图谱技术会发挥更大的价值。

文章转自鲲鱼科技公号

https://mp.weixin.qq.com/s/rJYrALx6CdKE_Id5AfVeZw

关系图谱在反欺诈场景中的应用及实践相关推荐

  1. 欺诈场景中的随机森林实践(基于SAS场景的实现)

    本周,番茄风控发布了关于决策树进行相关的规则探索的内容,如: ①如何做好信贷风控规则的挖掘(实操干货上) ②手把手教你用python实现决策树的策略规则挖掘 以上关于树模型相关的内容,大部分都是用py ...

  2. 互联网反欺诈体系中的常用技术和数据类型

    互联网反欺诈常用的技术主要包括数据采集.特征工程.决策引擎.数据分析等几个类别: 数据采集: 主要应用于从客户端或网络获取客户相关数据的技术方法.值得强调的是,数据采集技术的使用,应当严格遵循法律法规 ...

  3. MobTech出席人工智能创想论坛,分享AI+大数据在营销反欺诈场景下的应用

    4月23日,"智见智能•筑梦花桥"2021花桥人工智能创想论坛在沪举办.本次活动由花桥科学技术局与COCOSPACE(花桥)长三角大数据产业创新中心主办.MobTech袤博科技受邀 ...

  4. 互联网反欺诈体系中的常用方法

    反欺诈的方法多种多样,当前互联网反欺诈体系中常用的方法有信誉库.专家规则.机器学习等. 信誉库 信誉库即传统的黑白名单,通过内部积累.外部获取的各种人员.手机号.设备.IP等黑白名单对欺诈行为进行辨别 ...

  5. 他山之石 | 知识图谱在美团推荐场景中的应用实践

    美团是一个生活服务领域的平台,需要大量知识来理解用户的搜索意图,同时对于商家侧我们也需要利用现有的知识对海量信息进行挖掘与提取,进而优化用户体验.今天分享的主题是知识图谱在美团推荐场景中的应用.主要包 ...

  6. 分布式数据库在金融应用场景中的探索与实践

    分布式数据库在金融应用场景中的探索与实践 刘雷, 郭志军, 马海欣, 赵琼, 胡卉芪, 蔡鹏, 杜洪涛, 周傲英, 李战怀 交通银行软件开发中心,上海 201201 华东师范大学数据科学与工程学院,上 ...

  7. 知识图谱在美团推荐场景中的应用实践

    省时查报告-专业.及时.全面的行研报告库 省时查方案-专业.及时.全面的营销策划方案库 [免费下载]2022年2月份热门报告盘点 机器学习在B站推荐系统中的应用实践 小红书推荐系统中台应用实践 微信视 ...

  8. 杨玉基:知识图谱在美团推荐场景中的应用

  9. 反欺诈评分模型之手机终端

    道高一尺,魔高一丈",黑色产业链的飞速发展也带来了反欺诈行业的快速发展.各大互联网公司纷纷结合自己的业务去探索反欺诈的方法和技术,一大批专业的反欺诈公司也如雨后春笋般冒了出来.在攻与防的过程 ...

  10. 反欺诈技术揭秘-设备指纹VS关系网络模型 此博文包含图片 (2017-05-12 10:23:52)转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型 分类: 风控 文章来源:网络(经整合梳理

    反欺诈技术揭秘-设备指纹VS关系网络模型 (2017-05-12 10:23:52) 转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型 分类: 风控 文章来源:网络(经整合梳理,仅供交流学习使 ...

最新文章

  1. 赏金$10000的GitHub漏洞
  2. Putty常用属性设置
  3. UA MATH523A 实分析3 积分理论例题 判断函数可积性的一个题目
  4. Interface classes
  5. rhel5.8安装oracle10g,RHEL 5.8 安装Oracle 10g r2 clusterware 报错
  6. C# 数据结构--排序[下]
  7. 字体编辑器_FontLab 7 ——字体编辑器
  8. 【DP】【高精】逆序对(jzoj 2014)
  9. MVVM更容易内存泄露吗?
  10. Google大牛涉嫌性骚扰被停职,NIPS官方致歉,传闻多时的AI圈黑幕终于被撕开
  11. bat执行时,跳转到当前bat文件所在盘符的根目录下面
  12. opencv-contrib-Python编译module ‘cv2.cv2‘ has no attribute ‘xfeatures2d‘
  13. linux redhat 防火墙,Redhat 7 防火墙常用配置
  14. OpenXR+Runtime:OpenXR SDK Source Code源码编译
  15. tm影像辐射定标_ENVI中TM的辐射定标和大气校正
  16. oel6安装oracle报错,OEL6.1下安装Oracle 11gr2 RAC
  17. PAT乙级10019题——C语言
  18. 树莓派双目人脸识别门禁(在线+离线模式)+刷卡进出
  19. Uedit32比较2个文件的内容
  20. 东大《冶金反应工程学》在线平时作业1

热门文章

  1. 工作表冻结前两行_冻结所有工作表宏
  2. 电脑如何显示文件后缀名
  3. 周受资从小米跳槽字节跳动任CFO、拜腾创始人戴雷将加盟恒大汽车 | 高管变动2021年3月22日-28日...
  4. C++ Primer 第三版电子版PDF
  5. linux drop cache权限不够,Linux drop_caches
  6. 77GHz雷达信号处理流程框图及应用方案
  7. cesium three性能比较_高中英语中的“形容词”,形容词的用法,比较等级及修饰词...
  8. 【python中级】linux系统获得计算机网卡流量
  9. Allegro 常见问题
  10. 说说我对[lambda x: x*i for i in range(4)]的理解