来源:DataFunTalk
本文约6900字,建议阅读10+分钟
本文主要介绍度小满的超大规模图平台,以及它在真实金融风控业务中的应用。其中会包括一些应用方法和案例,希望能为大家在图机器学习落地产品化方面提供一些参考。

今天的分享主要有以下四部分:

  • 相关背景介绍

  • 度小满超大规模图平台 Dxm Eros 功能

  • Dxm Eros 应用

  • 总结与展望

01 相关背景介绍

1. 金融科技发展趋势

金融科技发展趋势可以分成以下三个阶段:

第一阶段:金融信息化阶段(1986年之前)

金融行业完成初步信息化,通过传统IT技术实现办公电子化,自动化的过程。

第二阶段:互联网金融阶段(1987年-2009年)

互联网大规模扩张,市场上萌生大量信息科技公司,通过互联网实现信息收集、共享和业务融合,实现金融业务的互联互通。

第三阶段:金融科技深度融合阶段(2010年至今)

大数据、云计算、人工智能及区块链等新技术为传统金融带来了变革,催生了新的金融行为。比如大数据征信以及智能风控等。

2. 金融风控技术演进

常见的金融风险大致可分为两个类型:可防可控风险,难防难控风险。比如用户违约风险,以及用户收入降低导致购买力下降风险,我们统称信用风险。黑产,中介,团伙欺诈等属于欺诈风险。信用风险,欺诈风险以及操作风险,这些都是可以通过各类的不同等级的金融风控技术来极大程度地降低的。

金融风控技术的演进可以基于所需要处理的数据的维度而抽象成从点到线再到面:是从人工审核到规则,到算法模型再到图谱;对应的技术分别是从数据分析到机器学习再到知识图谱。过程如下:

第一阶段-审核:主要依赖对信息的人工审核。但身份证、手机号码、银行流水等材料的伪造成本很低,金融机构需投入大量人力审核信息主体的身份及材料的真实性

第二阶段-规则:基于数据分析而制定的各种策略和规则:通过收集大量多样化的数据,如第三方信息等对信息的真实性进行交叉验证。比传统的人工审核具有更强的反欺诈能力。但由于数据来源多、规模日益庞大,如何整合多元异构数据源,利用已有数据交叉验证成为新挑战

第三阶段-模型:用机器学习模型,将多源异构的大数据整合成机器可以理解的知识,通过机器学习模型来判断节点的好与坏

第四阶段-知识图谱:将单点身份和单条链路的资料转换成对于面的形式的风险检测,不仅关注节点个体本身,而是更加关注个体之间的关系,从而实现欺诈的识别和防御。

3. 图在金融风控领域应用

在传统的金融企业中,图技术并没有被大规模的应用。这些企业仍然使用了关系型数据去进行数据存储,进行的风控也仅仅从个体本身来出发去分析个体之间的差异。但由于信息伪造成本极低,导致欺诈风险的欺诈行为高发且难防。其实,他们所拥有的这些数据隐含着海量的挖掘价值,而传统的金融企业却无从下手,所以越来越多的金融科技公司开始着手对图技术进行研究与应用,使用图数据库去存储数据,并且利用图分析算法来甄别团伙欺诈行为,这就极大程度地提高了数据存储和数据挖掘的能力,也可以为金融风控业务提供实时有效的风险信息。

02 Dxm Eros 功能

1. 图平台 Eros 框架

上图是度小满超大规模图平台Eros的框架示意图。

底层基础设施:海量的关联数据池,异构计算集群资源,大规模高性能数据库。

图数据库:存储各类的关系型的数据,如企业和人和证件间的关系等。

平台能力:满足各方向用户不同的应用需求和应用场景下的风控图可视化平台、数据融合实验平台、可调整模型结构的快速涂模型实验的平台、基础算法模型库(经典的图算法图模型、自研的图模型等)。

Eros平台主要应用在金融信贷的全链路场景当中,从一开始的智能获客到智能反欺诈,智能风控和贷后审核等。

2. 图存储模块

图数据库用于数据存储管理,主要就是将非结构化数据存储并管理起来。在传统的关系型数据库当中,数据关联非常不直观,比如对于用户提交的数据的存储,往往需要通过用户表、进件表、企业表等多个映射的表单来进行存储,最后用了很多个关系表来代表一个非常简单的数据结构,这很难适应图模型的训练和查询的要求。相较于关系型数据库,图数据库是对关系型数据库功能的拓展,它真正关注的是个体与个体之间的关系,它的结构是由顶点和边所组成的,它支持的图结构也更加灵活。度小满的图数据库主要具备以下几点优势:

  • 存储规模:支持千亿节点千亿边的超大图存储,具有可扩展可伸缩的存储和计算能力;

  • 高性能:毫秒级响应,二度查询50ms以下,可以说是业界比较领先的一个水平;

  • 查询分析一体化:同时支持同查询和图分析算法;

  • 简单易用的一站式图平台:良好的可视化界面,助力用户快速查询。

3. 图分析模块

第二个模块是图分析算法模块。度小满的Eros平台上支持了各类的图分析算法以及图表式学习算法,除了一些顶点类,路径类以及社团类的经典的图分析和图表示学习算法,还有根据最新的研究成果支持的图模型和图算法,以及自研的算法。例如,对于图分析算法,我们可以将其按照顶点、边、社团来进行划分,分别支持各类图分析算法。对于图表示学习,也支持基于因子分解、随机游走和深度学习等方法的图算法。

4. 图建模

第三个模块是图建模。由于很多图模型算法比较新,利用图技术来进行建模有一定的门槛,而很多数据科学家也希望能够应用我们图模型产生的数据、应用我们图模型的能力。所以我们为他们打造了一个自动图建模功能-AutoGraph。AutoGraph可以在无人工参与的情况下,自动生产直推式图结构嵌入特征,并通过增量式训练和异构图算法支持,增加对最新数据和复杂图数据的覆盖。AutoGraph可以提供端到端的自动图建模能力,弥补技术与业务之间的壁垒,让不懂技术的同学也可以利用图技术建模,从而应用在贷前贷中风控模型中和贷后催收与审核中。

5. 可视化模块

最后一个模块图平台可视化模块。左图是从平台上截取的一个图的layout。除了在宏观上查看一个图网络结构、点边分布和统计信息之外,还为用户提供了微观分析功能,如图N度邻居查询、关键信息展示、基于条件的过滤与统计功能等,可以辅助业务分析。同时,也包含基础的图管理功能:

  • 图导入导出:用户可以自定义要导入的数据、任务的启停时间和周期等;也可以从异构大图中导出子图;

  • 实例监控管理:查看数据分布以及健康性;

  • 训练管理:选择模型和数据进行训练。

除此之外,还从节点、路径、社团不同级别分别提供了可视化功能,满足各类用户的使用需求。比如可疑节点分析、关系可视化、路径标记和社团发现等,可以分别应用于反欺诈、审核、反洗钱等环节。

03 Dxm Eros 应用

作为一个产品,它的设计是从用户需求出发的。作为一站式超大规模的图平台,它的应用可以从贷前到贷中一直贯穿到贷后整个流程,所以它的用户也可以覆盖到算法、策略、信审以及反洗钱等不同角色不同团队。对于不同团队,不同人群,他们的应用场景和应用需求,产品的设计需要侧重不同方面。

  • 对于算法同学,他们更多的使用场景是图建模,图挖掘。他们更关心的是快速的进行图实验,并且快速、直观的得到实验结果。所以我们的产品就可以为其提供自动的数据预处理,自动的特征工程,自动建模调参,自动部署上线等功能。

  • 对于策略的同学,他们使用这个平台做反欺诈分析,所以他们希望能够在这个平台查询某一个节点的风险是怎样的一个等级。为他们提供的是可疑节点标记和可疑社团标记。

  • 对于信审审核同学,他们既往的审核工作往往是通过在互联网各种平台上进行多个轮次的搜索,过程繁琐且不直观。所以图平台主要是提升他们的工作效率,使他们查询和审核的过程更加快速,更加直观,更加便捷。为他们提供的功能包括人企关联查询,企业风险提示和特殊关系提示等;

  • 对于反洗钱团队,我们希望为他们在追踪资金链路以及关键节点当中提供一些帮助,辅助他们的工作提升效率。所以也相应的为他们推关键路径分析和关键节点识别的一些功能。

1. 智能图挖掘

智能图挖掘方便算法同学快速地进行各类实验并且查看结果这个功能,只需要用户选择需要使用的数据,就可以自动实现图挖掘。这赋能了很多不熟悉技术,不熟悉算法的同学,让他们也可以将图模型应用到业务上。要做到智能图建模图挖掘,只需要这里所展示的五个步骤:

Step1:数据整合/创建数据集

这个步骤实现了从原始的raw-data到数据整合,数据压缩以及最后训练使用的二进制文件生产的全流程。对用户来说只需要填入不同月份的XY即可,无需关注和图相关的任何细节。在数据阶段支持使用额外的填充特征来丰富数据图的信息量,提升模型训练效果。

Step2:自定义模型与训练脚本

针对不同技术背景,不同层级的用户推出了两种不同方案。对于一些不太关心或者不熟悉最新图模型用户,他们可以直接选择系统内已经有的模型,对于算法专家,他们可以自定义上传他们所需要训练的模型。在这一个步骤,平台也支持不同的模型和不同训练脚本的任意组合,灵活度非常高。

Step3&4:一键训练&调优

平台支持一键训练,用户可以自己手动设置这些关键参数,也可以直接使用平台已经内置好的一个Auto模式一键训练模型平台。在这个过程当中,会根据既往的一些经验和策略,自动的选择合适的模型,也可以自动地根据规模去调整运行申请的资源量,模型训练好后,也会进一步进行自动调优,使模型调到最优。

Step5:一键产出OOT打分

用户只需要配置他们所需要打分的月份或数据,就可以一键产出打分结果。

下面是智能图挖掘的两个案例。

案例一:征信数据

基于征信数据的图模型充分挖掘了用户在空间、时间上的特征,以及用户和企业之间的关联关系,其中用户节点有10亿+,包含了用户的基础风险特征,征信风险特征等;还包括了一些公司节点和位置节点。区别于传统的关联网络,图神经网络是基于异构图以及全网用户的实时更新的风险特征属性来建立的一个端到端的深度实时模型,而传统的关联网络往往只是依赖于节点之间关联的紧密程度。智能图挖掘帮助我们在复杂的模型自动地寻找高级高阶的组合特征,而不仅仅是依赖于专家的一些经验来加工有限的特征。

案例二:风控模型

基于风控数据的图子模型,这个模型适用于信贷风险分析,判断用户的风险。模型引入了实体和实体的关系,包括人和人、人和公司之间的关系等。具有12亿顶点和80亿边,其中每个人又选择了94维以征信为主的特征。这个模型的网络结构设计了双层的GraphSAGE和GAT融合的模型。利用智能图挖掘的功能之后,整体的模型效果对于风控的AB卡有1%以上的效果提升。

2. 智能反欺诈

面向策略同学所打造的智能反欺诈功能,主要包含了图可视化和图分析功能。当用户输入需要查询的节点信息后,可以基于过滤条件自定义查询相关节点以及关系信息。在这个图可视化的区域,会呈现宏观上的信息,如这个节点所处的社团的点边分布等,除此之外还会再细粒度地展示出部分关键信息,这个关键信息可以辅助策略进行一些反欺诈分析。这些关键信息包括社团当中的各个节点的分层信息、社团总申请数量、社团组总欺诈率、违约率等。

除了上述的统计信息之外,我们也基于一致性检验技术,社团发现的技术,为策略同学提供了一键式的风险检测功能。这个功能可以同时检测个人欺诈和团购团伙欺诈。

对于个人欺诈行为,我们通过度中心性、紧密中心性、介数中心度及特征向量中心等指标,分析各节点的信息度量,判定与其关联的人是否存在于黑名单中,或是根据一致性分析判断三角关系是否成立,来为其欺诈风险进行分级。

与个人欺诈行为相比,团伙欺诈事件发生的频率更高,团伙往往具有明确的分工和计划,熟悉目标平台的各项业务流程,欺诈手段是非常复杂且多变的。对于团伙欺诈,我们的平台主要是提供对关键节点、关键路径和关键社区发现和标记的功能。

  • 关键节点:星状节点。金融领域较为常见的一个羊毛党的网络结构,它极有可能是一个人通过群控很多人从而实现团伙欺诈。

  • 关键路径:链状路径。团伙欺诈时为了节省成本,往往多数人共用一套身份信息(如身份证、手机号、住址、联系人等);一个节点连接多个社区且社区内人群多数信贷不良,那么这个路径上的团伙很可能是黑产或黑中介。

  • 关键社区:完全子图。任意两点都相连的图具有较高的风险性。这种网络内的人相互都有关联,这种也是目前很容易识别的欺诈团伙。

除了通过以上方法排查出可疑团体外,还可借助关联图谱的可视化分析功能,如节点查询、关系扩散、节点pagerank值计算、最短路径分析、图谱信息统计等功能,辅助我们进行分析和审核。

3. 智能反洗钱

洗钱作为一种犯罪行为,对金融机构和国家安全造成越来越严重的威胁。

传统的反洗钱的形式,主要是通过大额可疑交易和黑名单用户这两个规则来设计。当系统检测出有大额可疑交易,或发起交易的用户是存在于黑名单当中的,就会根据规则筛选出这些信息,送入人工进行二次审核。但利用图技术之后,我们可以利用一些关键交易追踪,交易结构识别和资金路径分析功能,对这些信息进行及时的预测和发现,比如一些频繁汇入汇出,集中汇入汇出交易,很可能存在较高洗钱风险。对于存在风险的交易,平台会实时标记出来,帮助反洗钱团队实时展示关键交易路径以及交易结构。

4. 智能审核

在人工审核流程中,用户需要自己准备好材料,亲自前往线下网点提交材料。审核专员则需要手动整理材料,完成录入,并通过多轮搜索或电话回访,来验证用户身份及用户提交材料的真实性。待材料整理录入完成,再提交上级,等待审批意见下来再联系用户,让用户回到线下网点继续办理后续的手续。这样的审核流程人工成本非常高,且极易出错,搜索过程繁琐且不直观,同时用户等待的时间也非常长,体验很差。

利用知识图谱技术,融合OCR以及NLP技术,平台上可以自动实现进件秒批。当用户在手机端提交材料, OCR技术将会对文字信息进行检测、识别以及结构化提取,同时进行质量检测和篡改检测。接着利用NLP的技术进行文本分词、分类和关键词识别。最后送入知识图谱,完成信息抽取和信息可视化,最终实现自动秒批。

比如对于企业的风险评估,我们会根据企业的信息去构建一个企业风险评估的体系,在平台上会提示企业所处的风险等级。信审人员可以在平台上实时去查询企业投资或涉诉的信息,包括企业最终控制人等,不需要再跳转至其他平台去进行多轮次的搜索。它能够提升审核的效率,降低人工成本。

对于每一个进件,平台都为它提供三层网络的搜索可视化:首先关联到提交证件里的提交人,提交人相关的空间时序、征信风险等信息都会展示出来;其次会关联到提交人所关联的企业信息;第三,与跟这个企业存在关联的二度关联人的信息也可以在平台当中查询得出。

04 总结与展望

总体来说,图机器学习在金融风控中的应用非常广泛,它可以贯穿从贷前、贷中到贷后整个流程。并且我们可以通过可视化的工具来落地图机器学习的应用,为不同类型的用户在不同场景下的不同需求提供不同的的功能。

未来我们希望能够持续地降低图学习的门槛,提供更丰富的可视化工具,提出更通用的行业解决方案,让越来越多的人可以应用图技术去做模型挖掘。

05 精彩问答

Q:度小满图数据库是根据开源数据库改造的么?

A:是的。

Q:社区的客户分层是什么意思?

A:社区分层是指通过各类风控指标,用户风控属性的一些评估所给到用户的一个不同的分层,或者是平台上给到企业的不同分层,比如某个企业涉诉的情况很多,或者它的上下游企业出现过破产倒闭这些行为,它的风险等级就会更高,我们可能会利用红色突出展示。

Q:关联的人或企业数据,没有授权,你们是如何做到融合的?

A:度小满用的数据都是已经授权的,不会使用没有授权的。

Q:人与人之间的数据是怎么获得的,可以利用来做一个研究的共享吗?

A:平台用的比较多的是人与企业和企业与企业之间的关系数据。我们会根据征信报告去解读这些关系信息。

编辑:王菁

校对:杨学俊

李宗纯:图机器学习在度小满风控中的应用相关推荐

  1. 如何设计一个风控实验?以度小满风控实验平台架构设计为例

    导读:大数据风控在互联网金融领域的应用已相对成熟,现在大多金融服务都已可线上进行,因此各个方面的风险控制更加信息化.风控系统的建立就是依赖于数据的积累做规则与分析,为风险控制提供更好的技术手段验证,而 ...

  2. 腾讯 Angel Graph 图计算框架在智能风控中的应用

    本文约6800字,建议阅读15+分钟 本文为你分享腾讯的姜亚松老师的图计算框架Angel Graph. [ 导读 ] 图计算在智能风控场景有着广泛的应用,但是图的规模和计算的复杂度往往会制约落地的使用 ...

  3. 一场“测谎”人机对战背后的故事:度小满的技术进击之路

    提到判定真假的算法,你首先会想到什么? 是2014年,计算机"尤金"成功地让人类相信它是一个13岁的男孩?还是1950年,图灵让计算机来冒充人的机器智能测试? 在今天,判定真假的语 ...

  4. 蚂蚁金服、微众银行、度小满都来了,智能金融将何去何从?(文末福利)

    (大会官网 https://t.csdnimg.cn/U1wA) 金融业是一个数据堆砌起来的行业,有客户信息.风险控制数据.交易数据等等,如果这些数据没有被有效的管理和分析,会增加企业的经营风险和降低 ...

  5. 2021 几何图机器学习大盘点 | 几何深度学习先驱 Michael Bronstein长文解读

    导读:几何机器学习和基于图的机器学习是当前最热门的研究课题之一.在过去的一年中,该领域的研究发展迅猛.在本文中,几何深度学习先驱 Michael Bronstein 和 Petar Veličkovi ...

  6. 2022图机器学习必读的11大研究趋势和方向: 微分方程/子图表示/图谱理论/非对称/动态性/鲁棒性/通用性/强化学习/图量子等...

    来源:智源社区 本文约6900字,建议阅读10+分钟 本文为你总结了图机器学习过去一年中的研究亮点,并对该方向在 2022 年的发展趋势进行了展望. [ 导读 ]几何机器学习和基于图的机器学习是当前最 ...

  7. GNN与Transformer融合促进药物发现 | 2022几何图机器学习展望

    导读:几何机器学习和基于图的机器学习是当前最热门的研究课题之一.在过去的一年中,该领域的研究发展迅猛.在本文中,几何深度学习先驱 Michael Bronstein 和 Petar Veličkovi ...

  8. 度小满启动“小微加油站”,让低息服务可持续

    11月18日,度小满金融联合中国中小企业协会启动「小微加油站」,面向全国小微企业主提供总额20亿.年化综合利率最低达到3.65%的小微金融服务.这也是度小满金融对去年底推出的「小微加油站」计划的一次升 ...

  9. 我是如何拿到:百度 腾讯 头条 美团 度小满等互联网offer的?

    关于答主:985.通信.A+学科硕士,2018年的秋招收获了:百度.腾讯.头条.美团.猿辅导.度小满.猫眼.流利说等offer.秋招之后,申请了一个微信公众号[菜鸟名企梦],初衷是把自己的求职期间的总 ...

最新文章

  1. 美国《时代》周刊公布年度25大最佳发明名单
  2. matlab 双边沿滤波,图片漫画效果(DoG算子和双边滤波)
  3. java深拷贝如何执行_Java克隆执行深拷贝
  4. 从小部件的调整入手,AI 让你秒变时尚达人
  5. 几个网页制作的小技巧
  6. grads 相关系数_基于小波变换的多聚焦图像融合算法
  7. grep 和 sed:linux经常使用工具 amp; 基本正則表達式
  8. 从零开始搭建Ubuntu 环境下的Android 源码开发环境
  9. C++安全方向(三):3.2 单项散列函数的应用场景
  10. Linux 抓包还不会?这篇文章赶紧收藏
  11. Qt疑难杂症之编译QPA插件
  12. Flask 个人网站重构上线
  13. ARCGIS坐标和CAD坐标显示,以及坐标之间的转换
  14. Word2010专项试题(1)
  15. 全球公认最搞笑的15则冷笑话
  16. 前5名:Raspberry Pi龙卷风警告系统,用于物联网开发的4个开放式开发板等
  17. 如何把照片转换成jpg格式呢?
  18. Django视图学习——处理Http404异常
  19. 对外开放的通用接口设计
  20. RTS/CTS机制以及RTS threshold

热门文章

  1. windows server 驱动精灵_大神教你如何在Win10中检查磁盘驱动器错误
  2. java游戏下载ios_java浏览器下载
  3. typecho本地上传头像_微信QQ抖音透明头像制作方法,还有不会的吗?
  4. Google App Engine 的简易教程(转载)
  5. 巧用Ajax的beforeSend 提高用户体验--防止重复数据
  6. ansible部署tomcat及 include机制
  7. 【胡策08】解题报告
  8. javascript 深度克隆对象
  9. 如何绕过chrome的弹窗拦截机制
  10. SQL CONVERT在日期转换中的使用示例