自20世纪末开始,由于反欺诈领域的数据量大和时效性高的要求,机器学习技术逐步实现应用。

1997年,弗拉基米尔·科基纳基(vladimir Kokkinaki)提出了一种基于决策树的模型,其子节点代表不同变量,分叉路径代表不同的条件。

2000年,乔恩·本特利(Jon Bentley)使用基因算法搭建了一套逻辑规则,它可以根据最大发生概率将交易行为划分为可疑交易和非可疑交易。

2002年,理查德·博尔顿(Richard Bolton)和戴维·汉德(David Hand)利用对等组分析和断点分析,从账户和个体角度判断行为链上的欺诈。

1997年,何塞·多隆索罗(José Dorronsoro)基于神经网络算法设计了一套在线欺诈跟踪系统。

2002年,山姆·梅斯(Sam Maes)将贝叶斯网络应用到信用卡领域。

以上发现都属于有监督机器学习(Supervised Machine Learning),需要大量带有标签的历史数据来训练模型。

但是,每一个标签都代表已经发生过的欺诈事件,在实际应用中,银行往往没有足够的标签。

目前,风控领域使用的反欺诈手段主要是规则系统,基于业务专家经验以及过去发生的欺诈事件建立规则。

然而,这种方法建立的规则系统通常无法做到及时更新,因此误报率较高,同时,维护费用高昂,因此,金融领域迫切需要应用先进技术构建新的智能反欺诈模型。

目前,适用于银行反欺诈的机器学习和深度学习算法主要包括有监督机器学习和无监督机器学习两个方面。

SKM算法

种子k均值聚类算法(Seeded k-means Clustering Algorithm),简称SKM,是利用好坏用户人群区分度较高的特点,将用户人群分为两类,使同一类中的用户相似度较高,而不同类间用户的相似度较低。

选取用户数量少的类作为异常客户,将每个异常用户到正常用户类中心点的距离记作“用户异常评分”,评分越高,用户越可疑。

聚类分析擅长从多个维度综合分析用户之间的差异,分布在极值两端的变量对模型结果的影响大,运算效率高,结果可解释性好,但是容易忽略单个指标的决定性作用,且划分结果不够精确。

SKM算法原理图

孤立森林

孤立森林(Isolation Forest)用于挖掘异常数据的无监督模型,利用坏用户与规律相比的差异来划分。每次随机选取一定数量的样本训练一棵iTree树,任选特征顺序与分割值,重复多次得到iForest森林。将全量样本沿着每棵iTree达到叶子节点,每个用户在iForest上距离根节点的平均路径长度作为客户异常评分,路径长度越短越可疑。

孤立森林擅长分析每个维度对异常用户划分的影响,极值单侧分布的变量更容易区分异常用户,使结果更加精确。

但是,孤立森林无法从整体上分析好坏用户的差异,且算法复杂度较高,结果解释性较低。

孤立森林原理图

自编码网络

自编码网络(Auto Encoder)是一种适用于无监督场景下的深度学习网络模型,其主要用途是将数据压缩,在需要的时候用损失尽量小的方式恢复数据。

在自编码网络中,输出层神经元的数量与输入层神经元的数量完全相等,通过控制隐藏神经元的数量达到压缩数据的目的。

在反欺诈场景中,由于欺诈用户与正常用户在行为上存在较大差异,对于整个数据集来说是冗余信息。自编码网络目前还没有在银行反欺诈领域中大规模应用,但是对数据量和计算环境的高要求有待进一步探索。

自编码网络原理图

卷积神经网络

卷积神经网络(Convolutional Neural Network)最早被用于图像处理和识别的场景中,主要由卷积层和池化层构成。

卷积层是卷积神经网络的核心,通过固定大小的卷积核的移动构造局部连接,利用参数共享大小减小网络模型;池化层通常夹杂在卷积层之间或者之后,通过池化操作提取变量特征,提高计算效率的同事防止过拟合。

在用户交易分析中,由于交易链与图都具有相关性,并且距离越近相关性越大,因此可以通过选取相关交易行为的办法,将某一时刻的一维交易链转化为二维交易链图,再利用卷积神经网络训练找出异常用户行为。

卷积神经网络交易链转换原理图

长短期记忆网络

长短期记忆网络(Long Short Term Memory,LSTM)是基于循环神经网络(Recurrent Neural Network,RNN)的一种优化神经网络模型,其优势是可以处理一些依赖长期历史记忆的场景,这是传统的RNN模型不具备的学习能力。

LSTM的核心是在RNN中加入了一个判断信息是否有用的处理器,包括输入门、遗忘门、和输出门,符合模型条件的信息会被留下,其他信息被遗忘门略去。

把LSTM网络应用于交易链场景中可以更好地处理并记录交易行为在时间轴上的关联,有效区分异常的交易行为。

LSTM网络算法原理图

CBiForest反欺诈算法

通过需求调研和数据采集,针对数据特性提出了一套基于聚类的孤立森林算法模型(CBiForest)。在无监督条件下,结合SKM和iForest两者的优势,CBiForest可以全方位、多层次地判断和追踪欺诈用户。

CBiForest的建模过程如下:

挖掘交易流水和登录数据,从交易金额、交易次数、交易时间、交易类型和交易地址等多方面构造反欺诈模型的特征;
基于关联矩阵、模型验证、业务经验等方法,筛选出重要变脸23个,按照变量分布特征将15个U型变量运用到SKM模型,将8个长尾型变量运用到iForest模型;
首先利用SKM将所有客户聚成两类,其中数量较少的类被标记为异常用户群体,定义每个点到正常类中心的距离作为SKM异常分值,距离越大异常度越高;
对于两类用户群体,分别训练iForest模型,每个点到iTree根节点的平均距离作为iForest异常分数,平均距离越近异常度越高;
对于每个点,将SKM和iForest模型计算得到的异常分数加权相加,得到CBiForest的最终结果。

根据CBiForest模型的计算结果,将用户异常分值从高到低排列,分数越高,存在欺诈的可能性越大。

目前利用深度学习技术进行银行反欺诈探索的案例相对较少。以DanskeBank的应用项目为例,介绍一下国际上银行反欺诈项目的领先成果。

基于DanskeBank每秒60笔交易的实时数据,首先尝试利用决策树和逻辑回归的聚合模型,与传统规则引擎相比,误报率降低了25~30%,准确率提高了35%。利用CNN、LSTM等多种深度学习模型进行检测时,测试集的AUC提高到了0.9。

随着国内银行数据环境的优化和硬件系统的升级,这些深度学习算法也可以应用于国内银行场景,以便进一步提高对欺诈行为的主动预警能力。

对于银行反欺诈场景而言,从专家经验到规则系统,再到智能化模型预测,这是反欺诈技术的不断升级,也是银行数字化转型过程中的重要一环。

欺诈行为变化多端,欺诈与反欺诈从根本上是人与人之间的较量。由于欺诈方也是业务专家,并配备了技术手段,因此在实际反欺诈应用中,我们需要将更多的精力放在对业务和数据的理解上,并针对不同场景选择适当的技术方法。
————————————————
版权声明:本文为CSDN博主「慧安金科」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/hajk2017/article/details/81382387

【采用】智能反欺诈算法概览及典型应用案例相关推荐

  1. 【采用】互联网金融反欺诈体系构建及典型应用案例

    一.互联网反欺诈体系的构建存在着以下三个原则: (准)实时性:考虑到用户体验,互联网反欺诈体系必须能够在非常短的时间内对欺诈行为进行认定,并给出判断.对于注册.登陆.支付等一些场景,必须能够在用户无感 ...

  2. 2018智能反欺诈洞察报告:黑中介、黑产智能化趋势明显

    80.90一代成诈骗重点目标,男性易受骗且损失数额大 报告数据显示,2018年360手机卫士手机先赔接到的诈骗举报投诉案件中,金融诈骗损失金额占比高达35%,报案量在全部诈骗类型中占比14.9%.报告 ...

  3. 对保险欺诈说“不”!中国人寿财险携手百度智能云开启智能反欺诈时代

    车险骗保,一直以来都是困扰保险行业的难题.随着行业骗保手段越来越多,车险风控难度也越来越大. 为了更好地防范与识别保险欺诈,中国人寿财险借助百度智能云的人工智能.大数据技术,成功打造车险理赔智能反欺诈 ...

  4. 讯飞广告移动反欺诈算法竞赛

    讯飞移动反欺诈算法数据竞赛网址: http://challenge.xfyun.cn/2019/gamedetail?type=detail/mobileAD 讯飞移动反欺诈算法竞赛,目前分数只有94 ...

  5. 40页PPT详解金融业智能反欺诈的应用

    信用风险和欺诈风险虽属不同的风险界定范畴,但欺诈风险管理仍然涵盖在整个信贷信用风险管理生命周期中,由此可见其重要程度. -Jackie Liang 信贷部门和反欺诈部门都有责任在各自领域预防和减轻金融 ...

  6. 2019移动广告反欺诈算法挑战赛baseline

    前言: 分享这个baseline之前,首先先感谢一下我的好朋友油菜花一朵给予的一些帮助.然后呢介绍一下最近比赛中碰到的几个问题,以及解释.如果有可能的话,明天分享一个94.47左右的baseline吧 ...

  7. 2019移动广告反欺诈算法挑战赛之初始数据分析

    前言: 最近参加的科大讯飞的2019移动广告反欺诈算法挑战赛,但是白天一直在忙着写论文,所以一直是跑跑别人的公开的baseline,调调参数一类的,现在是94.43左右,有需要的可以和我说一下,免费奉 ...

  8. 【勉强采用】反欺诈之血缘关系分析和犯罪传导监测

    文前小故事:隔壁阿姨最近总是带个包鬼鬼祟祟地出去,妈妈好奇,今天跑过去串门,问她最近在忙什么,她一下就忍不住哭了起来:我被人骗了--好多人去要钱--我把我姐和我女儿也坑了--那是我姐夫的安葬费--还有 ...

  9. 【采用】反欺诈之血缘关系分析和犯罪传导监测 - 知识图谱

    近期,一银行找到我,说他们现在有一个立项,题目是<数据血缘关系智能分析和犯罪风险传导监测>,希望听听我的建议.今天正好听到妈妈跟我说起这件事,就想,还是针对这个课题,好好整理下思路,讲一讲 ...

最新文章

  1. 关于在WebForm页面使用Ajax
  2. Python3.7.1学习(五) 将列表中的元素转化为数字并排序
  3. idea没法识别java文件,idea文件左下角有个j的符号并是黄色
  4. Finacial professional
  5. 计算机编程试讲教案,2016教师资格证面试试讲高中信息技术教案:QBASIC分支结构程序...
  6. 从校招生到核心架构师,支付宝研究员李俊奎谈如何成为一名优秀的程序员
  7. java 读取 xmltype_java操作XMLType的几种方法
  8. Channels In Go
  9. PHP 规划(收藏的一些好博文)
  10. 图像处理(8) : 模板匹配
  11. idea中的maven项目的xml文件的xmlns报错的解决办法
  12. 4个网页翻译工具,一键就能将网页英文翻译成中文
  13. python signal模块_Python signal 信号模块和进程
  14. html5ppt预览插件,jQuery高性能跨浏览器全屏幻灯片特效插件
  15. 计算机审计试题及答案,计算机审计练习题及答案
  16. 负载均衡的计算方法和含义
  17. python3 高效实现 最大质因数/质因数集合 方法
  18. python简述程序的ipo结构_简述程序设计的IPO模式的特点。
  19. 每个程序员都应该读的数学书
  20. B_随笔_关于网站记录(2)

热门文章

  1. linux当卡片机的手机,卡片机不如手机?看完你就不这么想了
  2. 网络报文的数据格式定义和使用
  3. nginx 官方手册 php,nginx + php 的配置
  4. 电路原理邱关源_看高手是如何学习电路原理的,有哪些捷径?
  5. python executemany
  6. linux怎么打开云硬盘,Linux系统云服务器如何挂在磁盘
  7. mysql binlog 二进制_二进制日志-mysqlbinlog工具的使用
  8. 二叉树的按层打印和ZigZag打印
  9. python编程基础(一):编程思想
  10. pyecharts 应用4: 二维散点图