转载自:

摘  要:电信领域欺诈现象比较突出,本文对数据挖掘技术在电信欺诈侦测中的应用进行研究,并利用某移动运营商的真实数据进行有效性验证。具体通过商业理解、数据理解、数据准备、模型生成、模型应用等几个步骤完成欺诈的侦测。在模型生成阶段利用聚类算法中的Kohonen神经网络算法,Kohonen是一种自组织学习算法。

【关键字】数据挖掘;欺诈侦测;kohonen算法;CRISP-DM  

1 引言

随着移动业务的迅猛发展,移动通信业的收入日益增长。但是,随之而来的移动网络的欺诈行为也不断涌现,全球移动通信业都广泛面临着无线欺诈的严重问题,从而导致电信运营商的收入受到损失,额外支出的增加,进而致使利润下降,而移动用户的合法权益也受到损害,电信运营商的信誉无法得到保障。

无线欺诈类型可以简单的分为四类:

(1)时间欺诈:占用了移动通信的时长而不付费用,该类欺诈可以分为两类,一是技术型欺诈(包括码机、魔术电话等),另一类是用户欺诈(漫游、滥用补充业务以及善意的欺诈行为);

(2)内部欺诈:运营商内部人员利用职权非法牟利;

(3)手机欺诈:进行非法手机的交易,如再生盗用手机、伪造手机资源等行为;

(4)分销商欺诈:为了获取非法佣金而进行的欺诈;

“并非只有中国的电信运营商存在巨额的欠费损失,例如恶意欠费这样的欺诈行为普遍存在各个国家的电信运营商里。这部分损失的比例根据电信运营商管理水平的不同在0.5%-10%之间。尤其随着电信竞争的激烈,更可能诱发欺诈。为了吸纳客户增加用户数,运营商经常主动或者被动地降低入网门槛,从而给予某些人可乘之机。”Gartner咨询公司负责电信运营商管理咨询的蒋炳庆分析欺诈产生的一些原因,重点提到随着电信竞争的激烈,这样的现象将越来越多。欺诈用户对企业造成了很大的损失,一方面这些用户往往是欠费的,另一方面这些用户实施完欺诈手段一般都会离网。如何发现欺诈客户的特征,有效的阻止欺诈正是本文欲探讨和解决的问题。

2、相关技术

2.1数据挖掘

数据挖掘也称KDD(knowledge discovery in databases)是从大量数据中发现正确的新颖的潜在有用并能够被理解的知识的过程[1]。数据挖掘的目的是提高市场决策能力;检测异常模式;在过去的经验基础上预言未来趋势等。数据挖掘是多技术的融合,涉及的技术有统计推理、机器学习、可视化、并行处理等。数据经过挖掘算法(如聚类算法、分类算法、关联规则、线性回归等)生成挖掘模型,挖掘模型的运行产生挖掘结果[2],也就是隐藏在数据中的知识。

2.2群点发现

在许多数据挖掘应用中,如电信领域的欺诈行为侦测,例外情况或离群点的发现比常规知识的发现更有意义。离群点发现是数据挖掘中一类比较特殊而又重要的应用,大多数算法主要是发现常规模式,而消除噪声影响。离群点发现正是寻找那些看起来像是噪声,却非常有价值的信息。

数据挖掘中多数聚类算法(如神经网络、Kohonen、K-means等)能够发现一些例外情况。最近,有一些研究是专门针对离群点发现的[3~5]。本文运用三个成熟的聚类算法神经网络、Kohonen、K-means进行实验比较,在本实验中发现Kohonen算法对于离群点发现准确率和召回率最高。

2.3  Kohonen算法原理

在对人类的神经系统及脑的研究中,人们发现:人脑的某些区域对某种信息或感觉敏感,如人脑的某一部分进行机械记忆特别有效;而某一部分进行抽象思维特别有效。这种情况使人们对大脑的作用的整体性与局部性特征有所认识[6]。

对大脑的研究说明,大脑是由大量协同作用的神经元群体组成的。大脑的神经网络是一个十分复杂的反馈系统;在这个系统含有各种反馈作用,有整体反馈,局部反馈;另外,还有化学交互作用。在大脑处理信息的过程中,聚类是其极其重要的功能。大脑通过聚类过程从而识别外界信号,并产生自组织过程。

依据大脑对信号处理的特点,在1981年,T.Kohonen提出了一种神经网络模型,也就是自组织特征映射模型SOM(Seh—Organizing fenture Map)。

Kohonen的思想在本质上是希望解决有关外界信息在人脑中自组织地形成概念的问题。对于一个系统来说,就是要解决一个系统在受外界信息作用时在内部自组织地形成对应表示形式。这包括神经网络的权系数调整。

在神经网络的SOM模型中,每一个权系数的有序序列 Wj=(W1j,W2j,...Wnj)都可以看作是神经网络的一种内部表示,它是有序的输入序列X=(X1,X2,...,Xn)的相对应映象。
SOM模型可以实现自组织功能。自组织的目的就是通过调整权系数Wij,使神经网络收敛于一种表示形态,在这一表示形态中的一个神经元只对某种输入模式特别匹配或特别
敏感。换而言之,自组织映射的目的就是使神经元的权系数的形态表示可以间接模仿输入的信号模式。自组织特征映射网络的学习是一种无监督的学习,输人信号模式是环境自行给出的,而不是人为给出的。

3 欺诈侦测

以下按照CRISP-DM的步骤提出电信领域欺诈侦测的解决方案。首先进行商业理解,定位要解决的欺诈问题。在背景知识中已经介绍过,电信领域欺诈有很多种情况,有些是可以通过完善制度解决,有些可以通过非数据挖掘技术解决(如提高实时扣费实时性等)。这里我们利用数据挖掘的手段解决恶意欠费的欺诈问题。通过用户的通话行为属性和已确定的欺诈行为特征比较,对可能的欺诈用户进行预警或者停机。由于移动运行商都对通话行为进行了监控,理想情况下有限信用用户在超过一定的消费额度就会催缴,进而监控停机。恶意通话欠费主要表现为在短时间内的高额通话。

电信运营支撑系统要正常运行,需要很多表信息相互协作。如用户资料、通话详单、月帐单、销帐表、欠费表、监控信息、结算信息等等。只有对这些数据进行准确的理解,才能制定有效的解决方案。

在进行数据理解之后,进行数据准备的工作,为模型建立做准备。建立模型的数据需要是经过清理的干净的客观的数据。欺诈是用户的行为,本解决方案也从用户的行为中侦测。而对于用户资料这些静态的有一定主观性(可能会误填)的信息,则不能用于建立模型。实验选取某运行商某年某月的用户的详单信息,付款情况,欠费情况,帐单信息等数据,从通话行为的异常出发,采用聚类分析方法中的孤立点分析方法,发现欺诈用户。

4 结论

本文将数据挖掘技术应用于电信领域的欺诈侦测,针对移动电信领域恶意欠费欺诈情况提出一种侦测的可行性方案,并用某移动电信运营商的真实数据进行了验证。所谓“道高一尺,魔高一丈”,我们不能穷尽所有的欺诈行为,本文也不能穷尽所有的解决方案,本文旨在通过分析一种典型的欺诈行为,给出一种解决方案,具体的实施与要求有待与移动运营商进行深入的交流,从而使数据挖掘在多个角度不仅可以描述现在,而且可以预测未来。

数据挖掘在电信欺诈侦测中的应用相关推荐

  1. 【统计技术】数据挖掘在反欺诈中的应用

    数据挖掘在反欺诈中的应用 目录 应用场景 Dr. Lightman 的方法 我们的方法 Dr. Lightman:主要根据社会学和心理学知识,通过分析对方的(微)表情.肢体动作.说话方式和语音语调等, ...

  2. 基于卷积神经网络的信用卡欺诈侦测

    摘要:信用卡在金融业变得越来越受欢迎,与此同时金融欺诈也在增多.卷积方面的方法使用基于规则的专家系统·来侦测欺诈行为,容易忽视的变化情景,以及正负样本极度不均衡的情况.在本文中我们提出一个基于CNN的 ...

  3. 数据挖掘技术在商业银行CRM中的应用理论与模型研究

    数据挖掘技术在商业银行CRM中的应用理论与模型研究 MG0915055 马文虎 (工程管理学院 信息管理工程) 摘  要:随着金融市场竞争的加剧和消费者的需求日趋个性化,建立高效的CRM系统,可以使银 ...

  4. 互联网反欺诈体系中的常用技术和数据类型

    互联网反欺诈常用的技术主要包括数据采集.特征工程.决策引擎.数据分析等几个类别: 数据采集: 主要应用于从客户端或网络获取客户相关数据的技术方法.值得强调的是,数据采集技术的使用,应当严格遵循法律法规 ...

  5. 数据挖掘技术在知识型CRM中的应用研究

    一.引 言            客户作为一种企业核心资源,拥有和保持更多的客户决定着企业今后发展的命运,因此有效地开发和利用客户资源,发展和巩固企业同客户之间的和谐关系,在最大程度上满足客户需求的同 ...

  6. 智能反电信欺诈系统的需求文档

    #本文档为2023年春北京理工大学软件需求工程与UML建模课程的智能反电诈系统需求项目文档# 目录 1.业务需求... 1 1.1业务背景... 1 1.2业务机遇... 2 1.3业务目标... 3 ...

  7. 欺诈场景中的随机森林实践(基于SAS场景的实现)

    本周,番茄风控发布了关于决策树进行相关的规则探索的内容,如: ①如何做好信贷风控规则的挖掘(实操干货上) ②手把手教你用python实现决策树的策略规则挖掘 以上关于树模型相关的内容,大部分都是用py ...

  8. 互联网反欺诈体系中的常用方法

    反欺诈的方法多种多样,当前互联网反欺诈体系中常用的方法有信誉库.专家规则.机器学习等. 信誉库 信誉库即传统的黑白名单,通过内部积累.外部获取的各种人员.手机号.设备.IP等黑白名单对欺诈行为进行辨别 ...

  9. 财务欺诈研究中常用的违规类型

    财务欺诈研究中常用的违规类型 针对中国公司 披露欺诈(Disclosure fraud) 会计欺诈(Accounting fraud) 其他欺诈(Other fraud) CSMAR数据库中存在,但文 ...

最新文章

  1. 挑战JavaScript正则表达式每日两题(2)
  2. Linux-wget/tar/ln 函数
  3. mysql 开启断线重连_[BUG反馈]MYSQL长连接中(SWOOLE) 使用事务提交开启断线重连接抛出异常...
  4. 高速的二舍八入三七作五_有没有发现,高速收费都是5的倍数,这是为什么?怎么判断的?...
  5. 解决 sessionStroage 无法在多个标签页共享数据的问题
  6. UI素材|管理系统数字可视化界面
  7. 游戏理论研究四:RPG游戏
  8. 森林怎么训练野人_138年前抓的“野人女孩”,最终命运如何?死前心愿让人心酸...
  9. 加速Qt在线更新--使用traefik-1.7.24(不支持traefik-2.0以上版本
  10. 一款基于NFine.Framework升级的新框架
  11. 中国新材料产业应用前景与十四五运营方向分析报告2021年版
  12. ensp 链路聚合的配置
  13. 操作ADS1115进行4个通道AD值的读取
  14. HDOJ4699 Editor 栈
  15. Python下通过PR曲线值计算AP
  16. Unity3d组合键
  17. 医疗软件实施入门02
  18. 经典工作自我鉴定范文/实习自我鉴定表
  19. vue的scoped 样式隔离,样式穿透,及细节
  20. 都有哪些语言是跨平台的?

热门文章

  1. python sklearn 梯度下降法_Python- sklearn之梯度下降算法原理
  2. Window10 下载配置 ChromeDriver
  3. ssh X11 Forwarding(本地共享远程服务器界面)
  4. mac10.12 安装“任何来源”软件解决
  5. transact和onTransact的区别
  6. web多线程之webworkers
  7. android之签名md5
  8. Zabbix 5.0使用方法探索及记录
  9. nand flash和nor flash区别_从闪存的发展历史看,eMMC与NAND Flash有什么区别与联系?...
  10. python第一行左对齐_关于Python的第一行语句