大数据发现非法传销网络

李艳丽, 刘阳, 谢文波, 罗秀, 徐腾, 翁先正, 马国彬, 尚杰, 许海泉, 邓先晖, 康丽, 侯丽霞, 陈端兵, 周涛

电子科技大学

doi:10.11959/j.issn.2096-0271.2017056

论文引用格式:李艳丽, 刘阳, 谢文波, 等. 大数据发现非法传销网络[J]. 大数据, 2017, 3(5): 106-112.

LI Y L, LIU Y, XIE W B, et al. Uncovering the illegal pyramid networks by big data[J]. Big Data Research, 2017, 3(5): 106-112.

非法传销早在20多年前由美国流入中国,在国内一直是一个屡禁不止的毒瘤。最近,东北大学毕业生李文星之死使得这个问题再次成为所有人关注的焦点。正如魏泽西之于虚假广告,徐玉玉之于电信诈骗,李文星的意外死亡产生的影响使得在国内多地明火执仗,存在多年,甚至和本地人民“水乳交融”的传销组织突然面临前所未有的打击。最近,国家工业和信息化部更是联合国家工商行政管理总局、教育部、公安部、人力资源和社会保障部4个部门印发了《关于开展以“招聘、介绍工作”为名从事传销活动专项整治工作的通知》,开展为期3个月(2017年8月15日—2017年11月15日)的传销活动专项整治行动。

传销危害人员之广,造成财产损失之大,历经时间之久远,骗术花样之繁多堪称触目惊心。然而再多的骗术、攻心术在数据面前立刻显现出最本质的单一模式。利用数据挖掘技术,结合网络分析理论,从传销组织的组织机制行为模式角度识别传销,不仅可以以不变应万变,发现传销组织的团体涉案成员,还有助于发现传销组织中的终级背后操盘者,辅助公安部门根除传销组织,帮助各大运营商提醒客户最大力度地避免传销电话。此外,这还可以减少公安部门大量的物力、人力、财力,精准定位传销组织窝藏地点,减少人民不必要的财产和人员损失。

最近,笔者和中国移动通信集团公司合作探索了如何快速从通话行为中甄别传销网络,分析了一个子网络中4天的通话网络,并处理成无向网络。其中用户被分成4普通用户某大型企业员工服务账号传销组织人员,分别从这些用户中选取一位作为种子节点,画出从这个节点出发按广度优先搜索获得的子网。这样的网络被称为自我中心网络(ego network)[1,2]。图1,图2,图3,图4分别是从普通用户、服务账号、企业某领导、传销组织某头目出发得到的4个自我中心网络。

图1  某普通用户的自我中心网络

图2  某服务账号的自我中心网络

图3  某企业领导的自我中心网络(局限在本企业员工中)

图 4 某非法传销组织头目的自我中心网络

可以看出,普通用户、服务账号自我中心网络与传销网络相去甚远,但是公司网络也有类似于传销网络的层次管理结构[3-5]。通过4种常见用户群组通话网络的比较发现,传销网络呈现出与实际业务模式一致的类树状层级结构。而与传销组织有着相同层级模式的公司用户群网络层级模式也非常明显,但是非相邻层级之间、非同一组之间的节点也有通话(同一组指的是几个节点有共同的上线节点,这里的上线和下线是以选择的根节点为参照)。因此,总结了传销网络3种明显的特征节点之间不跨级联系同级不抢占下线同级非同上线节点不联系。基于总结的传销组织特征,定义了3类特征指标,见表1中的I1、I2、I3。I1指标中如果一个节点i有两个位于上一层的连边j1和j2,则按照广度优先搜索的顺序,第一个扩展到i的节点被认为是i的父节点。

表 1 网络属性量化指标

当然,传销网络还有很多特征是和一般网络不一样的,例如涉及传销网络的用户出度和入度分布都和其他网络大不一样[6],如图5和图6所示。

图 5 出度分布的比较

图 6 入度分布的比较

本文用I4、I5、I6 3个指标量化不同网络出度和入度分布的差异。如果出度为i的节点个数是ni,则

对于I5、I6,引用信息熵的概念量化一个度序列的异质性[7,8],其计算式

其中,N为节点个数,p(k)是度为k的节点出现的概率,值越大,度序列分布越异质。从表2中可以看到,相比其他3类网络,传销用户群的出度分布和入度分布的信息熵值都是最小的,这也表示传销用户每个用户的接入上线数量和下线数量更加确定。

表2 基于 4 类有向无权网络计算的指标信息

仅仅利用这6个指标就可以很好地分辨出不同自我中心网络是不是疑似传销网络。

根据以上分析,可以设计疑似传销网络的生长算法,从任何一个节点出发,生长出可能的最大疑似传销网络,然后根据生长情况判断它是不是一个传销网络。见表3,笔者设计的算法识别的传销网络几乎能够覆盖节点数占比大约只有0.1%的疑似传销人群,但是对于其他已经甄别出来没有问题的人群完全不误判。原始数据的分类标签是由公安部门给出的,一些更细致的特征还可以进一步提高算法效果,但因为涉及敏感信息,本文此处不详细介绍。

表3 节点覆盖度

如图7所示,笔者提出的算法基本覆盖了传销网络的所有核心,只有少量外围节点算法本身无法确认是不是传销分子。但是这完全不影响调查和抓获这个传销组织,特别是不会影响对传销头目和组织结构的识别。

图 7 算法识别出的可疑节点的覆盖区域(黑色节点为算法识别出的可疑节点)

个人隐私数据的泄露给了很多电信诈骗不法分子以可乘之机,但数据科学的正确使用也可以帮助揭示非法组织,保护人们的人身和财产安全。传销组织无法通过本文所描述的一些特征来躲避本算法的计算,因为这些特征更改意味着改变传销的组织和运营模式,这样的代价他们无法接受。并且本文描述的只是算法中最简单的一小部分,笔者并不仅仅只是通过这些特征量识别非法传销。除了本文的研究,数据挖掘和网络分析技术在辅助挖掘犯罪分子方面的应用还很多,在拥有了移动轨迹、行为数据的基础上,可以更深入地分析犯罪分子异于常人的行为模式,达到挖掘潜在嫌疑人、快速定位嫌疑人的目的[9]。

点击下方 阅读原文 即可获取全文

作 者 简 介

李艳丽(1990-),女,电子科技大学大数据研究中心博士生,主要研究方向为关键节点挖掘、网络结构分析、链路预测、推荐系统。

刘阳(1981-),男,中国移动通信集团公司贵州分公司工程师、承载室经理,具有较丰富的信息系统设计与管理经验。

谢文波(1990-),男,电子科技大学大数据研究中心博士生,主要研究方向为机器学习、推荐系统、数据挖掘。

罗秀(1985-),女,中国移动通信集团公司贵州分公司数据分析师,主要研究方向为大数据分析与管理,具有多年数据挖掘分析与数据管理工作经验。

徐腾(1987-),男,中国移动通信集团公司贵州分公司中级通信工程师、网络部监控室传输主管,主要研究方向为传送网运维管理,具有多年传送网维护及项目管理工作经验。

翁先正(1981-),男,中国移动通信集团公司贵州分公司工程师、网络运维主管,主要研究方向为传送网运维管理,具有多年传送网维护及项目管理工作经验。

马国彬(1982-),男,中国移动通信集团公司贵州分公司中级通信工程师、注册信息安全专业人员、网络部网维中心传输主管,主要研究方向为网络安全管理及传送网运维管理,具有多年网络安全管理、传送网维护及项目管理工作经验。

尚杰(1986-),女,中国移动通信集团公司黑龙江分公司人力资源部薪酬主管,拥有国家法律职业资格证以及处理网络安全法律相关问题的丰富经验。

许海泉(1985-),男,就职于中国移动通信集团公司云南分公司,主要工作方向为大数据应用场景分析探索,具备丰富的数据分析、营销策划、项目管理专业知识及多年工作实践经验。

邓先晖(1983-),男,中国移动通信集团公司贵州分公司中级通信工程师、网管支撑室骨干,主要研究方向为支撑系统维护、实施、开发,具有多年IT工作经验。

康丽(1989-),女,中国移动通信集团公司黑龙江分公司市场部业务主管,主要研究方向为市场运营,具有多年市场营销经验。

侯丽霞(1983-),女,广州咨元信息科技有限公司销售经理,具有多年运营商大数据分析系统需求调研与分析经验。

陈端兵(1971-),男,电子科技大学大数据研究中心副教授,主要研究方向为数据挖掘、网络结构分析、信息传播与推荐。

周涛(1982-),男,电子科技大学大数据研究中心教授、主任、博士生导师,主要关注统计物理与信息科学、社会学、经济学等领域的交叉科学问题,发表SCI论文200余篇,引用16 000余次,H指数超过63。

《大数据》期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的科技期刊。

关注《大数据》期刊微信公众号,获取更多内容

大数据发现非法传销网络相关推荐

  1. 《大数据》2015年第2期“动态”——大数据发现银行贷款风险

    大数据发现银行贷款风险 曾伟1,孔新川2,陈威1,周涛1 1.电子科技大学 2.杭州迈宁数据科技有限公司 doi:10.11959/j.issn.2096-0271.2015024 Uncoverin ...

  2. 卷王指南,大学计算机专业,面临分专业,计科,软工,大数据,物联网,网络工程,该选什么?

    同学们好,我是王老师--二哥呀!(笑喷) 好巧!前几天有同学私信问过我这个问题:大学计算机专业,面临分专业,计科,软工,大数据,物联网,网络工程,该选什么?再加上高考结束后填报志愿,想必 CSDN 上 ...

  3. 大数据发现了厕所越干净城市越发达,但永远无法解释这背后的原因

    作者:波波夫科技 如果说下水道是一个城市的良心,那么厕所就是一座城市的门脸. 很多年前,人们就发现一个有意思的现象:一个城市的文明程度可以从其厕所的卫生程度得出,厕所越干净.城市越发达.但直到今天,大 ...

  4. 大数据时代涉军网络舆情引导的“5个结合”

    随着信息技术发展,大数据构成了一种新的传播技术环境,重塑了网络舆情生态,给社会舆情体系带来了重大而深刻的变化,使网络舆情在整个社会舆情体系中地位更加凸显.作用更加突出.必须从维护国家政治安全的高度,深 ...

  5. 大数据视域下网络涉军舆情管控研究

    大数据是相对于一般数据而言的,目前对大数据尚缺权威的严格定义,较为普遍的解释是指"难以用常规的软件工具在容许的时间内对其内容进行抓取.管理和处理的数据集合."①全球数据每年新增40 ...

  6. 移动大数据时代:无线网络的挑战与机遇

    随着移动互联网.云计算.物联网.机器类型通信等新兴信息通信技术的飞速发展,信息社会进入了网络化的大数据时代.快速普及的智能化移动终端应用助推了全球移动数据流量的大幅度增长.在移动大数据时代,海量数据. ...

  7. 大学计算机专业,目前大二成绩不好,现面临分专业大数据,物联网,网络工程,该选什么?

    该选什么?目前大二成绩不好,计科.软工.大数据.物联网.网络工程都不适合,对基础要求很高,而且就业饱和,不适合发展~所以可以选择网络安全方向呢. 从近段时间发生的重大网络信息安全新闻就可以看出来网安人 ...

  8. 大数据技术如何有效阻击网络黑产?

    最近,互联网行业的"网络安全"事件频发.仅8月就发生了多起网络黑产攻击事件,包括国内某重要通信企业多地子公司遭遇Globelmposter勒索病毒攻击.华住集团被曝旗下酒店约5亿条 ...

  9. 大数据搜索引擎技术_网络数据搜索技术

    大数据搜索引擎技术 Nowadays this is a very big problem to search appropriate data on web search engines. This ...

最新文章

  1. 玉山银行的一名新员工“玉山小i随身金融顾问”
  2. SQLite的数据类型总结
  3. netty web 容器_Netty - 高性能网络应用框架常见面试题
  4. href 一个正则表达式的解析 ? 号解析
  5. Java高级工程师实战经验图谱
  6. POJ - 2689 Prime Distance(素数区间筛模板)
  7. python调用stanfordNLP的NER接口
  8. 如何用js得到当前页面的url信息方法
  9. .NET之Docker部署详细流程
  10. Spring JdbcTemplate实例
  11. Xdebug部分配置选项说明
  12. 打球崴脚,运动崴脚怎么办?这里有一份最强处置指南
  13. Python:List、tuple、dict、set
  14. Shell 编程学习笔记
  15. Oracle 11g用户创建、授权和导入dmp文件
  16. React Native vs. Cordova.
  17. 超详细,手把手 教你 SQLyog 安装教程
  18. 基于CNN网络的轴承故障诊断
  19. SREng 使用指南(三)系统修复的详细解说
  20. JTT808、JTT809、JTT796、JTT794、JTT1077、JTT1078区别与交通部道路运输车辆卫星定位系统部标标准大全下载地址...

热门文章

  1. WPS保存了但是内容丢失的问题
  2. Wordpress 网站设计入门 多语言网站
  3. 产品定位VS企业成本/风险
  4. UCOSII学习笔录
  5. 微生物组-宏基因组分析(线上开课,2021.1)
  6. ffmpeg 调整相片大小_resize函数缩小图片的尺寸 车辆检测
  7. OpenCV学习(53)
  8. Java企业级面试题总结-3
  9. Python自动整理问卷星上传截图并打包
  10. 最近 twitter 类网站大爆发啊