如今,手机已经成为人们日常生活必不可少的工具之一。虽然各种社交APP层次不穷,但手机短信以其操作简单、方便快捷等诸多优点一直都是用户间沟通的基础方式。手机短信在为人们带来极大便利的同时,随之而来的诸多垃圾短信问题日益严峻,广告信息、欺诈短信、谣言散布等短信内容,严重危害了社会公共安全。据360手机卫士安全中心发布的数据,2019年全国垃圾短信拦截总量约为320亿条,平均每天收到垃圾短信超过5000万条。据统计,各类垃圾内容中,冒充类短信占所有垃圾短信的92.8%,多以银行诈骗、互联网虚假网购、电信诈骗等内容为主。垃圾短信泛滥,已经严重影响到人们正常生活、运营商形象乃至社会稳定。
面对激烈的市场竞争,各大运营商及相关部门都在寻求一种快速、有效的垃圾短信识别方法。通过垃圾短信的精准识别,以完善用户的通讯环境,为有关部门提供有效依据,维护运营商利益。本案例基于思迈特软件的数据挖掘平台Smartbi Mining进行建模,使用随机森林文本分类算法建立合理的短信识别模型,对垃圾短信进行识别,解决运营商和手机用户的困扰。
1

目前我国垃圾短信的现状:
Ø 垃圾短信黑色利益链由于短信的方便、低成本等特点,垃圾短信已经形成了黑色利益链,严重为害社会公众安全。由于监管缺失,一些不良组织通过各式各样的渠道收集个人手机信息,并将手机信息卖给有需求的商家和业务人员获取利益,同时商家等通过发送广告推销、诈骗等垃圾短息,来谋取利益,严重危害了短信用户的信息安全及正常生活。
Ø 缺乏法律保护目前,虽然我国颁布了有关调整或者规范短信的法律、法规、政策性文件,如公安部、信息产业部、中国银行业监督管理委员会联合发出《在全国范围内统一严打手机违法短信息的通知》等,但是以规范短信业务的制度法来说,仍属空白。对垃圾短信的识别并追踪,找到垃圾短信发送的种子用户,不仅能够打击该类违法分子,还能弥补法律空白。
Ø 短信内容日益多变垃圾短信的投放方式和内容的不断改进及变化,导致垃圾短信的拦截效果越来越差,传统的基于敏感词过滤方法不仅易受到同义词、字符等干扰,且不能很好适应垃圾短信的快速变化。因此,垃圾短信过滤方法的改进优化成为运营商需要重点解决的问题。
2

垃圾短信识别的主要步骤如下所示:

  1. 数据获取,获取所需数据集;
  2. 数据预处理,对数据进行文本中文分词、停用词过滤处理等;
  3. 建模准备,将分词结果分别转换成文档-词条矩阵,并划分测试集与训练集;
  4. 模型构建与评价,构建随机森林模型,并建立评价指标精确率、召回率、F1值对模型分类效果进行评价。
  5. 分析结果,总结和建议。
    3

3.1

目前,某运营商已经积累了大量的垃圾短信数据。经过加工处理数据如图3-2所示。本案例收集了295755条短信文本数据,字段说明见表3-1。
表3-1 字段说明
字段名称

类型

字段说明

_c1

整型

0表示正常短信,1表示垃圾短信

_c2

字符串

短信内容

图3-2 数据集

为了方便识别字段含义,这里接入一个元数据编辑节点取别名,如图3-3所示。

图3-3 元数据编辑
3.2

1、分词
中文分词是指将一整段文字切分为具有最小语义的词条信息,即以词作为基本单元,使用计算机自动对中文文本进行词语的切分,将文本数据转化为机器可识别的形式。英文单词之间是由空格作为分界符的,中文则是由字为基本书写单位,词语之间没有明显的区分符,因此,中文分词是中文信息处理的基础与关键。分词结果的准确性,对后续文本挖掘有着重要影响。如在进行特征的选择时,不同的分词效果将影响词语在文本中的重要性,从而影响特征的选择。
这里接入一个分词节点将text列进行分词,_c2_seg为分词后的字符串型结果,_c2_seg_words为分词后的WrappedArray类型结果,分词输出结果如图3-4所示。

图3-4 分词
2、停用词处理
中文表达中常常包含许多功能性词语,相比于其它词汇,功能性词语并没有太多的实际含义。最常用的功能性词语是限定词,如“的”、“一个”、“这”、“那”等。这些词语的使用较大的作用仅仅是协助一些文本的名词描述和概念表达。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。
我们选择_c2_seg_words列,接入一个停用词处理节点,自定义停用词列表,如图3-5所示,输出结果如图3-6所示。

图3-6 停用词处理
3、TF-IDF
由于文本数据无法直接用于建模,因此需要将文本表示成计算机能够直接处理的形式,即文本数字化。TF-IDF算法即将文本数据进行数值化。TF意思是词频,IDF意思是逆文本频率指数,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF值越高,说明该词越重要。

图3-6 TF-IDF
整个的数据预处理流程图如图3-7所示。

分析结果得出F1分数达到0.91,说明该模型效果比较不错的。
该模型能较好地识别出垃圾短信,有效进行垃圾短信过滤,解决运营商及用户的困扰。并且由上述分析提出以下建议:
ü 对于垃圾短信过滤可结合传统匹配方法与基于内容的分类方法,不断优化识别模型以适应垃圾短信内容形式的不断变化。
ü 对于垃圾短信泛滥问题,应当健全法律机制,结合垃圾短信识别系统,从根源上进行遏制,从而建立一个良好的通信环境。

本案例运用短信数据,对垃圾短信进行识别。重点介绍了文本数据的处理及转换过程,以及随机森林文本分类算法在实际案例中的应用。主要实现了垃圾短信的精确识别,通过获得以上挖掘结果,为相关运营商提供一种解决垃圾短信过滤问题的方案。

如何利用数据挖掘平台,通过数据建模,解决垃圾短信带来的困扰相关推荐

  1. 不限机型、不安装APP,一招解决垃圾短信和电话骚扰

    程序员的成长之路 互联网/程序员/技术/资料共享 关注 阅读本文大概需要 4 分钟. 来自:电脑报 在收到垃圾短信和骚扰电话时,你是选择置之不理还是主动还击? 我们都知道,现在国产安卓手机基本都自带骚 ...

  2. 大数据垃圾短信自动化识别系统的研发与应用

    申报单位: 中移(苏州)软件技术有限公司 中国移动信息安全管理与运营中心 第一部分 项目背景及挑战 一.企业简介 中国移动通信集团公司信息安全管理与运行中心(以下简称"中移信安中心" ...

  3. 非结构数据分析与建模——垃圾短信数据集

    文章目录 前言 一.相关数据代码 二.实操步骤 1.分词,去除无用词 2.变成特征向量 3. 贝叶斯分类 前言 本系列非结构数据分析与建模是我的专业课,仅仅是作为笔记方便以后好查阅,也希望能和大家分享 ...

  4. 云之讯融合通讯开放平台_提供融合语音,短信,VoIP,视频和IM等通讯API及SDK。...

    云之讯融合通讯开放平台_提供融合语音,短信,VoIP,视频和IM等通讯API及SDK. 云之讯融合通讯开放平台_提供融合语音,短信,VoIP,视频和IM等通讯API及SDK. undefined 全明 ...

  5. 虚拟运营商治理170垃圾短信推举报平台

    今日,腾讯科技从虚拟运营商蜗牛移动获悉,其微信号"蜗牛移动"正式对外推出垃圾短信举报平台,打击通讯诈骗. 公开数据显示,截至2015年底,虚拟运营商的用户总共有2050万户,占整个 ...

  6. 短信平台哪个好用?记录短信接口使用感受

    目前市场上的企业短信平台众多,主要分为三大类,即国内三大运营商.云短信平台和专一短信平台服务商.那么哪些短信平台更好用呢? 其实没有最好的短信群发平台,只有最适合的短信群发平台,不同类型的短信平台都有 ...

  7. 【数据科学项目02】:NLP应用之垃圾短信/邮件检测(端到端的项目)

    垃圾短信检测(端到端的项目) 我们都听说过一个流行词--"数据科学".我们大多数人都对"它是什么?我可以成为数据分析师或数据科学家吗?我需要什么技能?并不是很了解.例如: ...

  8. 国际短信系统平台发送接口说明方法|网页短信平台开发搭建-移讯云短信系统

    国际短信系统平台发送接口说明方法|网页短信平台开发搭建-移讯云短信系统 此接口为发送接口可直接通过pos直接调用 直接发送,源码短信平台搭建平台时 包含此功能,在客户端中可查看API接口文档 接口名称 ...

  9. 利用宽乐通信实现PHP网页收发短信

    一直想为网站提供收发短信的功能. 最近学习了一下宽乐通信,  它是电信提供的一个服务,是华为公司开发的,以WebService方式提供了收发短信的开发接口, 用PHP调用这个接口就可以收发短信了. 使 ...

最新文章

  1. CentOS 5.5 编译安装apache+php+mysql,利用CMS快速建立论坛
  2. Red Hat Linux 安装教程
  3. LTSM 实现多元素时序数据植物健康预测
  4. yolov5 onnx
  5. Android开发简易教程
  6. mysql每秒最多能插入多少条数据 ? 死磕性能压测
  7. Shell 快速入门
  8. 常见的8个前端防御性编程方案
  9. 使用Gradle构建Java项目
  10. 多云架构落地设计和实施方案【华为云分享】
  11. Mongo_安装 centos
  12. 皮尔逊相关系数php,若两变量X和y之间的Pearson相关系数大于0.3且小于0.5,则说明()。...
  13. 【小技巧】PhotoShop + lllustrator制作电子签名矢量图
  14. 搭建openstack keystone服务创建域报错An unexpected error prevented the server from fulfilling your request. (H
  15. 麒麟990银河麒麟SP1升级补丁(0709、1020)升级到(1228)
  16. 数据科学与大数据技术——软科中国大学专业排名
  17. DVWA-SQL Injection级别通关详解
  18. 廖雪峰的GIT教程-读书笔记
  19. wordpress谷歌字体_如何在WordPress帖子编辑器中添加Google字体
  20. js中的var是什么意思

热门文章

  1. 庆科:从安全设计上突破,云上物联网操作系统进化之路
  2. 最近帮别人改论文格式心得体会一:如何让页眉或者页脚或者页码不一样
  3. 这是我写的第一个爬虫 ,不好的话多多包涵>_<
  4. C++题库(持续更新中................)
  5. Python Pandas读取Excel表格,排序后保存
  6. 家乡的春节html,家乡的春节作文
  7. ADB 的下载和安装
  8. 盗墓笔记android,盗墓笔记手游下载_盗墓笔记安卓版下载v1.3.3_3DM手游
  9. 手工打造基于MM32F5微控制器的MicroPython开发板
  10. 硅谷银行破产!真相更可怕:美国疯狂薅全世界的羊毛