【大数据部落】WEKA文本挖掘分析垃圾邮件分类模型
原文链接:http://tecdat.cn/?p=4027
业务背景
电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广大用户、网络管理员和ISP(Internet服务提供者)带来了大量的麻烦。垃圾邮件问题日益严重,受到研究人员的广泛关注。 垃圾邮件通常是指未经用户许可,但却被强行塞入用户邮箱的电子邮件。对于采用群发等技术的垃圾邮件,必须借助一定的技术手段进行反垃圾邮件工作。目前,反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理以及对简单邮件通信协议(SMTP)的改进研究等。
WEKA文本分词预处理
首先对于训练集文件夹中的两类邮件文档进行分析,可从不同角度自动化分析两类文件特征,编写算法,构建分类模型。
首先设置工作目录,并且读取分类后的文本文件
可以看到垃圾邮件和非垃圾邮件的频数直方图
然后对得到的原始语料进行分词处理 得到词频矩阵文件
得到各个词频的分类直方图
得到词频矩阵后 对数据进行分类器的建模
2. 对corpus中的attribute进行分析,找出对于分类有贡献的attribute(即那些词只出现在positive中,那些词只出现在negative中,哪些词在两个类别里都出现)
3. 找出区分positive和negative的分类规则(即哪些词在一起出现的时候会导致分类器判断的结果为positive,哪些词在一起出现的时候会导致分类器判断的结果为negative)
从结果可以看出cell efficiengcy however breast rates 和cell这些词对最后的分类结果有较大的影响 如有however的一般为负面词 。
WEKA文本分词结果比较
下面得到每个分类器的准确度和混淆矩阵:
NaiveBayes |
Logistic |
J48 |
RandomForest |
SVM |
OneR |
结语
基于判别方法的垃圾邮件过滤在现代研究中引起比较少的关注 ,结果很清楚地表明,基于随机森林、SVM模型的分类方法相对于传统的方法,在垃圾邮件的过滤方面,可以有效地提高正确率和准确率。
【大数据部落】WEKA文本挖掘分析垃圾邮件分类模型相关推荐
- 机器学习——朴素贝叶斯算法(垃圾邮件分类)
朴素贝叶斯算法介绍以及垃圾邮件分类实现 1.一些数学知识 2.贝叶斯公式 3.朴素贝叶斯算法 (1)介绍 (2)核心思想 (3)朴素贝叶斯算法 (4)拉普拉斯修正 (5)防溢出策略 (6)一般过程 ( ...
- 《大数据》2015年第3期“网络大数据专题”——大数据时代的互联网分析引擎...
大数据时代的互联网分析引擎 窦志成,文继荣 (中国人民大学信息学院大数据管理与分析方法研究北京市重点实验室 北京 100872) 摘要:随着互联网尤其是移动互联网的高速发展,互联网文档的数量.内容的丰 ...
- 基于朴素贝叶斯+Python实现垃圾邮件分类和结果分析
基于朴素贝叶斯+Python实现垃圾邮件分类 朴素贝叶斯原理 请参考: 贝叶斯推断及其互联网应用(二):过滤垃圾邮件 Python实现 源代码主干来自: python实现贝叶斯推断--垃圾邮件分类 我 ...
- 大数据时代的互联网分析引擎
随着互联网尤其是移动互联网的高速发展,互联网文档的数量.内容的丰富度和复杂度都大大增加,互联网正朝大数据时代迈进,而用户的信息需求也趋于复杂化.除了基本的信息检索需求外,对大量相关文档的深入理解与聚合 ...
- Druid:一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统...
转自:http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分 ...
- PB级分布式大数据的处理和分析应用
文章讲的是PB级分布式大数据的处理和分析应用,对于大数据,串行的处理方式难以满足人们的要求,现在主要采用并行计算方式.现有的并行计算可以分为两种: ·细粒度的并行计算.这里细粒度主要是指指令或进程级别 ...
- 【2017年第3期】大数据服务三农的初步分析与探索
孙忠富, 褚金翔, 马浚诚, 杜克明, 郑飞翔 中国农业科学院农业环境与可持续发展研究所,北京 100081 摘要:三农问题是当前中国密切关注的社会问题,大数据技术的发展为三农带来了新的机遇.首先,对 ...
- 【2017年第2期】感悟大数据——从数据管理和分析说起
周傲英 华东师范大学数据科学与工程学院,上海 200062 摘要:大数据依然很热,对其解读也越发众说纷纭.结合笔者长期以来的研发经历和深层思考,讨论了对"大数据"本身." ...
- 聚合中返回source_大数据搜索与可视化分析(9)elasticsearch聚合分析Metric Aggregation...
在上一篇文章中,我们介绍了<大数据搜索与可视化分析(8)kibana入门教程-2-Discover>,本文学习elasticsearch聚合分析,是对<大数据搜索与可视化分析(3)e ...
- 大数据平台网站日志分析系统
1:大数据平台网站日志分析系统,项目技术架构图: 2:大数据平台网站日志分析系统,流程图解析,整体流程如下: ETL即hive查询的sql; 但是,由于本案例的前提是处理海量数据,因而,流程中各环节所 ...
最新文章
- Java虚拟机规范(目录)
- 动态切换站点样式(换皮肤)
- python 和php的数据通信_python服务端 和 php客户端通信一
- 用c语言写扫雷游戏倒计时代码,课内资源 - 基于VS2013实现的扫雷小游戏
- Codeforces Round #180 (Div. 2) A. Snow Footprints 贪心
- check $m2_home environment variable and mvn script match
- win7优化设置_win7优化性能的操作步骤
- highcharts一天时间 与一周时间_一天当中什么时间减肥降重最好的
- Java 中 String 的常用方法(二)
- 10年10亿才能烧好电子商务?
- Python 技巧总结
- Vb6 Modbus TCP通讯示例源代码
- diamond软件的使用(4)---记录一些踩过的软件坑 持续更新ing
- 谷歌浏览器Vue插件
- (7)nodejs学习---之模板引擎jadeejs
- 英语不好学计算机特长,指导:英语学不好,是因为你没养成这些好习惯
- 从eclips到idea
- 简阳市简阳中学2021年高考成绩查询,四川省简阳中学2021年排名
- linux下vanish的部署
- 测试小白基于java的selenium自动化测试环境搭建