作者: 石铁峰

摘要:电子邮件随着Internet的发展给人们带来了方便,但随之而来的垃圾邮件也给人们带来了不少的烦恼。针对垃圾邮件技术的发展与现状,本文对目前的垃圾邮件过滤技术进行了分析,并指出垃圾邮件过滤的发展趋势。
  关键词:垃圾邮件 邮件过滤 过滤技术
  中图分类号:TP393.098 文献标识码:A 文章编号:1007-9416(2012)05-0211-02
  1、引言
  在Internet迅速发展的今天,电子邮件在为人们提供便利的同时,随之而来的垃圾邮件也给人们带来了不少的麻烦。据统计,全球80%的邮件是垃圾邮件,电子垃圾邮件确实令人们感到很厌烦。因此, 在互联网快速发展的今天解决好电子邮件的过滤问题具有重要的现实意义。本文就目前垃圾邮件过滤技术发展现状作简要的介绍与分析, 并对未来的研究方向进行了展望。
  2、垃圾邮件过滤技术分析
  2.1 基于黑白名单的过滤技术
  黑名单是一种被广泛应用的垃圾邮件过滤技术,它采用列表的方式,将邮件服务器的IP地址、域名或者E-mail地址列入其中,通常把这种列表称为“黑名单”,当网络中的服务器收到邮件后,先到“黑名单”上去查找,如果发件人在名单中,就拒绝接受。黑名单是基于用户投诉和采样积累而建立的、由域名或IP 地址组成的数据库。这些数据库保存了频繁发送垃圾邮件的主机名字或IP地址,供邮件服务器进行查询,最后就可以决定是否拒收邮件。黑名单通常是由一些非盈利性的反垃圾邮件机构来提供的, 如中国反垃圾邮件联盟就属于这类机构。
  白名单是相对于黑名单来说。它建立的数据库的内容和黑名单的一样,但是其性质是:库中存在的都是合法的,不应该被阻断。库中的“用户”一般都会有一些可靠的联系人。这些联系人所发的邮件正常情况下都不是垃圾电子邮件。白名单技术就是根据这种现象而提出来的,当检测到与黑名单相反的用户时,将可靠的联系人的邮箱地址记载到白名单中,每当接收到这些联系人的邮件时,系统会自动将其按正常邮件处理。
  2.2 基于规则的过滤技术
  基于规则的过滤就是在邮件内容中寻找特定的模式,包括信头分析、群发过滤和关键词精确匹配等。这类方法效率较高,规则库可以共享,推广性很强。但不足之处在于规则需要用户手工创建和维护,更新速度慢,且新规则的产生速度往往跟不上新垃圾邮件出现的速度,即它的时效性较差。基于规则的过滤方法主要有Ripper、决策树(Decision Tree)和粗糙集(Rough Sets)等:
  2.2.1 Ripper
  Ripper(for Repeated Incremental Pruning to Produce Error Reduction)是William W.Cohen对IREP(Incremental Reduced Error Pruning)算法的增强实现程序。该算法可以从数据集合中得到规则集合,每条RIPPER规则由一些规则前件和结果组成,它包括了更好的剪技和停止准则以及对规则集合的后处理。该算法先学习训练集中的所有正例,不断地向一初始集为空的规则集中加入规则,形成一个正例的规则集,接着就利用所有反例把约束条件不断地加入到规则集中的关键字中,最后就根据这个包含了约束条件的规则集来做出决策。实验证明,将Ripper 方法用于垃圾邮件过滤,取得了很好的效果。
  2.2.2 决策树(Decision Tree)
  决策树是著名的规则方法之一。它的基本方法是从一组无规则的事例中推断出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树中通过对内部节点的属性值进行比较,从该节点向下分支对不同属性进行判断,在决策树的叶节点得到结论。 因此,在整棵树中从根节点到叶节点就对应着一组表达式规则。著名的决策树算法有ID3、C4.5等。使用决策树来过滤垃圾邮件取得了良好的效果。
  2.2.3 粗糙集(Rough Sets)方法
  Rough Sets理论是波兰科学家帕拉克(Z.Pawlak)于1982 年提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。粗糙集理论具有很强的定性分析能力,能够有效地表达不确定的或不精确的知识,善于从数据中获取知识,并能利用不确定、不完整的经验知识进行推理等,它在知识获取、规则生成、决策分析等领域获得了广泛应用。Rough Sets通常经过属性约简(消除对决策属性没有影响的属性)和属性值约简(消除对决策属性没有影响的属性值)来简化分类规则。将粗糙集方法引入到垃圾邮件过滤取得了很好的效果。
  2.3 基于规则的过滤技术
  基于规则的过滤技术首先对已分类的邮件样本进行学习, 形成相应的规则,然后再依据这些规则对邮件进行分类过滤, 同时通过学习对规则进行更新。基于规则的过滤技术是当前主要的研究方向,已有的算法包括贝叶斯过滤方法、支持向量机、Boosting 方法等。
  2.3.1 贝叶斯过滤方法
  朴素贝叶斯过滤器是垃圾邮件检测领域中的一种常见方法,在反垃圾邮件软件中得到了广泛的应用。它是一种基于规划的分类算法,通常是把垃圾邮件和正常邮件分成两种类型,通过对训练样本库的分析,提炼出各特征词在这两种邮件中分别出现的初始概率。当新的电子邮件到达的时候,首先提取出特征词,依据训练样本库中学习的概率来判断新到达的邮件分类为垃圾邮件或者正常邮件的概率。同时,也将该邮件放入训练样本库,以便不断修正初始概率。使用朴素贝叶斯过滤器,检测的准确性相当高,但是它有一种不足之处,那就是需要维护训练样本库,而这个样本库的维护工作往往是由用户来参与完成。
  2.3.2 支持向量机
  近年来,有关支持向量机(Support Vector Machine ,简称SVM)的研究在我国得到了广泛开展,它是美国统计学习理念的创始人Vapnik等提出的一种机器学习方法,它首先将训练数据集转换到一个高维空间,然后在这个高维空间中求出最优线性分类超平面,这就在输入空间产生一个最优非线性决策边界。在这个特征空间中支持向量机的分类超平面是最优的分类超平面,然后可采用线性分类器进行分类。在文本分类中,SVM是公认的较好的方法之一。将支持向量机用于英文状态下的垃圾邮件过滤,实验结果为在错纠率小于1%的限制下遗失率为2.36%,取得了较好的过滤效果。   2.3.3 Boosting方法
  Boosting方法是具有全面提高弱分类算法准确度的能力, 它首先通过对样本集的操作从而获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。前一次分类器的分类结果对每个基分类器的训练都有重要的影响,训练样本的概率分布是由基分类器在训练集上的错误率来作相应的调整,最后分类器将通过单个基分类器的加权投票建立起来。通常Boosting 方法主要用于解决两个问题:第一,如何分布每一轮循环中训练集上的样本权重,第二,如何将多个规则集成为一个有效的预测规则。实践证明,将Boosting方法引入到垃圾邮件过滤,获得了较高的性能。
  3、垃圾邮件过滤技术发展趋势
  虽然垃圾邮件的过滤技术已经取得了很大的进步,但是仍存在较高的将合法邮件误判为垃圾邮件的“错纠率”,因此,要过滤垃圾邮件,必须将两种或以上的技术合并使用, 以达到有较好的过滤效果,降低误判率。如根据目前多种过滤技术,采取对邮件服务器、网关和客户端进行一些必要的设置,使整个邮件在传输的过程中经过层层过滤,同时,一定要避免在邮件服务器系统中开放转发功能,在网关这一道重要关口中采用基于硬件的邮件过滤系统,把它安装在路由器和服务器之间,构成可靠的过滤链,当各个系统扫描进入的邮件时,将发出警报信息,并把垃圾邮件挡在网络之外,或采用清除的模式把垃圾邮件过滤掉,防垃圾邮件的最后一道防线是客户端,全面阻挡电子垃圾邮件,就要想方设法在客户端中增强过滤功能。今后开发的客户端邮件过滤器,应重点考虑用户个性化特征,能随时自动地抓捕新垃圾邮件标本,并能根据垃圾邮件标本自动进行分析与判断,从而重新建立和升级新的垃圾邮件特征代码库;也可建立自动生成新的邮件过滤规则,最终能够自动拦截各种垃圾邮件。只有设置重重关卡,才能有效地过滤垃圾邮件。随着垃圾邮件过滤技术研究的不断深入,可以发现不论是垃圾邮件的特征提取、规则生成还是检测取证、判定以及布置过滤措施,研究重点都从单项、单点的技术研究转移到了对多技术体系融合、协作式的垃圾邮件过滤体系的研究。
  4、结语
  垃圾邮件的泛滥是全世界的一个难题,虽然人们越来越重视研究过滤垃圾电子邮件技术,也推出了一些新的方法与手段, 但是狡猾的垃圾邮件制造者为谋取私利,千方百计地修改垃圾电子邮件特征,使得垃圾邮件过滤系统无法发现或检测到。因此,要把垃圾邮件阻挡在系统外,单靠垃圾邮件过滤技术手段是无法解决的,还需要有关部门的重视和参与,通过宣传或者立法的形成,利用法律手段对垃圾邮件制造者进行制裁。只有大家都自觉行动起来,利用先进的技术手段武装网络系统,以完善的管理制度和法律法规为依托,双管齐下,才能从根本上消除垃圾邮件。
  参考文献
  [1]石铁峰.支持向量机在电子邮件分类中的应用研究.计算机仿真,2011,28(8).
  [2]肖明,殷锋,张楠.垃圾邮件过滤技术及发展.西南民族大学学报,2007,33(1).
  [3]时红梅,高茂庭.垃圾邮件过滤技术及发展.计算机与数字工程,2008,(6).

垃圾邮件过滤技术发展现状及展望相关推荐

  1. 思科sp ccie 认证中必看网络安全之垃圾邮件过滤技术

    思科sp ccie 认证中必看网络安全之垃圾邮件过滤技术,电子邮件是-种用电子手段提供信息交换的通信方式,是互联网应用最多的服务.通过网络的电子邮件系统,用户可以以非常低廉的价格.非常快速的方式,与世 ...

  2. 容器技术发展现状与展望

     一.容器技术发展现状 容器技术主要可以分为容器运行技术和容器编排技术.其中:容器运行技术主要包括Docker和rkt等:容器编排技术主要包括Kubernetes.Mesos和Swarm等. 1. 容 ...

  3. 论题:基于机器学习的垃圾邮件过滤系统

    目录 摘要 1.引言 2.相关工作 3.数据集与特征提取 4.机器学习模型的设计与选择 5.模型优化与融合策略 6.系统实现与应用 7.结论 本文为论题:基于机器学习的垃圾邮件过滤系统的撰写思路. 摘 ...

  4. 文献阅读-区块链发展现状与展望

    文献名称:区块链技术发展现状与展望 作者:袁勇,王飞跃 网址:http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJ ...

  5. 基于C#的机器学习--垃圾邮件过滤

    在这一章,我们将建立一个垃圾邮件过滤分类模型.我们将使用一个包含垃圾邮件和非垃圾邮件的原始电子邮件数据集,并使用它来训练我们的ML模型.我们将开始遵循上一章讨论的开发ML模型的步骤.这将帮助我们理解工 ...

  6. 自己动手打造企业垃圾邮件过滤系统

    电子邮件是整个互联网业务重要的组成部分.据相关报道统计,四分之三以上的用户上网的主要目的是收发邮件,每天有十数亿封电子邮件在全球传递,其应用频率已经超过了WWW服务,因此,电子邮件已成为网络用户不可或 ...

  7. 朴素贝叶斯算法实现垃圾邮件过滤

    朴素贝叶斯算法实现垃圾邮件过滤 1.1 题目的主要研究内容 (1)贝叶斯垃圾邮件过滤技术是一种电子邮件过滤的统计学技术,它使用贝叶斯分类来进行垃圾邮件的判别. (2)贝叶斯分类的运作是借着使用标记(一 ...

  8. 【AI不惑境】模型压缩中知识蒸馏技术原理及其发展现状和展望

    大家好,这是专栏<AI不惑境>的第十一篇文章,讲述知识蒸馏相关的内容. 进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考.如果说学习是一个从模仿,到追随,到创造的过程,那 ...

  9. 【AI不惑境】模型量化技术原理及其发展现状和展望

    大家好,这是专栏<AI不惑境>的第十篇文章,讲述模型量化相关的内容. 进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考.如果说学习是一个从模仿,到追随,到创造的过程,那么 ...

  10. 猿创征文|HCIE-Security Day60:邮件过滤技术

    电子邮件 IMAP Internet Message Access Protocol,以前称作交互邮件访问协议(Interactive Mail Access Protocol),是一个应用层协议.I ...

最新文章

  1. java的多态性学习代码
  2. WCF(学习笔记)【参见WCF教程】
  3. 矩阵为奇异工作精度_外积与复合矩阵,特征值/奇异值的乘积型受控,Hodge对偶与伴随矩阵...
  4. nslang oracle_解决ojdbc14连接oracle报“java.sql.SQLException: Io 异常: Size Data Unit (SDU) mismatch”异常问题...
  5. 北京科技大学计算机专业评估,北京科技大学王牌专业有哪些
  6. 如何通过 Linq 将集合拆成多个块?
  7. jdk9与jdk11哪个好_JDK 9、10和11中的安全性增强
  8. SQL Server触发器创建、删除、修改、查看示例步骤
  9. macOS 爆严重安全漏洞,不用密码就能随意登录(附解决方案)
  10. 利用cloudera manager搭建Hadoop集群
  11. matlab车轮滚动动画,利用几何画板演示滚动的车轮
  12. wps计算机打印双面输出,WPS轻松办公—-文档双面打印的两种方法
  13. STM32初学(笔记二)紧急按键交通灯
  14. 使用jeb转换java语言_JEB 无源码调试 以dvm smali字节码方式,Demo尝试
  15. STM32F205RET6工程应用要点
  16. 基于SpringBoot+Vue开发的物流仓储管理系统源码
  17. linux的4k播放器,【Linux1GB4K(3840*2160)电视播放器】Linux1GB4K(3840*2160)电视播放器报价及图片大全-列表版-ZOL中关村在线...
  18. 也致第一次安装Rime的你
  19. android腾讯离线推送,腾讯云IM离线推送设置
  20. windows vcpkg下载慢

热门文章

  1. 3D点云处理:点云曲率-主曲率/高斯曲率/平均曲率
  2. Kindle退市,掌阅iReader或将接过电纸书市场大旗
  3. JAVA羽毛球篮球运动场地预约管理系统毕业设计 开题报告
  4. 如何在线修改图片大小?图片在线改大小方法推荐给你
  5. 安信可IDE使用教程 加入阿里云平台
  6. esp8266 安信可AiThinkerIDE_V1.5.2开发环境搭建
  7. c语言编程实现合取析取,C++实现离散数学求主合取范式和主析取范式
  8. okhttp实现连接池原理
  9. 弱监督学习综述(Weak Supervision 2019)
  10. 金山打字专业文章计算机,打字测试-金山打字2003打字测试有哪些文章?金山打字2003打字测试有哪 爱问知识人...