做了一个多月的毕设,《钓鱼邮件检测方法的设计与实现》。

主要参考的是12年南邮学报上发的的一篇论文《基于文本特征分析的钓鱼邮件检测》,说是说基于文本特征分析,其实就是用机器学习的方法实现钓鱼邮件的检测。

主要实现流程为:钓鱼邮件特征选择;编写特征提取算法;编写机器学习分类器的训练算法代码和检测代码;对模型进行测试。

特征选择:

特征的选择参考的是上述论文中选择的特征,再通过自己的分析修改了一些。其实做到最后发现这些特征里面,邮件是否含有html类型语言占了很大的比重,其他的特征占得比重特别小,可能是跟邮件训练样本集有关。钓鱼邮件的训练和测试样本集和上述论文中使用的一样,年份有些久远,都是零几年收集的数据,但实在找不到其他的样本集了。

特征提取的代码都是自己敲出来的,参考的论文里给了一些伪代码。特征提取用到的核心知识是正则表达式,听起来挺玄乎的东西,但其实也不是很难。不是很难不代表它不博大精深,入门容易,精通很难。

机器学习分类器实现:

实现了三种分类器,LR、朴素贝叶斯、决策树。都是用Python写的,LR和朴素贝叶斯是直接按照算法,用代码实现的(当然不是我实现的),决策树用的是python机器学习的第三方库。决策树也有使用代码实现算法的例子,但是我没成功移植到我的系统里来,所以就走了个捷径。LR和贝叶斯开始都是找的博客文章,后来发现那些博客文章里面的代码都是来自于《机器学习实战》这本书,后续可以好好看看这本书。

检测模型测试:

用monkey.org提供的1000封钓鱼邮件和spamassassin提供的1000封普通邮件作训练集,500封钓鱼邮件和500封普通邮件作测试集,检测性能十分的好,甚至比论文里面的结果都好。但个人觉得我写的这个模型没有什么实际意义,因为样本集邮件数据的现实参考性实在太低。不过如果它参考性强的话检测性能肯定达不到这么高。

总结:

这次毕设课题经历总体来说还是让我受益匪浅的。考完研寒假在家无聊看了吴恩达教授的机器学习公开课(虽然没看完),没想到毕设就用上了。熟悉了python语言(python真是一门强大的语言,包容性贼高,不像C那么龟毛),接触了正则表达式,对机器学习里面的分类算法有了深刻的理解(虽然算法的代码实现不是自己写的,但是基本理清了它们的实现思路)。

展望:

马上要从一枚本科渣渣转战为研究生了,希望自己研究生能多学点东西,以后找工作不至于太虚。

毕设告一段落(其实还有论文修改、查重和答辩。。。),接下来想把《机器学习实战》这本书给好好看看,有时间接触一下Android编程,熟悉熟悉Java,感觉自己都忘光了。其实觉得应该把吴恩达Learning Machine的公开课给看完的,做人要有始有终嘛,但是真心看的费劲,再说吧。

希望自己不是仅仅做个展望,能落到实处!

转载于:https://www.cnblogs.com/yingying7/p/9052324.html

钓鱼邮件检测(本科毕设)相关推荐

  1. 钓鱼网站检测 repo复现

    写在前面 纠结要起个什么样的文章标题-这篇帖子不会写的太硬核,就是想稍微理一下我自己的思路. 最近看了入侵检测和钓鱼检测的论文.入侵检测给我的感觉是系统太大了,而且从199几年就开始用机器学习做了?? ...

  2. APT 分析报告:钓鱼邮件网址如何混淆 URL 逃避检测?

    作者 | 杨秀璋 责编 | 夕颜 图源 | 视觉中国 出品 | CSDN(ID:CSDNnews) 这是作者新开的一个专栏,主要翻译国外知名的安全厂商APT报告文章,了解它们的安全技术,学习它们溯源A ...

  3. 【转】钓鱼邮件攻击检测

    参考连接: 钓鱼邮件的检测 - 简书 钓鱼邮件因此成为APT攻击的重要手法之一,隐藏在电子邮件中的附件中或者url链接中,在一定条件下激活,进行破坏和传播,轻则占用资源.破坏计算机系统部分功能,重则导 ...

  4. 美团员工被指用钓鱼邮件获拼多多薪资;华为回应暂无其它手机厂商接入HarmonyOS;GCC 放弃版权转让政策|极客头条...

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  5. 记一次被QQ邮箱钓鱼邮件事件

    0x0 背景 福无双至.祸不单行.本来是风和日丽的天气,白帽子在工地认真搬砖然后被一些所谓的负(dou)责(bi)人怼了,心里感觉到很委屈.准备下班之际莫名其妙收到了一封QQ邮箱弹窗点开一看直觉就是& ...

  6. 钓鱼邮件从入门到放弃

    目录 钓鱼邮件从入门到放弃 一.钓鱼邮件的基本概念 1.1 钓鱼邮件的伪造方式 1.1.1 购买域名搭建邮箱服务器 1.1.2 伪造发件人 1.2 三个邮件安全协议 1.2.1 SPF 1.2.2 D ...

  7. 记一次对钓鱼邮件的分析

    0x01.前言 前几天收了个钓鱼邮件,由于一直有各种事情,没有做完整的分析,趁着周末,理了理分析思路,整理一篇博客与大家分享 事情是这样的,突然qq邮箱收到一个来源自我的一个群发的通知.至于为什么发现 ...

  8. 钓鱼邮件攻击(入门)

    记一次hw中学习的钓鱼邮件攻击(入门) 作为社会工程学的一种攻击方式,当红队正面面临框架新,逻辑漏洞少,信息泄露少等情况打不开局面时,钓鱼邮件攻击不失为一种"有趣"又有效的渗透方式 ...

  9. 一次偶然的CobaltStrike木马钓鱼邮件分析

    文章目录 前言 简历钓鱼 CS场景检测 域前置 行为检测 多引擎检测 动态分析 进程详情 网络行为 释放文件 处置建议 前言 前几天看到一篇关于近期钓鱼邮件的情况统计的文章,挺有意思 https:// ...

  10. 这样的钓鱼邮件,你会中招吗?

    在一个风和日丽的工作日下午,你收到了一封由公司人力资源部门发来的工资单邮件,正疑惑今天并不是发薪日,但激动的小手已经在不经意间按下了鼠标,发现上面所写的工资跟预期少了许多,一封附件表格提醒你查看本月需 ...

最新文章

  1. 多平台Gstreamer Multiplatform
  2. 【视觉SLAM14讲】ch3课后题答案
  3. Matlab与线性代数 -- 矩阵的水平连接和垂直连接
  4. Unity中有两种Animation Clip
  5. Java中使用Jedis连接Redis数据库流程
  6. pymysql安装_第八章 nova组件安装2
  7. 华为效仿苹果卖高价手机?滴滴顺风车开放灰度测试;苹果官微被投诉“攻陷”| 极客头条...
  8. 驱动依赖_自噬依赖的分泌因子的产生促进致癌RAS驱动的侵袭
  9. U盘未识别驱动器需要格式化
  10. U盘越狱iPhone绕ID最新教程及各种坑解决,吐血之作(超详细超简单教程)
  11. 360千兆路由计算机安装方法,360路由器怎么设置(设置步骤_360路由器怎么安装?-192路由网...
  12. 第十七届全国大学生智能汽车竞赛讯飞-家庭服务机器人挑战赛全国总决赛规则
  13. 一个window下的简单的全局快捷键向指定的进程发送的c代码与exe程序下载(二)
  14. Python批量处理图片名
  15. 终于在国庆前找到工作了!(面试全过程真实记录)
  16. c语言谢旻吕俊张军强答案,吕俊|
  17. 【沧海拾昧】微机原理:可编程中断控制器8259A芯片
  18. 【论文阅读5】BoT-SORT:Robust Associations Multi-Pedestrian Tracking
  19. SciChart_V6.最新的图表控件发布了!
  20. 名词解释第七十讲:基金会

热门文章

  1. 消费券或可让消费增速超过8%
  2. 【算法学习】1.渐进复杂性
  3. Spark Streaming简单入门(示例+原理)
  4. python re sub模块字符串提取非字母非数字_7.python之正则表达式re模块
  5. 测试工作干了8年,却被实习生代替,是实习生太牛了,还是我们太弱了?
  6. 《HarmonyOS开发 - 小凌派-RK2206开发笔记》第1章 开发环境搭建
  7. oeasy教您玩转vim - 43 - # 替换模式
  8. 微信网页开发 -- 网页授权
  9. u盘量产linux pe,WinPE U盘量产ISO
  10. 1_科普—什么是GNU?什么是GPL协议?GNU和Linux是怎么结合在一起的?