机器学习系统设计–垃圾邮件分类

假定我们现有一封邮件，其内容如下：

From: cheapsales@buystufffromme.com
To: ang@cs.stanford.edu
Subject: Buy now!Deal of the week!Buy now!
Rolex w4ches - $100
Med1cine (any kind) - $50
Also low cost M0rgages
available.

充斥着各种诱人的促销信息，很有可能是一封垃圾邮件（Spam）。假定我们有一个垃圾邮件的数据集，想通过机器学习的方式来学会鉴定邮件是否是垃圾邮件，通过这个范例，我们也将学习到机器学习的系统设计。

模型设计

我们令向量 x 表示垃圾邮件的特征向量，该向量包含了 100 个按字母序排序的单词特征，这些单词通常为垃圾邮件常出现的词汇：discount，deal，now 等等：
xj={1第j个单词出现0未出现x_j=\begin{cases}1\quad第j个单词出现\\0\quad未出现\end{cases}xj={1第j个单词出现0未出现

令 y 标签表示该邮件是否是垃圾邮件：
y={1x是垃圾邮件0x不是垃圾邮件y=\begin{cases}1\quad x是垃圾邮件\\0\quad x不是垃圾邮件\end{cases}y={1x是垃圾邮件0x不是垃圾邮件

那么垃圾邮件分类就是一个 0/1 分类问题，可以用逻辑回归完成，这里不再重复介绍逻辑回归的过程了，我们考虑如何降低分类错误率：

尽可能的扩大数据样本：Honypot 做了这样一件事，把自己包装成一个对黑客极具吸引力的机器，来诱使黑客进行攻击，就像蜜罐（honey pot）吸引密封那样，从而记录攻击行为和手段。
添加更多特征：例如我们可以增加邮件的发送者邮箱作为特征，可以增加标点符号作为特征（垃圾邮件总会充斥了？，！等吸引眼球的标点）。
预处理样本：正如我们在垃圾邮件看到的，道高一尺，魔高一丈，垃圾邮件的制造者也会升级自己的攻击手段，如在单词拼写上做手脚来防止邮件内容被看出问题，例如把 medicine 拼写为 med1cinie 等。因此，我们就要有手段来识别这些错误拼写，从而优化我们输入到逻辑回归中的样本。

错误分析

对于机器学习问题，吴恩达给出了一些 tips：

在一开始，尽量不要将问题复杂化（不要提前优化），先快速实现一个简单算法，然后通过交叉验证集评估模型。这就好比在软件工程中，不会做提前优化，而是先迭代功能。
通过绘制学习曲线（learning curve），确定面临的问题是高偏差还是高方差，来决定是添加更多训练样本，还是添加更多特征。
甚至可以手动检查交叉验证集中误差较大的样本，确定错误的来源和解决策略。

举个例子，假定交叉验证集有 500 个样本，即 mcvm_{cv}mcv=500 ，我们的模型错分了其中 100 个样本，那么我们会通过下述手段进行错误分析：

需要知道哪些邮件被错分了，是假冒伪劣的推销邮件？医药邮件？还是钓鱼邮件？
需要知道提供什么线索（特征）能帮助模型区分出这些邮件？

例如，在这 100 个错分样本中，我们发现有 53 个样本是钓鱼邮件，因此，我们就需要考虑为模型注入识别的钓鱼邮件的能力。继续观察，我们发现，在这 53 封钓鱼邮件中，故意使用错误拼写的邮件有 5 封，来源可疑（发送人可疑）的邮件有 16 封，使用了大量煽动性标点符号的邮件有 32 封。因此，对于识别钓鱼邮件来说，我们更适合将煽动性标点符号添加为特征，而不用再考虑去识别错误拼写。

4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授相关推荐

5.11 程序示例--垃圾邮件检测-机器学习笔记-斯坦福吴恩达教授
程序示例–垃圾邮件检测邮件内容的预处理下面展示了一封常见的 email,邮件内容包含了一个 URL (http://www.rackspace.com/),一个邮箱地址(groupname-uns ...
8.4 有监督学习与异常检测-机器学习笔记-斯坦福吴恩达教授
有监督学习与异常检测很多人会认为异常检测非常类似于有监督学习,尤其是逻辑回归,但我们用一张表格来描述有监督学习与异常检测的区别: 有监督学习异常检测数据分布均匀数据非常偏斜,异常样本数目远小于 ...
3.12 程序示例--多分类问题-机器学习笔记-斯坦福吴恩达教授
多分类问题我们手上包含有手写字符的数据集,该数据集来自斯坦福机器学习的课后作业,每个字符图片大小为 20×20 ,总的样本规模为 5000×400 , 我们的神经网络设计如下,包含 1 个隐含层,隐 ...
3.1 再论 0/1 分类问题-机器学习笔记-斯坦福吴恩达教授
再论 0/1 分类问题在逻辑回归一章中,我们讨论了 0/1 分类问题,并且知道,通过对特征进行多项式展开,可以让逻辑回归支持非线性的分类问题.假定我们现在有 nnn 维特征,需要进行非线性分类,采用 ...
5.9 程序示例--非线性分类-机器学习笔记-斯坦福吴恩达教授
程序示例–非线性分类接下来,我们采用高斯核函数来解决非线性可分问题,由于数据集较大,我们使用性能更好的完整版 SMO 算法进行训练: # coding: utf8 # svm/test_non_li ...
5.8 程序示例--线性分类-机器学习笔记-斯坦福吴恩达教授
程序示例–线性分类首先,我们使用线性核函数来训练线性可分问题,这里,我们使用的是简化版 SMO 算法: # coding: utf8 # svm/test_linear import smo imp ...
3.9 神经网络解决多分类问题-机器学习笔记-斯坦福吴恩达教授
神经网络解决多分类问题假定我们需要将图像分为四类: 行人图像车辆图像摩托车图像卡车图像这是一个多分类问题,由于图像特征较多,因此我们可以考虑设计含有多个隐含层的神经网络来完成特征优化(扩展) ...
2.7 程序示例--多分类问题-机器学习笔记-斯坦福吴恩达教授
程序示例–多分类问题我们采用 One-vs-All 方法来进行多分类,在原有的逻辑回归模块中添加 One-vs-All 的训练以及预测方法: # coding: utf-8 # logical_re ...
2.6 多分类问题-机器学习笔记-斯坦福吴恩达教授
多分类问题通常采用 One-vs-All,亦称 One-vs-the Rest 方法来实现多分类,其将多分类问题转化为了多次二分类问题.假定完成 KKK 个分类,One-vs-All 的执行过程如下 ...

4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授

机器学习系统设计–垃圾邮件分类

模型设计

错误分析

4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授相关推荐

最新文章

热门文章