《机器学习实战》基于朴素贝叶斯算法实现垃圾邮件分类

import random
import sys
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import redef textParse(bigString):listOfTokens = re.split(r'\W*', bigString)  # 返回列表return [tok.lower() for tok in listOfTokens if len(tok) > 0]def createVocabList(dataSet):vocabSet = set([])for docment in dataSet:vocabSet = vocabSet | set(docment)  # 将docment中vocabSet所没有的单词加到vocabSet中return list(vocabSet)  # 返回单词列表# vocablist是词汇表，inputSet为输入的邮件
def bagOfWords2Vec(vocabList, inputSet):returnVec = [0] * len(vocabList)  # returnVec的大小与词汇表相同，用来记录输入邮件中有多少单词在词汇表中存在，并记录单词的出现次数for word in inputSet:if word in vocabList:returnVec[vocabList.index(word)] += 1else:print("the word: %s is not in my Vocabulary!" % word)return returnVec  # 返回词向量# trainMat是训练样本的总的词向量，是一个矩阵，每一行都是一个邮件的词向量
# trainGategory为与trainMat对应的类别，值为0，1表示正常，垃圾
def train(trainMat, trainGategory):numTrain = len(trainMat)  # numTrain为训练样本邮件的个数numwords = len(trainMat[0])  # numwords为第一封邮件的单词个数pAbusive = sum(trainGategory) / float(numTrain)  # pAbusive为垃圾邮件占整个训练样本的比例p0Num = np.ones(numwords)  # p0Num为一个shape为(numwords,)的全为1的ndarray数组，其作用是统计所有正常邮件中每个单词的个数p1Num = np.ones(numwords)  # p1Num为一个shape为(numwords,)的全为1的ndarray数组，其作用是统计所有垃圾邮件中每个单词的个数p0Denom = 2.0p1Denom = 2.0for i in range(numTrain):  # 遍历所有的邮件if trainGategory[i] == 1:  # 若这封邮件为垃圾邮件p1Num += trainMat[i]  # 矩阵加法，统计类1中每个单词的个数，将其加至p1Num中p1Denom += sum(trainMat[i])  # plDenom加上类1的单词总数else:p0Num += trainMat[i]p0Denom += sum(trainMat[i])p1Vec = np.log(p1Num / p1Denom)  # 自然对数运算，计算垃圾邮件中每个单词的概率，p1仍为ndarray矩阵，记录每个单词在垃圾邮件情况下出现的概率p0Vec = np.log(p0Num / p0Denom)  # 正常邮件中每个单词的概率return p0Vec, p1Vec, pAbusivedef classfy(vec2classfy, p0Vec, p1Vec, pClass1):p1 = sum(vec2classfy * p1Vec) + np.log(pClass1)p0 = sum(vec2classfy * p0Vec) + np.log(1 - pClass1)if p1 > p0:return 1else:return 0def spamTest():# fullTest = []docList = []classList = []# for i in range(1, 26):  # 每一类只有25封邮件#     print(i)#     wordList = textParse(open('email/spam/%d.txt' % i,encoding='utf8').read())#     docList.append(wordList)#     fullTest.append(wordList)#     classList.append(1)#     wordList = textParse(open('email/ham/%d.txt' % i, encoding="utf-8").read())#     docList.append(wordList)#     fullTest.append(wordList)#     classList.append(0)# 3.读入数据集df = pd.read_csv('./email/SMSSpamCollection.txt', delimiter='\t', header=None)  # 用\t分割，没有文件头# 生成label和x输入y, X_train = df[0], df[1]for text in X_train[y == "spam"]:wordList = textParse(text)docList.append(wordList)# fullTest.append(wordList)classList.append(1)for text in X_train[y == "ham"]:wordList = textParse(text)docList.append(wordList)# fullTest.append(wordList)classList.append(0)vocabList = createVocabList(docList)  # 创建词汇表trainSet = list(range(5572))  # 训练样本集testSet = []# 随机抽取10个样本当作测试数据for i in range(int(5572 / 10)):randIndex = int(random.uniform(0, len(trainSet)))testSet.append(trainSet[randIndex])  # 将选出的样本添加到测试样本集del (trainSet[randIndex])  # 将选出的样本从训练样本集中删除trainMat = []trainClass = []for docIndex in trainSet:trainMat.append(bagOfWords2Vec(vocabList, docList[docIndex]))  # trainMat为训练样本的词向量矩阵trainClass.append(classList[docIndex])  # trainClass按顺序保存训练样本的分类p0, p1, pSpam = train(np.array(trainMat), np.array(trainClass))"""p0为训练样本的正常邮件中每个单词出现的概率p1为训练样本的垃圾邮件中每个单词出现的概率pSpam为训练样本中垃圾邮件所占的比例"""errcount = 0# 用测试样本进行测试for docIndex in testSet:wordVec = bagOfWords2Vec(vocabList, docList[docIndex])if classfy(np.array(wordVec), p0, p1, pSpam) != classList[docIndex]:errcount += 1print('classfication error'), docList[docIndex]print("The error rate is ", float(errcount) / len(testSet))print("正确率为：", 1 - float(errcount) / len(testSet))test_file = textParse(open('email/spam/2.txt', encoding='utf8').read())wordVec = bagOfWords2Vec(vocabList, test_file)print(classfy(np.array(wordVec), p0, p1, pSpam))if __name__ == '__main__':spamTest()

代码中用到的SMSSpamCollection.txt可查看我的资源获取

参考文章：

《机器学习实战》——人民邮电出版社
《统计学习方法》——李航

《机器学习实战》基于朴素贝叶斯算法实现垃圾邮件分类相关推荐

python：基于朴素贝叶斯算法的垃圾邮件过滤分类
目录一.朴素贝叶斯算法 1.概述 2.推导过程二.实现垃圾邮件过滤分类 1.垃圾邮件问题背景 2.朴素贝叶斯算法实现垃圾邮件分类的步骤 3.python实现参考学习网址:https://blog ...
基于朴素贝叶斯+Python实现垃圾邮件分类和结果分析
基于朴素贝叶斯+Python实现垃圾邮件分类朴素贝叶斯原理请参考: 贝叶斯推断及其互联网应用(二):过滤垃圾邮件 Python实现源代码主干来自: python实现贝叶斯推断--垃圾邮件分类我 ...
【机器学习实战】朴素贝叶斯应用之垃圾邮件过滤
1.什么是朴素贝叶斯 2.贝叶斯公式 3.朴素贝叶斯常用的三个模型 4.朴素贝叶斯实现垃圾邮件过滤的步骤 5.垃圾邮件过滤实验: (一).准备收集好的数据集,并下载到本地文件夹 (二).朴素贝叶斯分类 ...
机器学习——朴素贝叶斯算法（垃圾邮件分类）
朴素贝叶斯算法介绍以及垃圾邮件分类实现 1.一些数学知识 2.贝叶斯公式 3.朴素贝叶斯算法 (1)介绍 (2)核心思想 (3)朴素贝叶斯算法 (4)拉普拉斯修正 (5)防溢出策略 (6)一般过程 ( ...
机器学习：朴素贝叶斯算法与垃圾邮件过滤
简介贝叶斯算法是由英国数学家托马斯·贝叶斯提出的,这个算法的提出是为了解决"逆向概率"的问题.首先我们先来解释下正向概率与逆向概率的含义: 正向概率:假设一个箱子里有5个黄色球和 ...
朴素贝叶斯算法实现垃圾邮件过滤（Python3实现）
目录 1.朴素贝叶斯实现垃圾邮件分类的步骤 2.邮件数据 3.代码实现 4.朴素贝叶斯的优点和缺点 1.朴素贝叶斯实现垃圾邮件分类的步骤 (1)收集数据:提供文本文件. (2)准备数据:将文本文件解析 ...
朴素贝叶斯算法：实现邮件分类
朴素贝叶斯算法:实现邮件分类注:代码和数据已上传:https://download.csdn.net/download/j__max/10705454 一.实验准备 1.实验内容和目的使用5000 ...
朴素贝叶斯算法实现垃圾邮件过滤
朴素贝叶斯算法实现垃圾邮件过滤 1．1 题目的主要研究内容 (1)贝叶斯垃圾邮件过滤技术是一种电子邮件过滤的统计学技术,它使用贝叶斯分类来进行垃圾邮件的判别. (2)贝叶斯分类的运作是借着使用标记(一 ...
基于朴素贝叶斯算法对肿瘤类别分类
目录朴素贝叶斯算法编辑朴素贝叶斯的三种方式实战--肿瘤类别的分类朴素贝叶斯算法贝叶斯定理贝叶斯定理(Bayes Theorem)也称贝叶斯公式,是关于随机事件的条件概率的定理定理内 ...

《机器学习实战》基于朴素贝叶斯算法实现垃圾邮件分类

参考文章：

《机器学习实战》基于朴素贝叶斯算法实现垃圾邮件分类相关推荐

最新文章

热门文章