机器学习: 贝叶斯算法的应用

背景

数据集及源码

互联网经济蓬勃发展的背景下,食品经营模式发生了天翻地覆的变化,人们的消费习惯也悄然发生了转变。通过点击手机APP上自己喜欢的食品,

这些食品就能按时准确送达指定的区域,这就是当下最受学生和白领喜欢的外卖。然而随着其迅猛发展带来了一定的食品安全隐患,食品安全

事故的发生对消费者、外卖平台、食品商家和社会的危害性远远超出想象。

本课题旨在通过对O2O店铺评论的监测,加强对店铺的食品安全监管。

任务

本课题的数据为 2019 CCF大数据与计算智能大赛 提供的10000条对O2O店铺的评论文本训练数据,

分为与食品安全有关和与食品安全无关两个类别。需要根据训练集构造文本分类模型,预测2000条测试集中的评论是否与食品安全有关。

!pip install jieba
Requirement already satisfied: jieba in c:\programdata\anaconda3\lib\site-packages (0.39)

导入相关库

import pandas as pd
import jieba
import numpy as np
import re

1.数据预处理

(1)检查数据

datas = pd.read_csv('data/train.csv')
#读取前20条数据
datas.head(20)
label comment
0 0\t一如既往地好吃,希望可以开到其他城市
1 0\t味道很不错,分量足,客人很多,满意
2 0\t下雨天来的,没有想象中那么火爆。环境非常干净,古色古香的,我自己也是个做服务行业的,我...
3 0\t真心不好吃 基本上没得好多味道
4 0\t少送一个牛肉汉堡 而且也不好吃 特别是鸡肉卷 **都不想评论了 谁买谁知道
5 0\t用美团,图打折。
6 0\t好难吃水煮鸡杂呀
7 0\t环境很好,服务很热情,味道非常好,鱼也很新鲜,我和儿子吃的好饱,包子和饺子很好吃哟,
8 0\t一如既往的好吃,个人更喜欢吃全翅
9 0\t四个就把我吃饱了……阔以
10 0\t蛋糕很好吃,送货及时,服务一流啊,下次有机会继续买。
11 0\t肉不好吃#脆香鸡排煲仔饭+半卤蛋##秘制小炒肉煲仔饭+半卤蛋#太辣#功夫烤鸡腿肉煲仔饭...
12 1\t恶心,不想说了,喝嘴里嚼两下觉得口感不对,吐出来就是只小蟑螂,关键是我还嚼了两口,昨天...
13 0\t巨难吃,一个咸一个酸
14 0\t价格实惠,服务态度很好,分量超足,鸭爪入口即化,软糯,很入味,超辣,推荐!
15 0\t喜欢这个地方,菜品多,味道也不错,最好点个鸳鸯锅,锅底也是20元
16 0\t真的很不错,吃了俩次了,朋友从外地来,特意带她们来吃的,他们回去吃东西都觉得没味,还是...
17 0\t很好吃,强力推荐,香菜牛肉果然是招牌菜名不虚传
18 0\t味道不错,份量不足
19 1\t真的无语,上两次还觉得可以,今天这个菠萝包里头奶油都臭了,完全不能吃

(2)数据处理

 #获得停用词表
def getStopWords():stopList=[]for line in open("data/中文停用词表.txt"):stopList.append(line[:len(line)-1])return stopList;
def loadDataSet(data):'''数据预处理,去掉特殊字符和不关键的字词过滤评论label:  涉及食品安全:1     非食品安全:0'''comment = []label = []include_list = getStopWords()character = '[a-zA-Z2-9’!"#$%&\'()*+,-./:;<=>?@,。?★、…【】《》?~“”‘’!❤️[\\]^_`{|}~\s]+'for line in data:lines = str(line).strip().strip("['']")#去掉特殊字符lines = re.sub(character, "", lines)#去掉非关键词for key in include_list:lines = lines.replace(key,'')lines = lines.split('\\')if((lines[0] is "0") or (lines[0] is "1")):label.append(int(lines[0]))else:label.append(0)comment.append(lines[1])class_comment = [[0 for i in range(0)] for j in range(len(comment))]#数据内容进行jieba分词i = 0for line in comment:line = list(jieba.cut_for_search(str(line)))for lines in line:class_comment[i].append(lines)i=i+1return class_comment, label#获取测试文件
def loadTestDataSet(data):comment = []include_list = getStopWords()character = '[a-zA-Z2-9’!"#$%&\'()*+,-./:;<=>?@,。?★、…【】《》?~“”‘’!❤️[\\]^_`{|}~\s]+'for line in data:lines = str(line).strip().strip("['']")#去掉特殊字符lines = re.sub(character, "", lines)#去掉非关键词for key in include_list:lines = lines.replace(key,'')comment.append(lines)class_comment = [[0 for i in range(0)] for j in range(len(comment))]#数据内容进行jieba分词i = 0for line in comment:line = list(jieba.cut_for_search(str(line)))for lines in line:class_comment[i].append(lines)i=i+1return comment

2.贝叶斯算法

# 创建一个包含在所有文档中出现的不重复词的列表
def createVocabList(dataSet):vocabSet = set([])      # 创建一个空集for document in dataSet:vocabSet = vocabSet | set(document)   # 创建两个集合的并集return list(vocabSet)# 将文档词条转换成词向量
def setOfWords2Vec(vocabList, inputSet):returnVec = [0]*len(vocabList)        # 创建一个其中所含元素都为0的向量for word in inputSet:if word in vocabList:# returnVec[vocabList.index(word)] = 1     # index函数在字符串里找到字符第一次出现的位置  词集模型returnVec[vocabList.index(word)] += 1      # 文档的词袋模型    每个单词可以出现多次else: pass#print ("the word: %s is not in my Vocabulary!" % word)return returnVec# 朴素贝叶斯分类器训练函数   从词向量计算概率
def trainNB0(trainMatrix, trainCategory):numTrainDocs = len(trainMatrix)numWords = len(trainMatrix[0])pAbusive = sum(trainCategory)/float(numTrainDocs)# p0Num = zeros(numWords); p1Num = zeros(numWords)# p0Denom = 0.0; p1Denom = 0.0p0Num = np.ones(numWords);   # 避免一个概率值为0,最后的乘积也为0p1Num = np.ones(numWords);   # 用来统计两类数据中,各词的词频p0Denom = 2.0;  # 用于统计0类中的总数p1Denom = 2.0  # 用于统计1类中的总数for i in range(numTrainDocs):if trainCategory[i] == 1:p1Num += trainMatrix[i]p1Denom += sum(trainMatrix[i])else:p0Num += trainMatrix[i]p0Denom += sum(trainMatrix[i])# p1Vect = p1Num / p1Denom# p0Vect = p0Num / p0Denomp1Vect = np.log(p1Num / p1Denom)    # 在类1中,每个次的发生概率p0Vect = np.log(p0Num / p0Denom)      # 避免下溢出或者浮点数舍入导致的错误   下溢出是由太多很小的数相乘得到的return p0Vect, p1Vect, pAbusive# 朴素贝叶斯分类器
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):p1 = sum(vec2Classify*p1Vec) + np.log(pClass1)p0 = sum(vec2Classify*p0Vec) + np.log(1.0-pClass1)if p1 > p0:return 1else:return 0

3.训练测试

def testingNB():df=pd.read_csv('data/train.csv') data = np.array(df)listOPosts, listClasses = loadDataSet(data[:5000])myVocabList = createVocabList(listOPosts)trainMat = []test_label_list = []for postinDoc in listOPosts:trainMat.append(setOfWords2Vec(myVocabList, postinDoc))p0V, p1V, pAb = trainNB0(np.array(trainMat), np.array(listClasses))testEntry_list,test_label = loadDataSet(data[5000:])for testEntry in  testEntry_list:thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))test_label_list.append(classifyNB(thisDoc, p0V, p1V, pAb))
#         print (testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))i = 0count = 0for label in test_label:if label is test_label_list[i]:count=count + 1print("正确率:",count/len(test_label))
# 调用测试方法
testingNB()
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\2\jieba.cache
Loading model cost 1.492 seconds.
Prefix dict has been built succesfully.正确率: 0.8438

4.预测

def forecast():df=pd.read_csv('data/train.csv') data = np.array(df)listOPosts, listClasses = loadDataSet(data)myVocabList = createVocabList(listOPosts)trainMat = []print("训练。。。。")for postinDoc in listOPosts:trainMat.append(setOfWords2Vec(myVocabList, postinDoc))p0V, p1V, pAb = trainNB0(np.array(trainMat), np.array(listClasses))print("预测。。。。")test_label_list = []test_df = pd.read_csv('data/test_new.csv') test_data = np.array(test_df["comment"])test_id = list(np.array(test_df["id"]))comment = loadTestDataSet(test_data)for testEntry in  comment:thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))test_label_list.append(classifyNB(thisDoc, p0V, p1V, pAb))#写入文件保存print("保存数据。。。。")dataframe = pd.DataFrame({'id':test_id ,'label':test_label_list})#将DataFrame存储为csv,index表示是否显示行名,default=Truedataframe.to_csv("forecast/forecast.csv",index=False,sep=',')
forecast()
训练。。。。
预测。。。。
保存数据。。。。

预测结果前10项

result = pd.read_csv('forecast/forecast.csv')
result.head(10)
id label
0 0011f384-9e54-4fb4-a272-330a6cab6804 0
1 00223e4f-47e1-4fc8-9657-06444a7de9a5 1
2 00225350-c169-435c-84cf-970068df5b12 0
3 00a3190c-90c1-44c3-b809-7a9b1314cd27 0
4 00b3f76e-fda3-42cd-8884-25e03a5dba64 0
5 00b6d1c7-2f3e-4124-a5ba-5f4c4342bc94 1
6 00fb0c72-569a-4cf3-8273-b602564d64ba 1
7 0136d22b-d1a5-45af-bf47-fd5f95863011 1
8 01662368-434b-4cf9-a885-0855c884cdf1 1
9 01876c3f-d9c5-4ddf-83d1-045830755138 0

机器学习: 贝叶斯算法的应用相关推荐

  1. 机器学习——贝叶斯算法(一)

    1. 简介 在网络上介绍贝叶斯定理,贝叶斯网格的资料随处可见,我在此处就简单给大家的阐述一下什么是贝叶斯,贝叶斯方法其实在高中的时候我们就已经开始接触了,高中的概率大部分讲述的就是贝叶斯方法. 其实在 ...

  2. 机器学习——贝叶斯算法(Bayes)

    1.从一个例子来了解贝叶斯? 假设一个学校里面人数总数为U,其中60%的学生为男生,40%的学生为女生,男生全部穿长裤,女生有一半穿长裤一半穿短裤 正向概率:随机选择一个学生,穿长裤的概率和穿裙子的概 ...

  3. 【机器学习入门】(2) 朴素贝叶斯算法:原理、实例应用(文档分类预测)附python完整代码及数据集

    各位同学好,今天我向大家介绍python机器学习中的朴素贝叶斯算法.内容有:算法的基本原理:案例实战--新闻文档的分类预测. 案例简介:新闻数据有20个主题,有10万多篇文章,每篇文章对应不同的主题, ...

  4. 朴素贝叶斯算法_机器学习第三篇:详解朴素贝叶斯算法

    一.统计知识 01|随机事件: 1.概念 随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件).随机事件通常用大写英文字母A.B.C等表示.随机 ...

  5. 机器学习第三篇:详解朴素贝叶斯算法

    一.统计知识 01|随机事件: 1.概念 随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件).随机事件通常用大写英文字母A.B.C等表示.随机 ...

  6. 机器学习朴素贝叶斯算法+tkinter库界面实现好瓜坏西瓜分类

    机器学习朴素贝叶斯算法+tkinter库界面实现好瓜坏西瓜分类 一.界面实现 from tkinter import * from tkinter import ttk import NBdef ma ...

  7. 机器学习朴素贝叶斯算法_机器学习中的朴素贝叶斯算法

    机器学习朴素贝叶斯算法 朴素贝叶斯算法 (Naive Bayes Algorithm) Naive Bayes is basically used for text learning. Using t ...

  8. matlab算法用python做_机器学习笔记—朴素贝叶斯算法实现(matlab/python)

    原理知道一百遍不如自己动手写一遍,当然,现在基本上不需要自己来写算法的底层code了,各路大神们已经为我等凡夫俗子写好了,直接调用就行. 这里介绍在MATLAB中和Python中应用贝叶斯算法的小例子 ...

  9. 机器学习算法: 朴素贝叶斯算法

    朴素贝叶斯算法原理简述 理解朴素贝叶斯算法之前, 先应该理解什么是条件概率. 条件概率是指, 在事件A已经发生的情况下, 事件B发生的概率. 数学符号记作P(A|B). 机器学习就是利用这个原理, 对 ...

最新文章

  1. 遗传算法的简单介绍以及模式定理的简单证明
  2. tar常见文件解压法
  3. 小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码)
  4. 安卓虚拟机启动后报错: 类似 SDK Manager] Error: Error parsing .....devices.xml 解决方案
  5. WINDOWS XP常用的快捷键组合?
  6. docker安装redmine步骤
  7. wxWidgets:wxRearrangeList类用法
  8. myisam表锁及锁粒度调节
  9. php 正则替换style,php正则去除js,class,id,style标签代码
  10. [Java] java中的接口定义
  11. ExceptionLess新玩法 — 记日志
  12. JavaOne 2015:为JDK 9做准备– blog @ CodeFX
  13. 简单的进度条拖动效果及拖拽改变层大小
  14. 安装百度库,C调用Python出错,卸载、再重装消失
  15. 安全测试——SQL注入
  16. CSDN愈来愈金钱化
  17. 深度学习基础学习-残差
  18. python3爬取头条比基尼图片
  19. 云函数能写php吗,FunctionCloud
  20. 程序报错误Illegal instruction的解决办法

热门文章

  1. matlab 运行报错:变量似乎随迭代次数而改变,请预先分配内存空间以加快运算速度 解决方式
  2. C语言基础知识讲解(入门)
  3. 芯片组成、制作、涉及到的产业链
  4. 机器学习为什么强大?
  5. python德巴赫猜想_python实现哥德巴赫猜想(任何大于或者等于6的整数都可以写成2个素数之和)...
  6. 【C语言每日一练——第1练:字母大小写转换】
  7. 安安猜价格聪明机器人_2021年智慧树APP不动产估价第八单元章节测试答案
  8. npm install 报错:found XXX vulnerabilities (XXX low, X moderate),run `npm audit fix` to fix them, or `
  9. 带下波浪线的textView
  10. Scratch等级考试编程题操作指南