（附完整代码和实验报告）【python 大作业】实现一个聊天机器人，关键词双重查找，结合语境查找，爬虫查询，图形化界面，语音播报。

完整项目分享：
链接：https://pan.baidu.com/s/17GO0RoyMs2qwCoxcvFiHkg
提取码：5969
（如果这个项目帮助到你了，麻烦点个赞，谢谢）

1.实现功能：

1.进行简单的日常生活聊天(首先根据输入寻找对应答案，如果未找到对应答案，就结合从百度百科上爬取下的内容进行回答)
2.关于具体电影和音乐话题的聊天(联系上文语境、实现关键词双重查找)
附加部分：
为机器人增加了语音播报功能
实现了一个简单的GUI，实现了交互功能
机器人对话均为中文对话

2.功能演示

日常聊天部分：

1.进行简单的对话

点击开始按钮，在内部对程序进行初始化

将想要输入的部分输入到发送框中，然后点击发送

2.对于特定的关键词知道进行搜索

当然，如果想要的数据更精确，也可以直接行驶查询功能

特定话题部分：

流程：
首先需要输入“聊电影”
然后利用特定的输入来激活到某个更具体的话题
比如输入的“知道恋恋笔记本这部电影吗？”，“知道陈可辛吗？”,然后就可以就这个部分进行话题的探讨
需要退出具体话题的聊天，可以直接输入exit实现退出，返回到日常生活中的聊天。

首先是激活到对应的具体话题部分

我们先输入“聊电影”
然后再看“激活特定话题用关键词.txt”文件中的内容，选择一个输入
这里输入的是“你知道陈可辛吗？”就正式进入这个话题下的聊天了

找到对应部分后，就可以输入对话了。这里利用了双层的关键词查找和联系上下问语境

双层关键词

联系上下文语境

前面先聊到“梁家辉”，此时的话题就记住了关键词“梁家辉”，然后再问出生日期，聊天机器人就会在“梁家辉”对应的词条下面寻找。后来又聊到了“陈可辛”，此时的语境就会切换成陈可辛，你再问机器人，机器人就会在结合陈可辛的语境进行回答。

3.实现过程：

实现所用到库

jieba: 用于中文分词。方便将对话输入拆分关键词，便于查找
tkinter：用于实现GUI交互界面
json：用于读取json格式的语料库文件
pyttsx3：用于实现机器人的语音播报

实现思路：

整体思路是结合预料库进行正则匹配。
首先是整个字符串进行匹配，如果找到就可以直接进行输出
然后是关键词逐个匹配，在上一种情况没有匹配的情况下，将输入的话进行关键词的拆分和组合，再进行关键词的匹配。

扩展部分思路
这部分是结合语境以及关键词多重匹配
结合了具体话题的语料库的性质。
这个语料库的关键词分为三层。
第一层适用于我们激活到更加具体的话题，比如说提问“知道陈可辛吗？”，这一整句话就是第一层关键词，保证回答不会跳出这个话题。
第二层关键词就适用于语境了，每次找到新回答后，这个语境关键词都会被更新。
第三层关键词用于查找具体的回答。
结合语境：
每次找到新回答后就会更新语境，下一次再要寻找回答时，会优先匹配之前的语境下的第三层关键词，如果匹配成功了，那就直接输出。如果没有在之前的语境关键词下匹配成功。就跳转到使用关键词的多重匹配。
关键词多重匹配：
利用jieba库对输入的话进行关键词拆分和组合，得到我们实际想知道的关键词的所有可能。
先用所有的关键词可能匹配第二层关键词，如果匹配成功了就再匹配这个语境关键词下的所有第三层关键词，一旦匹配成功就可以输出了。

举例：
输入“梁家辉主要成就”
将关键词拆分组合成“梁家辉”“梁家辉成就”，“梁家辉主要”，“梁家梁家辉成就”，“梁家梁家辉主要”，“梁家梁家辉”，“梁家成就”，“梁家主要成就”，“梁家主要”。
利用这些关键词逐个匹配第二层关键词，发现“梁家辉”这个关键词匹配成功了
在“梁家辉”这个语境关键词下，再次利用所有的关键词可能匹配第三层关键词，发现匹配成功了“主要成就”，就将对应结果输出了。

实现所用函数的解释：

query(content)：
输入：要查询的词条
输出：查询的结果
功能:爬取百度百科content的搜索内容
StrSplit(String)：
输入：要拆分的字符串
输出：所有可能字符子串的数组
功能：将输入的内容进行关键词拆分和组合，返回形成字符串数组。
query_find(String)：
输入：要检查的字符串
输出：返回是否符合查找的格式，和查询的结果
功能：检查输入的String是不是符合“知道xx吗”的形式，如果是，就调用query进行查找，并且更改返回值。
MatchSiple(path, String)：
输入：语料库的路径，要查询的字符串
输出：返回是否找到结果以及结果
功能：检查String是否在path对应的文件内容中有直接的完全符合的匹配，如果有就修改返回值
MatchHeight(path, String_lt)：
输入：语料库的路径，分割好后的字符串数组
输出：是否查询到结果，查询的结果
功能:逐个检查String_lt字符串数组中的字符串是否在path对应文件有完全的匹配，如有有匹配，就对应答案该返回值。
ai_movie_MatSiple(data,String oeder)：
与MatchSiple(path,String)类似，只是使用的语料库切换成了具体话题的语料库。
ai_movie_MatchHeight(data, String_lt,order,name)：同上。
ai_films_Matchname(data,String):
输入：具体话题的语料库，输入的字符串
输出：查询的结果，是否查询到结果，查询到的第一个关键词
功能：确定好第一个关键词。
films(engine,file,string):
输入：语音播报，打开的语料库文件，要检测的字符串
输出：无返回值，直接将内容输出到GUI上，同时进行语音播报
功能：根据前后全局变量的信息，有针对性调用前面所说的函数，找到对应的结果。
chat_bot(String):
输入：要询问的部分
输出: 无返回值，直接将内容输出到GUI上，同时进行语音播报。
功能：根据几个全局变量的信息，有针对性的调用上述函数，找到最终的结果
send():
这个函数是被按钮“发送”所调用的，会调用chat_bot()函数,寻找返回的字符串，同时将输入的内容有人插入到GUI的文本框中。
begin():
对所有的信息进行初始化，这个函数是由“开始”按钮所调用的

代码中全局变量的解释

global tag1:用于表示当前机器人的状态是不是在“聊电影”这个特殊的话题上
global tag2:用于表示当前机器人的状态是不是在“聊音乐”这个特殊的话题上
global name:用于记录在“聊电影”和“聊音乐”上的第一个关键词
global path:用于记录日常聊天的语料库的路径
global engine:用于记录语音播报
global file1:记录“聊电影”的语料库文件
global file2:记录“聊音乐”的语料库文件
global data:记录打开的具体话题对应文件转化成的dirt
global ord:记录在“聊电影”或者“聊音乐”这两个具体部分中，第一个关键词对应的位置。还是方便后续的查找

##4.实验总结：

本次实验的主题思路是实现关键词的提取和匹配，根据已经有的语料库进行针对性的回答。
在一般的完全匹配上，增加了关键词的拆分重新组合，增加了结合语境，增加了关键词双重匹配，增加了不知道结果时可以从百度百科上爬取答案。同时增加了交互界面和语音播报。
实现了可以简单的一问一答，具体话题下的更具体的回答。
但是由于语料库的欠缺，在实现具体话题下问答时需要用特殊的话来进行激活，这一点是有待改进。同时这次大作业，借鉴了网络上的一些思路，表示感谢。

import tkinter
import tkinter as tk
from tkinter import scrolledtext
import jieba
import urllib.request
import urllib.parse
from lxml import etree
import json
import pyttsx3# ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~全局变量~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
global tag1
global tag2
global name
global path
global engine
global file1
global file2
global data
global ord
tag1 = 0
tag2 = 0
name = None
# 标记两个tag,一个tag表示当前的选择是一般性回答还是film,另一个tag是在film中表示是不是第一次使用film的库
# ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~# ~~~~~~~~~~~~~~~~~~~~~~~~~~~日常对话部分查找~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
def query(content):# 请求地址url = 'https://baike.baidu.com/item/' + urllib.parse.quote(content)# 请求头部headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}# 利用请求地址和请求头部构造请求对象req = urllib.request.Request(url=url, headers=headers, method='GET')# 发送请求，获得响应response = urllib.request.urlopen(req)# 读取响应，获得文本text = response.read().decode('utf-8')# 构造 _Element 对象html = etree.HTML(text)# 使用 xpath 匹配数据，得到匹配字符串列表sen_list = html.xpath('//div[contains(@class,"lemma-summary") or contains(@class,"lemmaWgt-lemmaSummary")]//text()')# 过滤数据，去掉空白sen_list_after_filter = [item.strip('\n') for item in sen_list]# 将字符串列表连成字符串并返回return ''.join(sen_list_after_filter)def query_find(String):back = Nonefind = 0if '知道' in String:                      # 符合”知道XX吗“的格式，直接调用query对结果进行爬虫find = 1f1 = String.split('知道')f1 = f1[1].split('吗')back = query(f1[0])if len(back) < 2:back = '这个小蜗也不知道哎'lt_ms = [back, find]return lt_msdef StrSplit(String):"""Decompose the string into a list           # 将字符串分解为一个列表:param String: The string to be decomposed # 要分解的字符串:return: String_lt                         # 分解后的字符串列表"""String_lt = jieba.lcut(String, cut_all=True)    # 要引入jieba库String1 = jieba.lcut(String, cut_all=True)String2 = jieba.lcut(String, cut_all=True)String3 = jieba.lcut(String, cut_all=True)String3.append('')for Str1 in String1:String_lt.append(Str1)String2.remove(Str1)for Str2 in String2:String_lt.append(Str2)                  # 要添加分出来的关键词try:String3.remove(Str1)except:passtry:String3.remove(Str2)except:passfor Str3 in String3:String_lt.append(Str3)String_lt.append(Str1 + Str2 + Str3)            # 添加组合成的关键词String_lt = sorted(String_lt, reverse=True)return String_ltdef MatchSiple(path, String):"""Matches the dictionary to a single string  # 将字典匹配到单个字符串:param path: The dictionary to match       # 匹配的字典:param String: The string to match         # 要匹配的字符串:return: lt_ms                             # 匹配结果与判断(1有/0无)的列表"""errow_matchsplit = 0back = Nonef1 = String.split('：')[0]if f1 == '查询':errow_matchsplit = 1back = query(String.split('：')[1])lt_ms = [back, errow_matchsplit]return lt_mswith open(path, 'r', encoding='utf-8') as f:     # 注意编码while errow_matchsplit == 0:f1 = f.readline().split('\n')[0]f2 = f.readline().split('\n')[0]f3 = f.readline()if String == f1:back = f2errow_matchsplit = 1breakif f1 == '' or f2 == '':breaklt_ms = [back, errow_matchsplit]if errow_matchsplit == 0:lt_ms = query_find(String)return lt_msdef MatchHeight(path, String_lt):"""Matches the dictionary with a list of strings # 用字符串列表匹配字典:param path: The dictionary to match          # 匹配的字典:param String_lt: List of strings to match    # 要匹配的字符串列表:return: lt_mh                                # 匹配结果与判断(1有/0无)的列表"""errow_matchheight = 0back = Nonewith open(path, 'r', encoding='utf-8') as f:     # 注意编码while errow_matchheight == 0:f1 = f.readline().split('\n')[0]f2 = f.readline().split('\n')[0]f3 = f.readline()for String in String_lt:if String == f1:back = f2errow_matchheight = 1breakif f1 == '' or f2 == '':breaklt_mh = [back, errow_matchheight]return lt_mh# ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~def study(path, study_start, study_end):"""Open the dictionary and write the match statement and the match result # 打开字典并编写匹配语句和匹配结果:param path: The dictionary to open                                    # 要查的字典:param study_start: Dictionary matching statements                     # 词典匹配语句:param study_end: The dictionary returns the result                    # 字典返回结果:return: None                                                          # 无返回"""with open(path, 'a', encoding='utf-8') as f:     # 注意编码f.write(study_start+'\n')f.write(study_end+'\n')f.write('\n')# ~~~~~~~~~~~~~~~~~~~~~~~~~~~具体话题查找~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
def ai_movie_MatchSiple(data, String, order):errow_movie_match = 0back = Nonename = Nonef1 = String.split('：')[0]if f1 == '查询':errow_matchsplit = 1back = query(String.split('：')[1])lt_ms = [back, errow_matchsplit,name]return lt_msfor i in  range(len(data[order]['messages'])):if data[order]['messages'][i]['message'] == String:back = data[order]['messages'][i+1]['message']name = data[order]['messages'][i+1]['attrs'][0]['name']errow_movie_match = 1breaklt_ms = [back, errow_movie_match, name]return lt_msdef ai_movie_MatchHeight(data, String_lt, order, name):errow_movie_matchH = 0back = Nonefind = 0for i in range(len(data[order]['messages'])):                               # 优先根据结果进行检查if errow_movie_matchH == 1:breakif len(data[order]['messages'][i]) == 2:for String in String_lt:if errow_movie_matchH == 1:break# print(String, '   ', data[order]['messages'][i]['attrs'][0]['name'])for j in range(len(data[order]['messages'][i]['attrs'])):       #判断是否普找到if String == data[order]['messages'][i]['attrs'][j]['name']:find = 1breakif find == 1:for j in range(len(data[order]['messages'][i]['attrs'])):if errow_movie_matchH == 1:breakfor String in String_lt:if String == data[order]['messages'][i]['attrs'][j]['attrname']:back = data[order]['messages'][i]['attrs'][j]['name']+','+data[order]['messages'][i]['attrs'][j]['attrname']+':'+data[order]['messages'][i]['attrs'][j]['attrvalue']name = data[order]['messages'][i]['attrs'][j]['name']errow_movie_matchH = 1breakfor i in range(len(data[order]['messages'])):                               # 优先根据结果进行检查if errow_movie_matchH == 1:breakif len(data[order]['messages'][i]) == 2:for String in String_lt:#if len(data[order]['messages'][i]['attrs'][0]) == 1:#说明有不止一个attrfor j in range(len(data[order]['messages'][i]['attrs'])):if String == data[order]['messages'][i]['attrs'][j]['attrname']:if name == data[order]['messages'][i]['attrs'][j]['name']:      # 首先对name 进行检验，不过这时候的name要换成String,进行三重检测back = data[order]['messages'][i]['attrs'][j]['name']+','+data[order]['messages'][i]['attrs'][j]['attrname']+':'+data[order]['messages'][i]['attrs'][j]['attrvalue']errow_movie_matchH = 1breakfor i in range(len(data[order]['messages'])):if errow_movie_matchH == 1:breakif len(data[order]['messages'][i]) == 2:for String in String_lt:for j in range(len(data[order]['messages'][i]['attrs'])):if String == data[order]['messages'][i]['attrs'][j]['attrname']:back = data[order]['messages'][i]['attrs'][j]['name']+','+data[order]['messages'][i]['attrs'][j]['attrname']+':'+data[order]['messages'][i]['attrs'][j]['attrvalue']name = data[order]['messages'][i]['attrs'][j]['name']errow_movie_matchH = 1breaklt_mh = [back, errow_movie_matchH, name]return lt_mhdef ai_films_Matchname(data,String):errow_matchsplit = 0back = 0name = Nonefor i in range(149):if data[i]['messages'][0]['message'] == String:errow_matchsplit = 1name = data[i]['messages'][1]['attrs'][0]['name']back = ibreaklt_ms = [back, errow_matchsplit, name]return lt_msdef films(engine, file,String):                        ##聊电影对应的模块global tag1global tag2global nameglobal dataglobal ordif tag2 == 0:                                 ##说明刚刚进入到这个模块当中data = json.load(file)order = ai_films_Matchname(data, String)name = order[2]ord = order[0]t.insert('end', '小蜗：'+data[order[0]]['messages'][1]['message']+'\n')engine.say(data[order[0]]['messages'][1]['message'])engine.runAndWait()tag2 = 1elif String == 'exit':tag2 = 0tag1 = 0else:a1 = ai_movie_MatchSiple(data=data, String=String, order=ord)show = a1[0]errow_matchsimple = a1[1]if errow_matchsimple == 0:  # 说明没有找到直接相匹配的,关键词进行重组，查找对应的关键词String_lt = StrSplit(String=String)a2 = ai_movie_MatchHeight(data=data, String_lt=String_lt, order=ord, name=name)show = a2[0]errow_matchhight = a2[1]if errow_matchhight == 0:t.insert('end', '小蜗：小蜗不知道这个细节唉												

											
（附完整代码和实验报告）【python 大作业】实现一个聊天机器人，关键词双重查找，结合语境查找，爬虫查询，图形化界面，语音播报。相关推荐	

								python最强实训程序(增删改查)机房收费管理系统-基于tkinter的图形化界面(附详细代码)
		python最强实训程序(增删改查)机房收费管理系统-基于tkinter的图形化界面(附详细代码) 最近学校实训,用两天时间做了一个python小程序*机房收费管理系统*,一款基于tkinter使用p ...
		
						【操作系统实验】Linux环境下用进程实现哲学家进餐问题——C语言完整代码+详细实验报告
		[注意]代码在文末,以下为详细实验报告 [实验目的]   以哲学家进餐问题为例,学习并熟悉Linux下进程通信.同步机制的具体实现方法,主要是了解并掌握信号量机制和避免死锁的使用方法,使得不会出现哲学 ...
		
						kaggle经典题--“泰坦尼克号”--0.8275准确率--东北大学20级python大作业开源（附详细解法与全部代码以及实验报告）
		kaggle经典题--"泰坦尼克号"--0.8275准确率--东北大学20级python大作业开源(附详细解法与全部代码以及实验报告) 前言 开发环境 一.导入包: 二.实验数据的 ...
		
						python五子棋大作业报告_Python 大作业之五子棋游戏(附代码)
		Python 大作业--五子棋游戏 姓名:吴欣学号: 姓名:张雨清学号: 一游戏介绍: 我们设计的是五子棋游戏,支持两人一个鼠标对下,黑方用左键单击,白方用右键单击,谁先下均可,落子无悔,下过的棋子对 ...
		
						python代码手机壁纸_Python制作微信好友背景墙教程（附完整代码）
		引言 前段时间,微信朋友圈开始出现了一种晒照片新形式,微信好友墙,即在一张大图片中展示出自己的所有微信好友的头像. 效果如下图,出于隐私考虑,这里作了模糊处理. 是不是很炫,而且这还是独一无二的,毕竟 ...
		
						Python数据可视化：2018年北上广深空气质量分析（附完整代码）
		♚ 法纳斯特,Python爱好者,喜欢爬虫,数据分析以及可视化. 就在这周偶然看到一个学弟吐槽天津的空气,不禁想起那段厚德载雾,自强不吸的日子. 无图无真相,下图为证. 左边的图是去年2月份的时候,这 ...
		
						用Python代码画一个足球（附完整代码）
		用Python代码画一个足球(附完整代码) C站举办了世界杯征文活动,本文用Python代码画一个足球. 实现方法介绍 本文的绘图工具使用Python的标准库turtle库,无需安装,导入即可使用.  ...
		
						吴恩达机器学习python实现（6）：SVM支持向量机（文末附完整代码）
		所有的数据来源:链接:https://pan.baidu.com/s/1vTaw1n77xPPfKk23KEKARA 提取码:5gl2 1 Support Vector Machines 1.1 Pr ...
		
						Python实现自动翻译功能 - 附完整代码
		Python实现自动翻译功能 - 附完整代码 随着全球化的不断深入,越来越多的人需要跨越语言障碍进行交流.机器翻译技术的出现为这一问题提供了有效的解决方案.今天,我们将通过Python实现一个自动翻译 ...
		
		

					
最新文章	

						字符串转bigdecimal类型_BigDecimal你会用吗?
		
						linux 普通用户touch权限不够_一篇文章让你轻松了解 Linux 的权限
		
						java1.5多线程_【Java多线程】JDK1.5并发包API杂谈
		
						Site24x7 为Teams提供可智能 DevOps
		
						predicate 列存储索引扫描_ColumnStore index （列存储索引）解析
		
						AntiXSS v4.0中Sanitizer.GetSafeHtmlFragment等方法将部分汉字编码为乱码的解决方案
		
						信号量、使用信号量来完成读写模型（消费者生产者模型）线程池、读写锁面试题
		
						神经网络中的分类器该如何改成生成器？
		
						[翻译]xml的加密和解密
		
						dda算法_C和C ++中的DDA线图绘制算法
		
						布谷鸟算法浅谈与简单应用
		
						大数据-----数据采集
		
						计算机简史：你想不通去脉，是因为不了解来龙
		
						设计模式之内容观察者模式
		
						【第九篇】商城系统-商城首页功能
		
						计算机ps2定义,软件硬件界面接口定义 bt656 硬件接口定义
		
						struts中的redirect=true与redirect=false
		
						浅写策略模式，及map、枚举结合小例子
		
						操作系统教程（第5版）习题解答
		
						智慧街道空间导引及创新平台
		
		
	

热门文章	

									高仿英雄联盟游戏网页制作作业 英雄联盟LOL游戏HTML网页设计模板 简单学生网页设计 静态HTML CSS网站制作成品
			
						excel同一行中如何添加换行
			
						git--基本知识点--1--工作区/暂存区/版本库
			
						关于Excel显示“文件已损坏，无法打开”的解决办法
			
						关于UEFI引导的理解
			
						HTML5网页设计基础——用户注册界面
			
						使用钉钉发送消息（可用于 服务异常通知、定时任务异常通知 等等...）
			
						[新星计划] Python环境搭建 | 万丈高楼平地起
			
						CyberCat赛博猫，进阶版AXIE
			
						哪种蓝牙耳机比较好？2022TWS耳机推荐