作者 | 李秋键
责编 | 刘静
出品 | CSDN(ID:CSDNnews)

今天我们将利用分词处理以及搜索引擎搭建一个智能问答系统,具体的效果如下所示:

下面简单了解下智能问答系统和自然语言处理的概念,智能问答系统是自然语言处理的一个重要分支。现在普遍认为智能问答能够独立解决很多问题,但是必须要承认现在技术所处的初级阶段的性质。也就是说,智能问答系统在现阶段最大的价值在于为客服人员附能,而并非独立于人自行解决众多目前还有巨大错误率和不确定性的问题。一旦具有这样的思想基础——通过智能问答系统为客服人员附能,那么将智能问答系统做成一个工具和产品的基础就有了,只有通过产品化、工具化的方式,才能够实现这个预期。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

下面开始搭建我们的智能问答系统,首先我们需要 导入的库:

import requests
from lxml import etree
import jieba
import re
import sys,time
import os
其中requests库用来向搜索引擎搜索答案,lxml用来获取答案,jieba库用来提取问题以及做出问题分析,re是处理语言的正则匹配库,sys以及time库用来调试输出效果,os模块用来写入文件以搭建模式选择。

我们知道一个真正的语言回答应该是逐字回答的才符合人的回答习惯,下面为了达到语言对话的效果,我们定义一个函数:

def print_one_by_one(text):sys.stdout.write("\r " + " " * 60 + "\r") # /r 光标回到行首sys.stdout.flush() #把缓冲区全部输出for c in text:sys.stdout.write(c)sys.stdout.flush()time.sleep(0.1)
就是用来逐字输出的效果。

下面是真正搭建的部分,为了对语言进行处理,首先我们要加载停用词,去除掉语言中无意义的词,比如“了”,“啊”等等:

stop = [line.strip() for line in open('stopwords.txt',encoding='utf-8').readlines() ]
开始执行的判断输出一下,以及使用者的输入:
print("小智:您好,请问您需要问什么呢(对话(快,慢),可控制输出速度)")
input_word=input("我:")
为了控制文字输出的速度,我们借助文件读取控制模式:
#默认为慢速
#print(input_word)
if input_word == "快":f = open("1.txt", "w")f.write("0")f.close()
elif input_word =='慢':f = open("1.txt", "w")f.write("1")f.close()
下面用Jieba分词,去除掉无用的停用词:
sd=jieba.cut(input_word,cut_all=False)
final=''
for seg in sd:#去停用词#print(seg)if seg not in stop :final +=segprocess=final
此时process是仅仅最简单语言的处理结果,为了适应更多语言习惯,使用正则表达式匹配另一种语言习惯,一个“问”时的处理:
#匹配问后面全部内容
pat=re.compile(r'(.*?)问(.*)')
#一个“问”时的处理
try:rel=pat.findall(final)process=rel[0][1]
except:pass
另外再添加语言习惯,两个“问”的处理:
#两个问时的处理
try:rel=pat.findall(final)rel0=rel[0][1]#print(rel0)rel1=pat.findall(rel0)process=rel1[0][1]
except:pass
这样输出的效果就可以适应多种语言习惯,为了区分问答句和模式选择句加入判断语句:
print("问题:"+process)
if process=='':print("小智:OK")
在else中使用搜索引擎获取答案,首先使用请求头,百度百科网址:
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}url=requests.get("https://baike.baidu.com/search/word?word="+process,headers=header)
为了防止中文乱码问题,使用编码如下:
#为了防止中文乱码,编码使用原网页编码url.raise_for_status()url.encoding = url.apparent_encoding
下面使用匹配获取内容:
bject=etree.HTML(url.text)print(object)
#正则匹配搜索出来答案的所有网址
#获取词条
#head =object.xpath('/html/head//meta[@name="description"]/@content')
#详细内容para=object.xpath('/html/body//div[@class="para"]/text()')
然后为了判断提问者提出的问题是否可行,以及模式匹配的选择,加入判断:
result='小智:'for i in para:result+=iif result=='小智:':print("小智:对不起,我不知道")else:f = open("1.txt", "r")s=f.read()if s=="1":print_one_by_one(result)else:print(result)
然后循环执行问答系统即可:
while(True):if os.path.exists('1.txt'):chuli()else:f = open("1.txt", "w")f.write("1")f.close()chuli()
如下图所示,提问的语句可以任意,不需要固定格式,这样才具有智能性不是吗?

那么让我们再接着了解自然语言处理的发展历程吧,最先的语义解读各个方面的研究是自然语言。1949年,非裔威弗首先明确提出了自然语言方案。20世纪60八十年代,外国对自然语言曾有大规模的研究,花费了巨额开销,但人们以前似乎是高估了语义的复杂度,语法处置的学说和新技术皆不成冷,所以成果并不大。主要的作法是储存两种语法的单字、单词相同译名的辞典,翻译成时双射,新技术上只是变更语法的同条次序。但现实生活中的语法的翻译成近不是如此非常简单,很多时候还要参照某句话前后的意即。

约90八十年代开始,语义处置各个领域再次发生了极大的变动。这种变动的两个显著的特点是:

(1)系统对输出,拒绝研发的语义处置该系统能处置大规模的现实文档,而不是如现在的学术性该系统那样,不能处置极少的词典和类似于字词。只有这样,研发的该系统才有确实的实用性。

(2)系统对的输入,鉴于现实地解读语义是难于的,系统对非常拒绝能对语义文档展开深层的解读,但要能借此提取简单的数据。例如,对语义文档展开系统会地萃取目录词语,过滤器,索引,系统会萃取最重要数据,展开系统会概要等等。

同时,由于特别强调了"大规模",特别强调了"现实语料",上面两各个方面的开拓性管理工作也获得了推崇和强化。

(1)大规模现实语料的研发。大规模的经过有所不同深度加工的现实文档的语料,是研究工作语义统计资料物理性质的根基。没它们,统计资料方式不能是无源之水。

(2)大规模、数据非常丰富的字典的编制工作。数量为几万,十几万,甚至几十万词语,所含非常丰富的数据(如包括词语的配上数据)的计算机系统能用字典对语义处置的必要性是很显著的

作者简介:李秋键,CSDN 博客专家,CSDN达人课作者。

声明:本文为作者原创投稿,未经允许请勿转载。

【END】

2019年人工智能系统学:

https://edu.csdn.net/topic/ai30?utm_source=csdn_bw

 热 文 推 荐 

你知道该如何搭建 AI 智能问答系统吗?相关推荐

  1. 手把手教你用Python搭建一个AI智能问答系统

    导读:智能问答系统是自然语言处理的一个重要分支.今天我们将利用分词处理以及搜索引擎搭建一个智能问答系统. 本文经授权转自公众号CSDN(ID:CSDNnews) 作者:李秋键 具体的效果如下所示: 下 ...

  2. 手把手教你用Python搭建一个AI智能问答系统!

    导读:智能问答系统是自然语言处理的一个重要分支.今天我们将利用分词处理以及搜索引擎搭建一个智能问答系统. 具体的效果如下所示: 私信小编01  领取完整代码! 下面简单了解下智能问答系统和自然语言处理 ...

  3. python做一个问答系统_手把手教你用Python搭建一个AI智能问答系统

    导读:智能问答系统是自然语言处理的一个重要分支.今天我们将利用分词处理以及搜索引擎搭建一个智能问答系统. 本文经授权转自公众号CSDN(ID:CSDNnews) 作者:李秋键 具体的效果如下所示: 下 ...

  4. 官方AI语音系统电销机器人系统搭建|AI智能|电话机器人源码|2022最新电销外呼系统多服务器版本七牛科大免费识别阿里免费识别科大识别阿里识别

    http://qiniuuu.tuantouqiye.com/FkpF_3b4R0CX31joNPrUbgboDjVghttp://qiniuuu.tuantouqiye.com/FkpF_3b4R0 ...

  5. 搭建AI智能语音外呼系统

    随着人工智能技术的发展,近半年来涌现了大量基于人工智能的呼叫中心业务服务商和集成商.仅电销机器人这一个方向就至少有近百家公司正在推广运营,包括百度.讯飞.智齿.硅基.百应.箭鱼.容联等.商务上的需求非 ...

  6. 搭建AI智能语音外呼系统 智能语音外呼机器人

    随着人工智能技术的发展,近半年来涌现了大量基于人工智能的呼叫中心业务服务商和集成商.仅电销机器人这一个方向就至少有近百家公司正在推广运营,包括百度.讯飞.智齿.硅基.百应.箭鱼.容联等.商务上的需求非 ...

  7. 官方AI语音系统电销机器人系统搭建|AI智能|电话机器人源码|最新电销外呼系统多服务器版本七牛科大免费识别阿里免费识别科大识别阿里识别电话机器人

    端是VUE后端是java还有CC++  4台服务器组成nginx,kafka,mysql数据库,fs.支持大并发,通话录音存储七牛云可以自定义录音存储时长不用担心录音多影响系统硬盘存储空间可自定义删除 ...

  8. 重磅干货!AI智能服务体系搭建与实践培训班11月24-25日上海开课

    如今,单一的智能化产品已经无法满足的市场需求,多元化.全景式的智能服务才是AI未来发展的趋势. 但企业在引入智能服务时 该如何选择适合企业自身需求的智能产品? 企业的AI智能服务体系该如何搭建? 搭建 ...

  9. 快速搭建一个基于知识图谱的智能问答系统

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 作者:张墨一 知乎链接:https://zhuanlan.zhihu.com/p/582486 ...

最新文章

  1. Android Studio编译卡死
  2. FreeNas安装、初始化和存储池设置
  3. C#之Directory类、DirectoryInfo类和Fileinfo,File以及FilesSystemInfo
  4. 【转】关于使用Android6.0编译程序时,出现getSlotFromBufferLocked: unknown buffer: 0xac0f8650问题的解释...
  5. 前端学习(1107):函数进阶
  6. HDU-3729 二分匹配 匈牙利算法
  7. 下一代 IDE:Eclipse Che 究竟有什么奥秘?
  8. deepinu盘制作工具_u盘启动盘制作工具怎么制作 u盘启动盘制作工具制作方法【详细步骤】...
  9. canvas游戏篇 - 贪吃蛇
  10. 利用自定义注解实现权限验证
  11. JSTL和EL的使用
  12. 自建CA生成证书详解
  13. MongoDB进阶系列(12)——MongoDB 固定集合
  14. Tcl学习2——Tcl语言语法
  15. JAVA输入五中水果英文名称_水果英文名称大全
  16. 计算机主机有异响,电脑主机有异响怎么办 电脑主板有异响解决方法【详解】...
  17. video视频,audio音频基础学习
  18. 小白眼中的docker究竟是个什么东西
  19. esmm/Entire Space Multi-Task Model- An Effective Approach for Estimating Post-Click Conversion Rate
  20. three.js顶点篇

热门文章

  1. 订阅号、服务号与企业号区别
  2. 迅雷/快车/旋风地址转换器
  3. docker修改镜像的存储位置_win10家庭版Docker环境搭建步骤
  4. Golang的socket一般使用方式
  5. 救护车电源逆变器行业调研报告 - 市场现状分析与发展前景预测
  6. 2018级C语言大作业 - 黄金矿工
  7. 【百度echarts】实现圆环进度条-代码示例代码demo
  8. 字长为16位的计算机_必看!计算机考试基础知识总结1
  9. GitHub 多次宕机的罪魁祸首竟是 MySQL?
  10. 上海90后用优惠券薅羊毛45万被捕;华为再招201万元年薪“天才少年”;微软收购网络安全公司 RiskIQ|极客头条...