知识问答

知识问答是一个拟人化的智能系统,接收使用自然语言表达的问题,理解用户的意图,获取相关的知识,通过推理计算形成相应的答案并反馈给用户。

知识问答的基本要素

1.问题,也就是问答系统的输入。(问句、选择、填空等)

2.答案,也就是问答系统的输出。

3.智能体,也就是问答系统的执行者。(需要理解问题的语义,掌握并使用知识库解答问题)

4.知识库,存储问答系统的知识。

搜索与知识问答的差异:

1.搜素以文档来承载答案,用户需要通过阅读文档来发现答案,而问答直接返回答案。

2.搜索主要是通过关键词而不是完整的句子来搜索,需要一定的搜索技巧;而问答则会尝试理解不同的自然语言表达方式的语义,形成知识查询。

3.当用户的问题复杂时,搜索是需要多个页面去查询得到答案。知识问答不需要。

知识问答的应用场景

           1.知识问答可以直接嵌入搜索引擎的结果页面,将问答的答案与搜索结果列表同事展示。

2.智能对话系统、智能客服。

3.阅读理解。

知识问答的分类体系

根据知识问答系统四大要素(问题、答案、知识库、智能体 )

问题与答案类型

由于问题分类体系在很大程度上按照目标答案的差异而区分,则两者的类型可以合并。

基于功能的问题分类体系:事实、列表、原因、解决方案、定义、导航等。

面向知识图谱问答的构建:事实性客观问题和主观深层次问题。

知识库类型

知识库的内容边界:领域相关的问答、领域无关的问答。

知识库的信息组织格式:文本类、半结构或结构化的知识库、非结构化(图片、音频、视频)

智能体类型

根据知识库表示的形式,分为传统问答方法、基于深度学习的问答方法。

知识问答系统

早期的问答系统(NLIDB)

1.基于模式匹配(直接将问题映射到查询语句)

2.基于语法解析(将复杂的语义转换成逻辑表达式)

基于信息检索的问答系统(IRQA)

参考斯坦福的基本架构,大致分为三阶段:问题处理、段落检索与排序、答案处理

问题处理:要明确知识检索的过滤条件(即问句转换成关键字搜索)和答案类型判定。

段落检索与排序:基于提取出的关键词进行进行信息检索,对检索出的文档先排序,然后分割成合适的段落,并对段落进行再排序,找到最优答案。

答案处理:根据排序后的段落结合定义的答案类型抽取答案,形成答案候选集;最终对答案候选集进行排序,返回最优解。

基于知识库的问答系统(KBQA)

基于知识图谱解答问题的问答系统。

KBQA的核心问题Question2Query是找到从用户问题到知识图谱子图的最合理的映射。

Question2Query的四个关键步骤:

1. 问题分析:主要利用词典、词性分析、分词、实体识别、语法解析树分析、句法依存关系分析等传统NLP技术提取问题的结构特征,并基于机器学习和规则提取分析句子的类型和答案类型。

2.词汇关联:主要是针对问题分析阶段尚未形成实体链接的部分形成与知识库的链接,包括关系属性、描述属性、实体分类的链接。

3.歧义消解:包括对候选的词汇、查询表达式的排序选优和通过语义的容斥关系去掉不可能的组合。

4.构建查询:基于问题解析结果,可以通过自定义转化规则或者特定语义模型与语法规则将问题转化成查询语言表达式,形成对知识库的查询,如 SPARQL。

基于问答对匹配的问答系统

基于常见的问答对以及社区问答都依赖搜索问答FAQ库(问答对集合)来发现以前问过的类似问题,并将找到的问答对的答案返回给用户;主要核心还是计算问题之间的语义相似性。

             混合问答系统框架

                     将高度结构化的领域数据和相关的文本领域知识相互结合的混合框架,如:DeepQA、QALD-Hybrid-QA、Frankenstein等

知识问答的评价方法

问答系统的评价指标

功能评价指标

分为 6个角度:正确性、精确度、完整性、可解释性、用户友好性、其他评价维度

性能评价指标

问答系统的响应时间(一般控制在1s以内)

问答系统的故障率

问答系统的评价数据集

                  1.  TREC QA (评价IRQA):主要针对基于搜索的问答系统解决方案。

                  2.   TREC LIVE QA (评价CQA社区问答):主要是针对CQA社区问答解决方案的评价体系

                 3.  QALD  (评价KBQA):是指链接数据的问答系统评测,为自然语言问题转化成可用的SPARQL查询以及基于语义万维网标准的知识推理提供了一系列的评价体系和测试数据集。

                4. SQuAD(评价端到端的问答系统解决方案):是斯坦福大学推出的一个大规模阅读理解数据集。

5.  Quora QA  (评价问题相似度计算)

               6. SemEval (词义消歧评测):SemEval是一个技术竞赛,主要包括推特情感与创造性语句分析、实体关联、信息抽取、词汇语义学以及阅读理解与推理等几方面内容。

KBQA面临的挑战

1.  现有的自然语言理解技术在处理自然语言的歧义性和复杂性方面还比较薄弱;

2.  此类系统需要大量的领域知识来理解自然语言问题,一般需要人工输入;一些系统需要开发一个专用某个领域的基于句法或者语义的语法分析器或者引入一个用户词典或者映射规则等。

开源工具实践

1. 使用Elasticsearch搭建知识问答系统

2. 基于gAnswer构建中英文知识问答系统

知识图谱学习笔记八(知识问答)相关推荐

  1. 知识图谱学习笔记-知识图谱介绍

    一.什么是知识图谱? 解释1:  知识图谱本质上是语义网络 (本体论是语义网落的重要因素) 解释2: 知识图谱也叫做多关系图,由多种类型的节点和多种类型的边组成 构建知识图谱系统中所涉及到的技术 数据 ...

  2. 知识图谱学习笔记之知识图谱中的知识分类

    知识图谱中的知识分类 事实知识 事实知识是关于某个特定实体的基本事实,如(山东富士苹果,产地,山东).事实知识是知识图谱中非常常见的知识类型.大部分的事实知识都是在描述实体的特定属性或关系,如&quo ...

  3. 知识图谱学习笔记(1)

    知识图谱学习笔记第一部分,包含RDF介绍,以及Jena RDF API使用 知识图谱的基石:RDF RDF(Resource Description Framework),即资源描述框架,其本质是一个 ...

  4. 知识图谱学习笔记——(四)知识图谱的抽取与构建

    一.知识学习 声明:知识学习中本文主体按照浙江大学陈华钧教授的<知识图谱>公开课讲义进行介绍,并个别地方加入了自己的注释和思考,希望大家尊重陈华钧教授的知识产权,在使用时加上出处.感谢陈华 ...

  5. 知识图谱学习笔记(一)——知识图谱基础

    知识图谱基础 一.知识图谱的基本概念 知识库是一个有向图,包含: 多关系数据(multi-relational data) 节点:实体/概念 边:关系/属性 关系事实=(head, relation, ...

  6. 知识图谱学习笔记——(二)知识图谱的表示

    一.知识学习 声明:知识学习中本文主体按照浙江大学陈华钧教授的<知识图谱>公开课讲义进行介绍,并个别地方加入了自己的注释和思考,希望大家尊重陈华钧教授的知识产权,在使用时加上出处.感谢陈华 ...

  7. 知识图谱学习笔记03-知识图谱的作用

    语义搜索 知识图谱在语义搜索方面扮演着非常重要的角色.传统的文本搜索引擎基本上是基于关键词匹配的方式进行搜索,这种方式容易受到搜索词语的表述方式和不同语言之间的差异的影响,而无法深入理解用户的意图和查 ...

  8. 知识图谱学习笔记-风控知识图谱设计

    一.知识图谱搭建流程 问题定义->数据收集->数据预处理->设计知识图谱->存储知识图谱->应用知识图谱->评估系统 二.知识图谱设计原则 1)需要哪些实体.关系. ...

  9. 知识图谱学习笔记-知识图谱价值和发展历程

    一:知识图谱的价值: 1.辅助搜索 传统搜索引擎依靠网页之间的超链接实现网页的搜索,而语义搜索是直接对事物进行搜索,如人物.机构.地点等.这些事物可能来自文本.图片.视频.音频.IoT 设备等各种信息 ...

最新文章

  1. 黑客声称盗取微软GitHub账号500GB数据,网友:这些最终都会开源的
  2. C++ string源码
  3. android u盘拷贝文件大小,用手机U盘备份或导出手机文件,还能扩容
  4. HashedWheelTimer时间轮定时任务原理分析
  5. hadoop 动态调整mapred参数
  6. v8学习笔记(三) 运行时环境
  7. nodejs redis 过期时间_别在为Redis面试而烦恼了?看完暴答【面试管】
  8. PHP设计模式之工厂模式
  9. html怎样设置图片的位置不变,CSS 如何定位图片保持位置不变?
  10. linux维护rpm 数据库,Linux运维知识之linux rpm命令详细介绍
  11. easyui datagrid在IE洌览器下reload不能刷新数据
  12. Screaming Frog SEO Spider for Mac进行网页抓取和数据提取的技巧
  13. 【脑洞探究】等公交该站在哪儿比较合适?——关于减少吸入空气污染物(pm2.5 or 雾霾等)而选择合适等候公交车位置的探究
  14. WinSCP(5.11.2)绿色便携版,开源SCP/SFTP客户端
  15. 物联网应用网站——设计报告
  16. 最新卡易搜卡盟系统全套/商户+主站+SUP+公告中心
  17. 学好电气全靠它,个人电气博文目录(持续更新中.....)
  18. 二、每隔 n 个顾客打折(Biweekly20)
  19. Docker容器技术原理(三)rootfs
  20. 我国经济最强的城市是哪个?北京、上海、还是深圳?

热门文章

  1. 金属表面酸洗废水除锰除铬过滤装置,除铬树脂
  2. MacBook 更改为Windows的按键布局
  3. MapReduce分布式计算和编程原理总结
  4. SOPC教学笔记01——绪论
  5. Serpent.AI - 游戏代理框架(Python)
  6. Flutter调试ios中的报错——Xcode更新
  7. python实现AI抠图
  8. 辐射安全管理考试笔记
  9. 即时编译器真心大冒险之解释器
  10. 玩转Pandas函数