问答系统主要术语:问题类型、答案类型、问句焦点、问句主题、候选段落、候选答案。分别介绍如下:

问题类型:对问题的分类,用以产生相应的策略和答案形式。

问题分为:事实类问题,列表类问题,定义类问题,列表类问题难度较大,因为涉及到不同的实体识别,这些实体往往分散在不同的文本段落。定义类问题难度最大,识别出用户提出的概念,然后再组织语言给出答案。另外还有根据语言学分为是非类问题、关系型问题、最型问题(比如最大,最好,最高)、观点类问题(带有主观性的评价)、原因结果问题(比如,为什么科学技术是第一生产力?)

答案类型:问句对应的目标的类型,由问题模式直接决定,比如问who is  the  ....?返回的答案类型就是一个人名。答案类型受命名实体识别技术范畴的影响,比如人名、地名、组织机构、时间、货币、体积、重量、尺寸、面积、颜色等

问句焦点:问题中的主题是对象,是宿主,宿主的属性则是焦点。

候选段落:由搜索引擎响应用户产生的文本片段,给每个段落相应的权重。找到合适的阈值。不一定越多越好。然后将用户问句与候选段落进行匹配,然后进行答案抽取,返回答案。

答案:涉及到信息抽取、实体识别。

问答系统结构:

问答系统相关的技术:网络相关的,有网络爬虫、谷歌API、百度api的接口获得并调用其内部搜索的结果、网页去重、网页正文内容提取,数据库索引(开源数据库MYSQL)。

智能化信息检索模型研究:现有的信息检索模型有:布尔模型、向量空间模型、概率模型。概率模型可以看做是N-gram模型在信息检索领域的应用。

基于结构映射理论的新型信息检索模型-------系统相似性模型:向量空间的本源理论模型;通用性理论模型。来自由认知科学。

跟问答系统相关的自然语言处理技术:分词与词性标注,命名实体识别,文本摘要、文本分类、文本聚类、语言浅层分析,问句分析,问句与答案匹配及排序。

文本分类应用在:用户问句,后台的文档,在信息检索过程中只选择用户问句分类与后台文档分类匹配的文档,进而提高信息检索的效率。

文本聚类:比如用户查询sh一个输入“苹果”,通过聚类可以把苹果公司的聚到一起、把苹果土特产聚到一起、还有其他的苹果相关行业。

语言浅层分析:

引入模块越多,高精度与高复杂性不可兼容。

哈工大的《问答式信息检索的理论与方法研究》:问答系统涉及到三个层次:用户层、处理层、数据层;

用户层:接受用户输入,结果如何返回用户,语言的分析识别,用户查询记录分析,分门别类、个性化发展方向。

用户层结构如下:

任务调度:最重要,记录用户行为。

语言识别:

输出管理:

反馈信息采集:

处理层:对用户问句进行分析,语言分析技术、术语关系抽取、答案的抽取与生成。

词义消歧:结合上下文处理。

指代消解:候选文档中的代词找出来对应的实体。成分缺失的补充。

问题理解:

问题翻译:跨语言检索。

用户兴趣追踪:个性化服务,用户兴趣模型建立,根据用户模型来推送信息。

知识库维护:从一个特定领域开始。

处理层结构如下:

数据层:对网络海量文档的收集、存储,知识库。具体如下:

搜索引擎控制:

信息采集:

文本分类:

信息索引:

数据层结构如下:

特定领域的问答系统:构建专业领域知识库,如何从海量文本中自动构建专业领域知识库。

待续中。。。。。

问答系统概述(待续)相关推荐

  1. 基于深度学习的智能问答

    摘要: 纵观自动问答系统的技术发展历史,从1950年代因图灵测试而诞生至今,已经有几十年的历史.但真正在产业界得到大家的广泛关注,则得益于2011年Siri和Watson成功所带来的示范效应.自此,自 ...

  2. 开源开放 | 欢迎选修浙江大学《知识图谱》开放共享慕课

    点击"阅读原文"或扫描图中二维码进入课程 教学计划 第一章知识图谱概论 1.1 语言与知识 1.2 知识图谱的起源 1.3 知识图谱的价值 1.4 知识图谱的技术内涵 第二章知识图 ...

  3. 自然场景文本检测识别技术集合(转)

    本文及其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次. 书的购买链接 书的勘 ...

  4. 人脸识别中的活体检测算法综述

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 1. 什 ...

  5. 理解AdaBoost算法

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 与随机森 ...

  6. 人脸识别中的活体检测算法

    人脸识别中的活体检测算法综述 1. 什么是活体检测? 判断捕捉到的人脸是真实人脸,还是伪造的人脸攻击(如:彩色纸张打印人脸图,电子设备屏幕中的人脸数字图像 以及 面具 等) 2. 为什么需要活体检测? ...

  7. 人工智能非技术从业者必知的十件事

    Sigai特约作者:superjack 2018.10.08 原创声明:本文为SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的. 其它机器学习.深度学习算法的全面系统讲解可 ...

  8. 自然场景文本检测识别技术综述

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 番外青蛇 ...

  9. 深度多目标跟踪算法综述

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 导言 基 ...

最新文章

  1. Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法
  2. Java中的策略模式实例教程
  3. linux哪些文件被更新,Linux:如何確定文件是否已被其他進程更新?
  4. 你绝没用过的一款高级空间可视化工具
  5. MySQL存储引擎类别
  6. ios purelayout--基础使用--进阶使用--看这就够了
  7. 扎心!8.5亿网民 超七成月收入5000元以下,网友:这数据很真实
  8. c++ 项目_罗纳尔多相信C罗从事技巧类项目,其成就不会亚于他在足坛的成绩
  9. 有面值为1元、3元和5元的硬币若干枚,如何用最少的硬币凑够11元?
  10. flume http source示例讲解
  11. https://www.jianshu.com/p/5b710cc25f81
  12. js调用zk中zul页面表单值
  13. Android C++ OpenGL教程课程总结
  14. pyquery库之爬取豆瓣读书
  15. mysql时间相减得到天数保留两位_mysql两个日期计算天数
  16. 51单片机——八段数码管
  17. 美国高防服务器亿速云,亿速云香港高防裸金属服务器上线,更强悍的计算性能,更安全的DDoS攻击防护...
  18. 毫秒转化天小时分钟秒
  19. 一个案例告诉你如何使用 Kyligence + Spark 进行大数据机器学习
  20. 【Python实例学习】用户输入两个数字,并计算两个数字之和

热门文章

  1. 2016年计算机考研408操作系统真题(客观题)
  2. [Course] Advanced Computer Programming, Homework, week 2
  3. web前端就业怎么样
  4. php记事,PHP记事(2)
  5. 【图像处理】图形图像中术语
  6. 《网络基础》课程综合性实验(pkt文件请见我的资源)
  7. 应用卸载后依然存在的文件目录
  8. 最佳实践|用腾讯云AI图像搜索打造属于自己的拍立淘
  9. 2021年中国A股上市企业市值百强城市排行榜:北京位居榜首,60个城市有千亿市值企业(附年榜TOP100详单)
  10. 2019年4月中国编程语言排行榜,java占有率一骑绝尘,python工资领先