问答系统概述(待续)
问答系统主要术语:问题类型、答案类型、问句焦点、问句主题、候选段落、候选答案。分别介绍如下:
问题类型:对问题的分类,用以产生相应的策略和答案形式。
问题分为:事实类问题,列表类问题,定义类问题,列表类问题难度较大,因为涉及到不同的实体识别,这些实体往往分散在不同的文本段落。定义类问题难度最大,识别出用户提出的概念,然后再组织语言给出答案。另外还有根据语言学分为是非类问题、关系型问题、最型问题(比如最大,最好,最高)、观点类问题(带有主观性的评价)、原因结果问题(比如,为什么科学技术是第一生产力?)
答案类型:问句对应的目标的类型,由问题模式直接决定,比如问who is the ....?返回的答案类型就是一个人名。答案类型受命名实体识别技术范畴的影响,比如人名、地名、组织机构、时间、货币、体积、重量、尺寸、面积、颜色等
问句焦点:问题中的主题是对象,是宿主,宿主的属性则是焦点。
候选段落:由搜索引擎响应用户产生的文本片段,给每个段落相应的权重。找到合适的阈值。不一定越多越好。然后将用户问句与候选段落进行匹配,然后进行答案抽取,返回答案。
答案:涉及到信息抽取、实体识别。
问答系统结构:
问答系统相关的技术:网络相关的,有网络爬虫、谷歌API、百度api的接口获得并调用其内部搜索的结果、网页去重、网页正文内容提取,数据库索引(开源数据库MYSQL)。
智能化信息检索模型研究:现有的信息检索模型有:布尔模型、向量空间模型、概率模型。概率模型可以看做是N-gram模型在信息检索领域的应用。
基于结构映射理论的新型信息检索模型-------系统相似性模型:向量空间的本源理论模型;通用性理论模型。来自由认知科学。
跟问答系统相关的自然语言处理技术:分词与词性标注,命名实体识别,文本摘要、文本分类、文本聚类、语言浅层分析,问句分析,问句与答案匹配及排序。
文本分类应用在:用户问句,后台的文档,在信息检索过程中只选择用户问句分类与后台文档分类匹配的文档,进而提高信息检索的效率。
文本聚类:比如用户查询sh一个输入“苹果”,通过聚类可以把苹果公司的聚到一起、把苹果土特产聚到一起、还有其他的苹果相关行业。
语言浅层分析:
引入模块越多,高精度与高复杂性不可兼容。
哈工大的《问答式信息检索的理论与方法研究》:问答系统涉及到三个层次:用户层、处理层、数据层;
用户层:接受用户输入,结果如何返回用户,语言的分析识别,用户查询记录分析,分门别类、个性化发展方向。
用户层结构如下:
任务调度:最重要,记录用户行为。
语言识别:
输出管理:
反馈信息采集:
处理层:对用户问句进行分析,语言分析技术、术语关系抽取、答案的抽取与生成。
词义消歧:结合上下文处理。
指代消解:候选文档中的代词找出来对应的实体。成分缺失的补充。
问题理解:
问题翻译:跨语言检索。
用户兴趣追踪:个性化服务,用户兴趣模型建立,根据用户模型来推送信息。
知识库维护:从一个特定领域开始。
处理层结构如下:
数据层:对网络海量文档的收集、存储,知识库。具体如下:
搜索引擎控制:
信息采集:
文本分类:
信息索引:
数据层结构如下:
特定领域的问答系统:构建专业领域知识库,如何从海量文本中自动构建专业领域知识库。
待续中。。。。。
问答系统概述(待续)相关推荐
- 基于深度学习的智能问答
摘要: 纵观自动问答系统的技术发展历史,从1950年代因图灵测试而诞生至今,已经有几十年的历史.但真正在产业界得到大家的广泛关注,则得益于2011年Siri和Watson成功所带来的示范效应.自此,自 ...
- 开源开放 | 欢迎选修浙江大学《知识图谱》开放共享慕课
点击"阅读原文"或扫描图中二维码进入课程 教学计划 第一章知识图谱概论 1.1 语言与知识 1.2 知识图谱的起源 1.3 知识图谱的价值 1.4 知识图谱的技术内涵 第二章知识图 ...
- 自然场景文本检测识别技术集合(转)
本文及其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次. 书的购买链接 书的勘 ...
- 人脸识别中的活体检测算法综述
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 1. 什 ...
- 理解AdaBoost算法
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 与随机森 ...
- 人脸识别中的活体检测算法
人脸识别中的活体检测算法综述 1. 什么是活体检测? 判断捕捉到的人脸是真实人脸,还是伪造的人脸攻击(如:彩色纸张打印人脸图,电子设备屏幕中的人脸数字图像 以及 面具 等) 2. 为什么需要活体检测? ...
- 人工智能非技术从业者必知的十件事
Sigai特约作者:superjack 2018.10.08 原创声明:本文为SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的. 其它机器学习.深度学习算法的全面系统讲解可 ...
- 自然场景文本检测识别技术综述
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 番外青蛇 ...
- 深度多目标跟踪算法综述
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 导言 基 ...
最新文章
- Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法
- Java中的策略模式实例教程
- linux哪些文件被更新,Linux:如何確定文件是否已被其他進程更新?
- 你绝没用过的一款高级空间可视化工具
- MySQL存储引擎类别
- ios purelayout--基础使用--进阶使用--看这就够了
- 扎心!8.5亿网民 超七成月收入5000元以下,网友:这数据很真实
- c++ 项目_罗纳尔多相信C罗从事技巧类项目,其成就不会亚于他在足坛的成绩
- 有面值为1元、3元和5元的硬币若干枚,如何用最少的硬币凑够11元?
- flume http source示例讲解
- https://www.jianshu.com/p/5b710cc25f81
- js调用zk中zul页面表单值
- Android C++ OpenGL教程课程总结
- pyquery库之爬取豆瓣读书
- mysql时间相减得到天数保留两位_mysql两个日期计算天数
- 51单片机——八段数码管
- 美国高防服务器亿速云,亿速云香港高防裸金属服务器上线,更强悍的计算性能,更安全的DDoS攻击防护...
- 毫秒转化天小时分钟秒
- 一个案例告诉你如何使用 Kyligence + Spark 进行大数据机器学习
- 【Python实例学习】用户输入两个数字,并计算两个数字之和
热门文章
- 2016年计算机考研408操作系统真题(客观题)
- [Course] Advanced Computer Programming, Homework, week 2
- web前端就业怎么样
- php记事,PHP记事(2)
- 【图像处理】图形图像中术语
- 《网络基础》课程综合性实验(pkt文件请见我的资源)
- 应用卸载后依然存在的文件目录
- 最佳实践|用腾讯云AI图像搜索打造属于自己的拍立淘
- 2021年中国A股上市企业市值百强城市排行榜:北京位居榜首,60个城市有千亿市值企业(附年榜TOP100详单)
- 2019年4月中国编程语言排行榜,java占有率一骑绝尘,python工资领先