以下内容总结自《自然语言处理实践与聊天机器人原理应用与实践》
闲聊系统概述
闲聊系统与问答系统,面向任务的对话系统三者均为聊天机器人的典型应用。但应用任务目标和实现方式均有较大不同目前,大量聊天机器人产品定位于闲聊系统,如微软推出的「小冰」。值得一提的是,2018 年 8 月 22 日第 6 代小冰发布,微软宣布小冰逐步进入完成态,实现了从人工智能交互到初级感官再到高级感官的跨越,其核心对话引擎包括情绪识别、兴趣分析、情感策略及主动回应模型,并全面使用了生成模型与用户进行对话。虽然目前对于开放平台的接入还在逐步进行,不过已经可以看到微软小冰在闲聊系统之外的诸多尝试。比较早期的闲聊机器人包括 2013 年的「小黄鸡」,作为一款聊天机器人程序,其上线后在人人网迅速蹿红,三天内累积增长 70 万粉丝,日发送回复量超过 70 万。用户只要在人人网主页@小黄鸡,小黄鸡就会自动回复用户,并与用户聊天。其主要功能是通过将韩国聊天机器人平台 SimSimi 的开放 API 和人人网接口相连实现的。微软小冰也做了网络聊天的尝试,包括其推出的 QQ 版本小冰机器人,以及微博小冰和微信小冰。同时,大量的聊天机器人硬件产品也基本上都具备闲聊功能,例如小米音箱、天猫精灵、叮咚音箱等。
类似于已经介绍过的问答系统和面向任务的对话系统,根据具体实现方式,闲聊系统也可以分为基于对话库检索的闲聊系统和基于生成的闲聊系统
(1)尽管基于对话库检索的闲聊系统可以有效避免出现语法错误,但很难处理对话库中不存在的或者没有预定义的问题。
(2)尽管基于生成的闲聊系统能比较灵活地整合上下文的信息,但是生成模型的训练需要大量标注数据,且难以避免安全回复的问题和回答中可能出现的不一致问题或语法错误。无论是基于检索的还是基于生成的方法,都可以在系统中引入深度学习技术。由于端到端的深度学习结构非常适用于文本生成,许多最新的研究工作正试图促进深度学习技术在这个领域取得飞速的进展。但是实际上,由于基于生成的方法还处在发展的早期阶段,其表现并不尽如人意,在实际应用中还是更多地使用基于检索的模型。
基于对话库检索的闲聊系统
基于对话库检索的闲聊系统指的是事先存在一个对话库,闲聊系统收到用户输入的句子后,在对话库中通过搜索匹配的方式进行应答内容的提取。由于用户在真实场景下对话语料极为丰富,这种方式对对话库中语料的数量和质量要求很高,必须能够尽量多地匹配用户问句。另外,因为对话库中存储的都是真实的问答数据,所以这种方式的回复质量较高,表达比较自然。从本质上讲,基于检索技术的聊天机器人类似于搜索引擎,其工作流程是事先存储好对话库并建立索引,根据用户输入的内容在对话库中匹配最合适的回复内容。基于检索的闲聊技术主要使用匹配的方法,而匹配方法的核心是匹配用户问句 x 和对话库中现有的句子 y 的相似度并进行排序,选出候选问句。传统的做法是将句子表示成 one-hot 向量,然后对向量求相似度。随着深度学习技术的发展,句子的表示也常采用词嵌入的方式,以便更好地体现句子中的语义信息。目前主流的匹配方法有两种,一种是弱相关(weak interaction)模型,包括 DSSM [1] 、ARC-I [2] 等算法,另一种是强相关(strong interaction)模型,包括 ARC-II [2] 、MatchPyramid [3] 、DeepMatch 等算法。两种方法最重要的区别是对句子 <x,y> 建模的过程不同,前者是单独建模,后者是联合建模。下面将通过几个经典的算法进行阐述。DSSM 算法采用词袋模型进行句子表示,如图 5-1 所示,Q 表示待匹配的句子,D 1 ,…,D n 表示对话库中已有的句子,逐步对句子进行降维,在最后的 128 维向量上做相似度计算,从而选出最相似的句子。这就是很典型的弱相关模型。
图 5-1 DSSM 算法采用词袋模型进行句子表示

(七)继续对话库检索的闲聊系统相关推荐

  1. 用ASP开发试题库与在线考试系统

    摘 要 利用网络和数据库技术,结合目前硬件价格普遍下跌与宽带网大力建设的有利优势,我们基于B/S模式研究开发了试题库与在线考试系统这一ASP应用程序.它运用方便.操作简单,效率很高,现阶段虽只实现了试 ...

  2. 计算机检索的优点,专利检索与分析系统拥有哪些优势?

    专利检索与分析系统拥有哪些优势?现在很多朋友都在了解专利检索与分析系统又有哪些优势,因为他们需要使用这些系统,不少朋友都会利用业余时间搞各种发明专利,并申请发明专利,在申请之前,人们就需要对专利进行检 ...

  3. 最新综述:对话式检索数据集汇总

    ©PaperWeekly 原创 · 作者 | 金金 单位 | 阿里巴巴研究实习生 研究方向 | 推荐系统 简介 对话式检索近年来成为了信息检索中的研究热点,但是该研究领域一直存在数据资源缺乏的问题,一 ...

  4. GPT模型介绍并且使用pytorch实现一个小型GPT中文闲聊系统

    文章目录 GPT模型介绍 无监督训练方式 模型结构 微调 下游任务输入形式 GPT-2 GPT-3 pytorch实现一个小型GPT中文闲聊系统 GPT模型介绍 GPT与BERT一样也是一种预训练模型 ...

  5. 阿里新突破!自主创新的下一代匹配推荐技术:任意深度学习+树状全库检索

    阿里妹导读:电商时代,消费者对推荐系统已经不再陌生.蓦然回首,你会发现喜欢的商品就在显眼处.如何设计推荐系统,让消费者更方便地从海量商品中找到自己的最爱,阿里工程师一直在不断探索更优的算法和技术. 阿 ...

  6. 什么是知网的跨库检索?为什么我的文章在知网检索不到了?

    最近,很多作者都在问这样一个问题:我之前发的文章,以前还能再知网查到,为什么现在查不到了? 不止一个作者有这样的问题,今天我们统一解答一下: 首先,遇到这种情况不要慌张.文章最开始的时候还能检索,说明 ...

  7. 大一计算机上机考试第七套,国家开放大学电大《计算机组网技术》机考第七套题库及答案.doc...

    PAGE1 / NUMPAGES52 国家开放大学电大<计算机组网技术>机考第七套题库及答案 盗传必究 试卷总分:100 答题时间:60分钟 客观题 一.单项选择题(共20题,共40分) ...

  8. 【Linux系统编程学习】C库IO函数与系统IO函数的关系

    此为黑马Linux课程笔记. 1. C标准IO函数工作流程 如图,以C库函数的fopen为例,其返回类型是FILE类型的指针,FILE类型包含很多内容,主要包含三个内容:文件描述符.文件读写指针的位置 ...

  9. 复习七天通过软考高级「系统架构师」,我是如何做到的

    前言 软考复习的方式可以分为两种:报班和自学.当然也有加QQ要求共同分摊网课费用的,当然被我义正言辞地无情拒绝.原因很简单:没钱.于是前前后后自学了七天,最终考过了系统架构师.或许我的学习模式不适合你 ...

最新文章

  1. 如何在内嵌 css 中编写: hover_优秀 CSS 代码的 8 个编写技巧!
  2. cms java垃圾回收_java cms垃圾回收器总结
  3. Linux排序命令sort笔记
  4. FreeTextBox实现机制
  5. python经典程序实例_Python入门经典实例(一)
  6. Welcome to Swift (苹果官方Swift文档初译与注解八)---53~57页(第二章)
  7. Java Web开发之一:用好的技术设计来犒赏自己
  8. JavaScript中this指针的绑定规则
  9. 微信小程序 css边框阴影,微信小程序|CSS的内边距和圆框
  10. 随笔第一天:德语谚语
  11. SmartSvn遗漏.a文件的解决办法
  12. Emacs_HotKey
  13. Linux crontab 定时执行任务
  14. 白话 贝叶斯公式_[白话解析] 深入浅出朴素贝叶斯模型原理及应用
  15. 交易落空,房产中介索要中介费该不该支持?
  16. nginx1.14的安装
  17. 给学妹写C程——中国海洋大学C语言程序设计课作业(一)
  18. Enhanced ShockBurst (ESB)原文翻译
  19. 爱数异机恢复Oracle实例
  20. 文件删除如何恢复?简单的方法

热门文章

  1. Python中: unsupported format character ''' (0x27)
  2. 童年汇老师教你如何给宝宝选玩具
  3. 7-2 运动会 (10 分)
  4. Excel中鲜为人知的“照相机”功能(收藏)
  5. 细粒度 文档图像版面分析
  6. 太原工业学院计算机实训中心,法学实训实验中心
  7. cad调了比例因子没反应_大神们都在用的9个CAD制图技巧,你会用几个?
  8. 手动挡停车技巧;换挡注意
  9. 手把手教你归并排序(非递归)
  10. 二进制转pdf. java_二进制字符转成pdf