https://www.infoq.cn/article/Lx4FXdryLWCoqWRv-Idr

阿里达摩院正式开源人机对话模型 ESIM

2018 年 5 月,阿里云栖大会武汉峰会上一段机器人点单的视频火了,阿里巴巴的收银机器人仅用了49 秒就搞定了 30 多杯咖啡的订单:

演示环节中,包含了修改、删除、加单等多轮对话,在整个交流过程中,顾客不需要说”hi,点单机“之类呆板的唤醒词,可直接下单,更符合人与人的自然对话。

这项技术的背后支撑,就是来自阿里巴巴达摩院的新一代人机对话模型 ESIM。

该模型最初由达摩院语音实验室内的 90 后科学家陈谦研发,曾在国际顶级对话系统评测大赛(DSTC7)上获得双料冠军,将人机对话准确率的世界纪录提升至 94.1%。

注:DSTC 是学术界权威对话系统评测大赛,由微软研究院、卡耐基梅隆大学的科学家在 2013 年发起,今年举办到了第八届。NOESIS 赛道考察 AI 的人机对话能力,要求 AI 根据给定的多轮人机对话历史,从成百到上万个句子中选出正确的回复。

今天,阿里达摩院宣布,即日起向全世界企业与个人开源 ESIM 模型。

GitHub 地址:https://github.com/alibaba/esim-response-selection

技术原理解析

人机对话系统及其背后的认知智能,是人机交互中最复杂也最重要的技术,曾被比尔盖茨形容为“人工智能皇冠上的明珠”。为让机器快速准确理解人类的表达,ESIM 给 AI 装上一套“雷达”系统,赋予它实时检索对话历史、自动去除干扰信息的能力,使它能够给出人类期待的回复。

ESIM 模型全称是:Enhanced LSTM for Natural Language Inference,是一种转为自然语言推断而生的加强版 LSTM,其架构图如下图所示(ESIM 是左边一部分):

image

ESIM 模型主要由 input encoding,local inference modeling 和 inference composition 三个部分组成,会直接对从用户的流式口语输入到对用户多个意图的最终理解进行建模,不再依赖子任务的模型和它们的级联,这样极大地减少了各个子任务之间的错误积累和传递。

大致流程是这样:

输入两句话分别接入 embeding + BiLSTM,使用 BiLSTM 可以学习如何表示一句话中的 word 和它上下文的关系,可以理解成这是在 word embedding 之后,在当前的语境下重新编码,得到新的 embeding 向量。

image

之后计算两个句子 word 之间的相似度,得到二维的相似度矩阵,再进行两句话的 local inference。用之前得到的相似度矩阵,结合 a,b 两句话,互相生成彼此相似性加权后的句子,维度保持不变,公式表示为:

image

在 local inference 之后,进行 Enhancement of local inference information,分别计算差与乘积,之后再进行聚合操作:

image

最后,再一次用 BiLSTM 提炼上下文信息,同时使用 MaxPooling 和 AvgPooling 进行池化操作, 再接入全连接层。

image

在架构上,该方案将算法和业务分离,使用业务知识图谱有效地表达业务相关的知识,利用序列到序列的深度学习模型自动学习出用户口语输入到意图结构化表达的映射关系,利用业务知识图谱表达业务逻辑,对于这个自动的映射学习模型进行强化学习以达到弱监督的目的。 这样一方面整个系统只需要少量端到端的数据标注进行训练,大大减少了标注压力; 另一方面由于知识图谱的松耦合度,使得扩展到新的业务变得更为便捷。

论文地址:https://arxiv.org/pdf/1901.02609.pdf

据阿里巴巴方面介绍,ESIM 人机对话回复模型,比起业界使用最为广泛的 LSTM 模型,回复准确率更高。采用全新 ESIM 模型的人机对话回复模型,比 LSTM 模型回复准确率提升 25%。

InfoQ 还了解到,该模型在对话领域的成功可以预计会给很多应用场景带来显著地变化,比如智能客服、任务型对话系统等等,这一技术突破能大幅地提升实际应用中对话系统回复的准确性和用户体验。

基于 ESIM 模型的多轮对话回复选择技术是语音交互的基础能力之一。在这些基础能力之上,阿里巴巴构建了一系列语音交互应用。

在传统语音交互产品方面,阿里云智能语音交互研究的技术平台能够精准转换用户的语音为对互联网内容和服务的意图,触达手机、IoT 设备、互联网汽车、电视、智能音箱等各类终端。

在下一代人机交互产品方面,阿里已经落地语音售票机,部署在上海地铁供市民使用;肯德基也与阿里云联合推出了一款全球领先的 AI 多场景智能点餐机,并已经率先在杭州云栖上岗服务。

阿里开源新一代人机对话模型 ESIM,曾创下人机对话准确率新纪录相关推荐

  1. 阿里开源新一代人机对话模型 ESIM:准确率打破世界纪录,提升至 94.1%!

    近日,阿里 AI 开源了新一代人机对话模型 Enhanced Sequential Inference Model(ESIM).ESIM 是一种专为自然语言推断而生的加强版 LSTM,据阿里介绍,该算 ...

  2. 阿里开源新一代 AI 算法模型,由达摩院90后科学家研发

    最炫的技术新知.最热门的大咖公开课.最有趣的开发者活动.最实用的工具干货,就在<开发者必读>! 每日集成开发者社区精品内容,你身边的技术资讯管家. 每日头条 阿里开源新一代 AI 算法模型 ...

  3. 阿里开源新一代单元测试 Mock 工具!

    TestableMock是基于源码和字节码增强的Java单元测试辅助工具,包含以下功能: 访问被测类私有成员:使单元测试能直接调用和访问被测类的私有成员,解决私有成员初始化和私有方法测试的问题 快速M ...

  4. 阿里90后科学家研发,达摩院开源新一代AI算法模型

    整理 | 一一 出品 | AI科技大本营(ID:rgznai100) AI科技大本营7月5日消息,阿里达摩院宣布开源新一代人机对话模型ESIM.该算法模型提出两年多,已被200多篇论文引用,更曾在国际 ...

  5. 阿里 90 后科学家研发,达摩院开源新一代 AI 算法模型

    整理 | 一一 出品 | AI科技大本营(ID:rgznai100) 7月5日,阿里达摩院宣布开源新一代人机对话模型ESIM.该算法模型提出两年多,已被200多篇论文引用,更曾在国际顶级对话系统评测大 ...

  6. 拿下两个世界第一,阿里人机对话模型成人工智能国际通用标准

    近日,第七届对话系统技术挑战赛(DSTC7)中,阿里AI获得双料冠军,成最大赢家. DSTC7由来自微软研究院.卡耐基梅隆大学的科学家于2013年发起,是人工智能领域的权威学术比赛.它要求参赛的AI模 ...

  7. 1月29日云栖精选夜读 | 拿下两个世界第一,阿里人机对话模型成人工智能国际通用标准...

    近日,第七届对话系统技术挑战赛(DSTC7)中,阿里AI获得双料冠军,成最大赢家. 热点热议 拿下两个世界第一,阿里人机对话模型成人工智能国际通用标准 作者:阿里云头条 阿里云Kubernetes容器 ...

  8. 贾扬清感谢信:阿里开源10年,致敬千万开源人

    整理 | 夕颜 [导读]2019 年 10 月,有人曾根据 www.gharchive.org  的数据整理出一份 2019 年GitHub 开源贡献排行榜,获取 GitHub 2019 年的 Pus ...

  9. 重构ncnn,腾讯优图开源新一代移动端推理框架TNN

    来源 | 腾讯优图 从学界到工业界,"开源"已经成为AI领域的一个关键词.一方面,它以"授人以渔"的方式为AI构建了一个开放共进的生态环境,帮助行业加速AI应用 ...

最新文章

  1. 6G网络智能内生的思考
  2. python订单管理系统功能_订单管理系统有哪些功能?
  3. 如何用vue-router为每个路由配置各自的title
  4. PAT甲级1103 Integer Factorization (30 分):[C++题解]背包问题,DP解法
  5. LIVE555再学习 -- VLC搭建RTSP服务器(转)
  6. DDD领域驱动实践记录
  7. 设计模式:策略模式(Strategy)
  8. ad中电容用什么封装_用什么来降低噪声?只要几个电容器就可以,简单有效!...
  9. 微信小程序快速开发上手
  10. linux网卡不响应arp,Linux中的网络配置和故障排除命令,学会不会吃亏
  11. pyqt5 判断lineedit是否为空_是否注意过isEmpty 和 isBlank 区别?
  12. Visual Studio Developer Assistant 3月新功能展示
  13. 【转】解密微软的架构师之路
  14. Tkinter教程(每天半小时,3天彻底掌握Tkinter)day2
  15. 加班熬夜一个月,终于把所有Python库整理齐了,祝你早日学成
  16. JasperReport 默认打印机打印/指定打印机打印
  17. 安卓手机安装charles安全证书
  18. win10以太网下出现两个网络 网络2/网络3或者“未识别的网络” 如何删除多余的一个
  19. 1072 开学寄语 (20 分)
  20. linux平台下一个好用的并行压缩工具(cpu核数越多越快,比tar -j可以快很多倍)

热门文章

  1. 关于numy中np.expand_dims方法的理解?
  2. np.array_split可以不均等划分 np.split为均等划分
  3. python创建对象后调用对象的方法,报错TypeError: getName() takes 0 positional arguments but 1 was given
  4. Union和Union All的区别
  5. 3168串口java_电子称串口读取数据(转)
  6. Michael Jordan:人工智能研究的目标变了,不再是构建单个智能
  7. 迷倒高斯、费马、欧拉的女王,竟是低调的她
  8. 谁说数学不好,就不能成为编程大佬
  9. Struts权威著作
  10. 基于jquery,bootstrap数据验证插件bootstrapValidator 教程