【学术前沿】26 亿参数量，水平接近人类，Google 的开放领域聊天机器人意义何在？...

鼠年大吉

HAPPY 2020'S NEW YEAR

来源：雷锋网

科技巨头们时不时就声明在 AI 领域取得了突破性进展，对此我们已经见惯不惊了。

当地时间 2020 年 1 月 28 日，Google 在一篇博客中介绍了一款开放领域聊天机器人 Meena，号称“史上最强”，那么这一新突破会让人眼前一亮吗？

图片来源：Google Blog 所有者：Google Blog

开放领域聊天机器人开发难度大

实际上，设计智能聊天机器人是为了应对信息爆炸时代存在的信息过载问题。最初，人们把聊天机器人当作搜索引擎的终极形态进行设计和开发。不同于现有的搜索引擎，聊天机器人可针对用户的问题自然又通顺地给出精准的答案，节约了很多时间，从而带来更好的用户体验。

根据使用场景划分，聊天机器人（chatbot）主要有开放域型（Open-Domain）和任务导向型（Task-Oriented）两种。

其中，任务导向型主要有问答系统、对话系统聊天机器人，分别指基于用户的问题给出一个回答（常用于智能搜索、智能家居中的家电控制等场景）和与用户进行多轮对话的聊天机器人（如客服机器人，销售机器人等）。

而开放领域聊天机器人（也称闲聊式机器人）顾名思义针对开放域的对话场景，主题、内容不限，比如微软小冰和苹果 Siri。Google 在上述博客中表示：

开放领域聊天机器人的研究不仅具有学术价值，还可激发很多有趣的应用，如更深层次的人机交互、提升外语训练效果，以及制作交互式电影和游戏角色。

值得一提的是，开放领域聊天机器人更符合人们心中对「人工智能」的定位，开发难度自然也很大——当前开放领域聊天机器人面临的一个严峻问题在于它们表达的内容往往没有意义，无法与用户的问题连贯起来，而且由于缺乏基本的常识和认知，不能给出针对性的回复。

而 Google 开发的 Meena 正是一款开放领域聊天机器人，那么相比现有的聊天机器人，究竟有何突破？

Meena 和人类的对话内容图片来源：Google Blog

26 亿参数的端到端神经对话模型

Google 在博客中介绍称，Meena 是个 26 亿参数的端到端训练的神经会话模型，是 GPT-2 模型最大版本（15 亿参数）的 1.7 倍。据称，Google 利用 400 亿字的数据集，通过 2048 个张量处理单元（即 Tensor Processing Unit，Google 专用 AI 芯片）训练了 30 天，得到了最佳版本。实验表明，比起聊天机器人 SOTA，Meena 能更好地完成对话，内容也更具体、清楚。

据悉，Meena 由 1 个 Evolved Transformer 编码器和 13 个 Evolved Transformer 解码器组成：编码器用于处理对话语境，有助于 Meena 理解对方的话；而解码器则会利用信息生成回复。而在这一过程中，Google 表示：

研究人员发现，超参数调整后，实现高质量对话的关键在于性能更强的解码器。

图片来源：Google Blog 所有者：Google Blog

雷锋网了解到，Google 从公共领域社交媒体对话上过滤得到了 341GB 的文本，并以树状脉络形式组织文本进行「多轮对话」训练。研究者将每轮对话作为训练样本，同时每轮之前的 7 轮对话为语境信息，共同构成一组数据。据悉，选择 7 轮对话作为语境，既能保证训练过程获得足够长的语境信息，同时模型也能不超过内存限制。毕竟文本越长，占用的内存也越多。

新提出的人类评价指标 SSA

根据博客，上述这些表现是由 Google 根据新提出的人类评价指标「Sensibleness and Specificity Average (SSA)」得出的，而此次提出新的指标是因为，目前聊天机器人的人类评价指标颇为复杂，而且也很难形成一致的评价指标。Google 表示，SSA 能捕获基本的、但对人类对话来说很重要的属性。

为计算这一指标，研究者测试了 Meena、Mitsuku、Cleverbot、DialoGPT 及小冰等常见的聊天机器人。在测试中，对于每一款聊天机器人，研究者都在 100 个对话中收集了 1600 到 2400 轮，各聊天机器人的回复都由人类评价者评分（主要依据对话的流畅性和回答的准确性），其各自性能表现如下图。

图片来源：Google Blog 所有者：Google Blog

不难看出，Meena 相比于现有的 SOTA 聊天机器人，有着更高的 SSA 分数，甚至接近于人类的表现。

困惑度与 SSA 强相关

毫无疑问，人类评价或多或少存在一些问题，因此很多研究者都希望找到一个能够自动计算的评价指标，而且这个指标要能和人类评价准确对应。

雷锋网了解到，困惑度（perplexity，指一种任何神经会话模型都能轻易获得的计算指标）是 seq2seq 模型（雷锋网注：一种循环神经网络的变种，包括编码器和解码器两部分，是自然语言处理中的一种重要模型，可用于机器翻译、对话系统、自动文摘）中的一个常见指标，用于评价语言模型的不确定性。

而值得一提的是，Google 证明了困惑度与 SSA 高度相关。

实际上，训练 Meena 正是为了最大程度地减少困惑度，以及预测下一个标记（雷锋网(公众号：雷锋网)注：指对话中的下一个单词）的不确定性——据博客称，这是因为 Meena 的核心为 Evolved Transformer seq2seq 架构，即一种通过进化神经架构搜索发现的 Transformer 体系结构，能够改善困惑度。

在博客中 Google 表示，研究者依据层数、注意力数量、训练步数、编码器、训练方式等因素，共测试了 8 种不同的模型，发现困惑度越低，SSA 分数越高，同时两者的相关系数很高（R^2 = 0.93）。

图片来源：Google Blog 所有者：Google Blog

同时 Google 表示：

研究者将继续通过改进算法、架构、数据和计算量等，降低这一神经会话模型的困惑度。

Meena 意义大吗？

根据博客中展示的数据，我们相信 Meena 的确性能出众，不过 Meena 究竟什么时候能推出、真正推出后表现如何，可能都要打问号。博客中提到，目前研究团队正在就这一研究的风险及益处做进一步的评估，并可能在未来几个月内推出 Meena，旨在推动该领域的发展。

对此，VentureBeat 记者 Ronald Ashri 在其报道中表示：

首先我们要意识到，即便 Google 开源所有代码，也很少有人能培训类似 Meena 的模型。Meena 应该还在实验室里，操作起来也非常复杂，还不能将其整合到一个工具中，而且 Google 也不可能很快就将其作为一项服务向用户提供。因此，恐怕短期内 Meena 难以推出。

另外，在实用性方面，诚然 Meena 作为一款开放领域聊天机器人，能够实现多轮对话。不过 Meena 并不能协助用户完成某项任务、学习某项新技能，或为身处困境的用户给予情感或心理支持，和用户的聊天没有明确的目的。而耗费时间进行无意义的交谈，在我们所处的时代大背景下似乎并非理想产品。

与此同时，记者 Ronald Ashri 也对 Meena 提出了进一步质疑。正如上文所述，Google 从公共领域社交媒体对话上过滤得到了 341GB 的文本，以此进行进一步的训练。那么，数百万的公共领域社交媒体对话会是这一所谓的「史上最强聊天机器人」的正确数据集吗？Meena 是否会讲出不恰当的话，可能也是一个我们要关注的点。

近年来，随着越来越多的 AI 聊天解决方案进入生活，我们需要关注最有价值的东西——定义类似人类的对话，并探究这类对话在聊天机器人领域中的角色。

正如 Ronald Ashri 所说：

Meena 让我们更接近目标，但尚未让我们达到目标。

参考：

https://venturebeat.com/2020/02/01/just-how-big-a-deal-is-googles-new-meena-chatbot-model/

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

【学术前沿】26 亿参数量，水平接近人类，Google 的开放领域聊天机器人意义何在？...相关推荐

【学术前沿】26 亿参数训练量，水平接近人类，Google 开发的“史上最强”聊天机器人意义何在？...
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来源:雷锋网科技巨头们时不时就声明在 AI 领域取得了突破性进展,对此我们已经见 ...
1.9万亿参数量，快手落地业界首个万亿参数推荐精排模型
2021-02-03 15:24:02 机器之心发布机器之心编辑部来,走近快手业界首个万亿参数推荐精排模型的内部构造. 个性化推荐系统旨在根据用户的行为数据提供「定制化」的产品体验,精准的推荐系统 ...
Facebook 开源聊天机器人Blender，经94 亿个参数强化训练，更具“人情味”
来源:AI前线作者 | Kyle Wiggers 编译 | Sambodhi 策划 & 编辑 | 刘燕不久前,Facebook 开源了号称是全球最强大的聊天机器人 Blender,它标志着 ...
1370亿参数、接近人类水平，谷歌重磅推出对话AI模型LaMDA
来源:机器之心语言模型可以完成不同任务,例如将一种语言翻译成另一种语言,将长文档总结为简短的摘要等.在众多任务中,开放域对话可能是最困难的任务之一,因为开放域对话需要模型覆盖不同的主题.在对话任务中 ...
前沿 | IBM语音识别已接近人类水平
原标题:前沿 | IBM语音识别已接近人类水平 IBM的语音识别已达到较高的水平,并且能有与人类语音识别水平相较的低错误率. 上周,IBM的语音识别团队实现了仅达5.5%的错误率,与之前的记录6.9% ...
ChatGPT开源替代来了！参数量200亿，在4300万条指令上微调而成
OpenChatKit 是一个类 ChatGPT 开源工具包,内含一个 20B 参数量的大模型,而且该模型在 4300 万条指令上进行了微调. 转自<机器之心> 2023 年,聊天机器人领 ...
Datawhale数据分析学习——学术前沿趋势分析任务1
数据分析学习--学术前沿趋势分析任务1 前言赛题背景任务1:论文数据统计 1.1 任务说明 1.2 数据集介绍 1.3 arxiv论文类别介绍 1.4 任务整体思路 1.5 具体代码实现以及讲解 ...
智源社区AI周刊No.99：OpenAI发布接近人类水平的语音识别系统Whisper；马毅：智能的计算和科学研究将融合...
汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 1. UC伯克利马毅:智能的计算和科学研究将能够很快融合查看详情近日,智源社区举行&q ...
【pytorch】深度学习所需算力估算：flops及模型参数量
目录计算量的要求是在于芯片的floaps(指的是gpu的运算能力) 参数量对应显存大小选型常见的英伟达显卡的FLOPS和显存规格 pytorch中的floaps与显存计算方法计算量的要求是在于芯 ...

【学术前沿】26 亿参数量，水平接近人类，Google 的开放领域聊天机器人意义何在？...

【学术前沿】26 亿参数量，水平接近人类，Google 的开放领域聊天机器人意义何在？...相关推荐

最新文章

热门文章