睡眠研究可以帮助创建更好的AI模型吗？

我们为什么要睡觉？一个明显的原因是恢复我们身体和四肢的力量。但是睡眠的另一个非常重要的作用是巩固记忆并组织清醒时大脑摄入的所有信息。缺乏适当睡眠的人会认知能力下降，记忆力下降。

睡眠的奇观和奥秘仍然是研究的活跃领域。除了医学，心理学和神经科学外，睡眠研究还可以用于其他科学领域。人工智能研究人员也在研究这一领域所做的工作，以开发在更长时间内更有效地处理数据的人工智能模型。

DeepMind的人工智能研究人员最近的工作显示，他们利用对大脑和睡眠机制的研究，来应对自然语言处理（NLP）的一个基本挑战：处理长期记忆。

人工智能苦苦挣扎的语言记忆

人脑具有非常有趣的组织记忆的方式。我们可以长期管理不同的思路。考虑这个假设的例子：你早上醒来，花45分钟阅读一本有关认知科学的书。一个小时后，你浏览了新闻并阅读了几则新闻文章。下午，你将继续研究几天前开始的AI研究论文，并为以后的文章做笔记。在日常的锻炼中，您会收听科学播客或有声读物。在晚上，入睡前，您打开一本幻想小说，然后找到前一天晚上读到的地方。

你不需要成为一个天才就可以做到这一点。实际上，我们大多数人每天都在处理各种各样的信息。有趣的是，我们的大脑能够保存和管理这些信息，而且可以在很长时间，一天，几周，几个月甚至几年内做到这一点。

近年来，人工智能算法在保持较长数据流的一致性方面已逐渐变得更好，但是要与人脑的技能相匹配，它们还有很长的路要走。

用于处理语言的经典机器学习构造模型是递归神经网络（RNN），这是一种人工神经网络，旨在处理数据的时间一致性。经过数据语料库训练的RNN（例如，大量的Wikipedia文章数据集）可以执行任务，例如预测序列中的下一个单词或找到问题的答案。

早期版本的RNN的问题在于它们处理信息所需的内存量。AI模型可以处理的数据序列越长，所需的内存就越多。这个限制主要是因为，与人脑不同，神经网络不知道应该保留哪些数据以及可以丢弃哪些数据。

提取重要信息

想想看：当你读一本小说，比如《指环王》，你的大脑并不会记住所有的单词和句子。它被优化以从故事中提取有意义的信息，包括人物（例如，佛罗多、甘道夫、索伦）、他们的关系（例如，博罗米尔几乎是佛罗多的朋友）、地点（例如，里文德尔、莫尔多、罗汉）、对象（例如，一环和乌里尔）、关键事件（例如，佛罗多将一环扔到末日山的中心，甘道夫掉进了哈扎德·杜姆的深渊，赫尔姆之战的深渊），也许是故事中一些非常重要的对话（例如，不是所有闪光的都是金子，不是所有游荡的人都迷路了）。

这一小部分信息对于能够在所有四本书（霍比特人和指环王的所有三卷书）和576459个单词中遵循故事的情节是非常关键的。

人工智能科学家和研究人员一直在试图找到一种方法，将神经网络嵌入到同样有效的信息处理中。这一领域的一个重大成就是发展了“注意”机制，使神经网络能够发现和关注数据中更重要的部分。注意力使神经网络能够以更有效的记忆方式处理更大量的信息。

Transformers是近年来越来越流行的一种神经网络，它有效地利用了意图机制，使人工智能研究人员能够创建越来越大的语言模型。例子包括OpenAI的GPT-2文本生成器，在40G的文本上训练，谷歌的Meena chatbot，在341GB的语料库上训练，以及AI2的Aristo，一个在300G的数据上训练以回答科学问题的深度学习算法。

所有这些语言模型都比以前的人工智能算法在较长的文本序列上表现出显著的一致性。GPT-2可以经常（但并不总是）写出跨越多个段落的相当连贯的文本。Meena还没有发布，但是Google提供的示例数据在对话中显示了有趣的结果，而不仅仅是简单的查询。Aristo在回答科学问题方面胜过其他人工智能模型（尽管它只能回答多项选择题）。

然而，显而易见的是，语言处理人工智能还有很大的改进空间。目前，通过创建更大的神经网络并为它们提供越来越大的数据集，仍有一种改进该领域的动力。很明显，我们的大脑不需要，甚至没有足够的能力来获取数百千兆字节的数据来学习语言的基础知识。

从睡眠中汲取灵感

当记忆在我们的大脑中被创造出来时，它们开始是编码在大脑不同部分的感官和认知活动的混乱。这是短期记忆。根据神经科学的研究，海马体从大脑不同部位的神经元收集激活信息，并以一种可以进入记忆的方式记录下来。它还存储了将重新激活这些记忆的提示（名称、气味、声音、视觉等）。记忆被激活得越多，它就变得越强大。

据《你的大脑》一书的作者马克·丁曼（Marc Dingman）介绍说，“研究发现，在最初的经历中开启的相同神经元在深度睡眠时会被重新激活。这使得神经科学家们假设，在睡眠期间，我们的大脑正在努力确保前一天的重要记忆被转移到长期储存中。”

DeepMind的AI研究人员从睡眠中汲取了灵感，创建了Compression Transformer，这是一种更适合远程记忆的语言模型。“睡眠对记忆至关重要，人们认为睡眠有助于压缩和巩固记忆，从而提高记忆任务的推理能力。” 当模型经过一系列输入时，将在线收集类似于情景存储器的颗粒存储器。随着时间的流逝，它们最终会被压缩。” 研究人员在Compression Transformer的博客文章中写道。

与Transformer的其他变体一样，Compression Transformer使用注意力机制来选择序列中相关的数据位。但是，AI模型不是丢弃旧的内存，而是删除了不相关的部分，并通过保留显著的部分并将其存储在压缩的内存位置中来组合其余部分。

根据DeepMind的说法，Compressive Transformer在流行的自然语言AI基准测试中显示了最先进的性能。人工智能研究人员写道：“我们还证明，它可以有效地用于语音建模，特别好地处理稀有单词，并且可以在强化学习代理中用以解决记忆任务。”

然而，重要的是，人工智能提高了长文本建模的性能。DeepMind的研究人员写道：“该模型的条件样本可用于编写类似书的摘录。”

博客文章和论文包含了Compressive Transformer输出的样本，与该领域中正在做的其他工作相比，这是非常令人印象深刻的。

语言尚未解决

压缩与归档是两个不同的概念。让我们回到《指环王》的例子，看看这意味着什么。例如，在阅读了在埃尔隆德家举行会议的那一章之后，你不一定记得与会者之间交流的每一个字。但你还记得一件重要的事情：当每个人都在为如何决定这枚戒指的命运而争吵时，佛罗多走上前，接受了把它扔进厄运山的责任。因此，为了压缩信息，大脑在储存记忆时似乎会改变它。随着记忆的变老，这种转变还在继续。

显然，存在某种模式识别，可以使Compressive Transformer找到应该存储在压缩内存段中的相关部分。但是，这些数据位是否等同于以上示例中提到的元素还有待观察。

使用深度学习算法来处理人类语言的挑战已经有了很好的记录。虽然统计方法可以在大量的数据中发现有趣的相关性和模式，但它们无法执行一些需要了解文本以外内容的微妙任务。诸如抽象，常识，背景知识以及智能的其他方面之类的东西，使我们能够填补空白并提取单词背后的隐含含义，而当前的AI方法仍无法解决这些问题。

正如计算机科学家梅拉妮·米切尔（Melanie Mitchell）在她的《人工智能：思考人类的指南》一书中所解释的那样，“在我看来，机器不可能完全通过在线学习来达到翻译，阅读理解等方面的人类水平。数据，实际上对它们处理的语言没有真正的了解。语言依赖于对世界的常识和理解。”

添加这些元素将使人工智能模型能够处理语言的不确定性。认知科学家加里·马库斯说“除了几个小句子，你听到的几乎每一个句子都是原创的。你没有直接的数据。这意味着你有一个关于推理和理解的问题。那些有助于对事物进行分类、将它们放入你已经知道的容器中的技术，根本不适合这样做。理解语言就是把你对这个世界已经知道的东西和别人想用他们说的话、做的事情联系起来。”

马库斯和他的合著者，纽约大学教授欧内斯特·戴维斯（Ernest Davis）在*“ 重新启动AI“*一书中写道：“统计数据不能替代对现实世界的理解。问题不仅在于到处都是随机误差，还在于满足翻译要求的统计分析模型与系统真正理解它们所需要的认知模型构建之间存在根本的不匹配。”

但是压缩技术可能会帮助我们在人工智能和语言建模研究中找到新的方向。“能够捕捉跨天、跨月或跨年经验相关关系的模型即将出现。“我们相信，随着时间的推移，更强大的推理途径将来自过去更好的选择性关注，以及更有效的压缩机制，”DeepMind的人工智能研究人员写道。

原文链接： https://bdtechtalks.com/2020/02/17/deepmind-compressive-transformer/