能“预测未来”的AI来了！谷歌DeepMind推Dreamer，训练时间减半

12月13日消息，据外媒报道，谷歌DeepMind和多伦多大学的研究人员在NeurIPS 2019会议上介绍了AI “Dreamer”，可以通过已知世界模型在新环境中对视觉图像的运动方式进行预测。Dreamer在观察到图像运动方式时，会先构想出一些可能的动作，然后判断这些构想动作可能得到的奖励，根据奖励来最终预测动作。

研究人员表示，Dreamer利用了与上一代PlaNet相比，达到相同性能的训练时间缩短了将近一半。并且这种训练方式将来可能在视觉复杂度更高的环境中得以应用。以下是对Venturebeat相关报道的原文编译。

一、运用了“想象力”的Dreamer

一些AI系统通过借助过去经验所提供的世界信息，可以在具有挑战性的环境中实现目标。他们把这些概括为新的情况（novel situations），这使他们在没有遇到过的设置环境中也可以完成目标。

事实证明，强化学习（reinforcement learning）这种利用奖励来推动软件策略朝着目标前进的培训技术，特别适合于学习总结AI经验的世界模型（world models），并通过扩展（extension）来促进新行为（novel behaviors）的学习。

来自DeepMind和多伦多大学的研究人员试图利用这一点，为此他们设计了名为“Dreamer”的AI，旨在将一个世界模型内化，并通过“想象（imagining）”行为的长期结果来提前计划如何选择行为。

研究人员表示，Dreamer不仅适用于任何学习型任务，并且在数据效率、计算时间、最终性能等方面都超越了现有方法。

二、使用复杂的潜在动力学模型

在AI的整个生命周期中，无论是交错（interleaved）的还是并行（in parallel）的，Dreamer都会学习一个潜在的动力学模型（latent dynamics model），然后从行动和观察中对回报进行预测。

在这种情况下，“潜在动力学模型”是指从输入的图像信息中学习并执行计划来总结新经验的模型。“潜在（latent）”表示它依赖于隐藏（hidden）或潜在状态的紧凑序列（compact sequence），这使得它能够学习更抽象的表示，例如对象的位置和速度。

▲Dreamer在钟摆任务中进行预测（中间行为预测行）

Dreamer使用了一个多部分（multi-part）潜在动力学模型，该模型在结构上有些复杂。

Dreamer总体来说分为四个部分，第一部分负责对图像运动进行观察并编码为机器可以理解的信息；第二部分根据这些已知信息，对图像中没有观察到的部分进行预测；第三部分是一个奖励组件，负责针对不同的预测动作给出奖励；最后一部分是一个价值模型，估计了预测动作可能得到的奖励，并据此不断优化预测动作，让其更加精准。

▲Dreamer在迷宫导航游戏中进行预测（中间行为预测行）

研究人员在DeepMind用于评估AI机器学习能力的仿真软件中，对Dreamer进行了20个视觉控制任务的测试。他们首先使用Nvidia V100图形芯片和10个处理器核对它进行训练，他们说，每106个环境步骤的花费时间是9小时。相比之下，Dreamer的上一代PlaNet花了17个小时才达到类似的性能。

▲Dreamer在Atari游戏中进行预测（中间行为预测行）

三、用已知世界模型解决未知问题

研究人员说，Dreamer有效地利用了从少量的经验中总结出来的已知世界模型（learned world models），它的成功证明了通过潜在的想象力（latent imagination）学习行为的效率已经可以优于先前的顶尖方法。他们还表示，Dreamer的价值模型即使在短期规划（short-term planning）中也表现良好，在20项任务中有16项任务的表现优于其他模型，在另外4个任务中打平。

研究人员写到：“表征学习（representation learning）的未来研究可能会将潜在的想象力放大到视觉复杂度更高的环境中。”他们在本周于温哥华举办的NeurIPS 2019上展示了他们的研究成果。Dreamer项目的代码已经在GitHub公开。

结语：Dreamer为表征学习领域研究提供新思路

此次DeepMind推出的Dreamer，相比前代的主要突破在于将“潜在想象力”运用在AI的训练中，不仅训练效率提升，也为今后在视觉更加复杂的环境中进行研究提供了新思路。

通过现有的认知信息建立模型，预测和解决新环境中的问题，是将来AI研究的大方向之一，我们也期待DeepMind后续有更多新突破。

文章来源：Venturebeat