安妮编译自 arXiv
量子位出品 | 公众号 QbitAI

出于未知原因，DeepMind为自己研究起的名字总饱含诗意，在学术界中显得尤为画风清奇。

比如“彩虹”?，比如“独角兽”?。

前者，是去年10月DeepMind投递到AAAI 2018的六种DQN混血论文；后者，是我们今天要介绍的主角。

近日，DeepMind提出了命名为“独角兽（Unicorn）”的智能体架构，它展示出厉害的持续学习能力，已经胜过很多基准智能体。

这是怎样实现的呢？

研究人员表示，独角兽通过利用并行的off-policy学习策略，统一表示和学习多种策略，才达到了这样的表现。

△ DeepMind曾经的研究——一个会跑酷的小人

何为持续学习？

持续学习（Continual learning），指的是智能体借助已经获得的知识和技能，从经验中学习持续的任务流的一种方法。

这种设置的主要特点是，它有潜力成为一个完全独立的智能体，可以增强构建自己的能力，解决丰富和复杂环境中的挑战，而无需人类提供的数据集、任务边界或奖励设置等的干预。

因为智能体的能力在增长，所以它会去考虑复杂性持续增长的任务。理想的持续学习智能体应该能：

（A）解决多项任务

（B）当任务相关时表现出协同效应

（C）处理任务之间深度依赖的结构

独角兽的特征

在这篇题为Unicorn: Continual learning with a universal, off-policy agent的论文中，DeepMind的研究人员Daniel J. Mankowitz等人提出了一种新型的独角兽智能体架构，可以显示上述这三种性能。

独角兽架构有三个显著特征：

（1）它是一种用单一网络同时学习多任务中价值函数的新方法

（2）同时，利用样例有效的off-policy更新通过任务分享经验

（3）当然，还结合了最先进的并行智能体架构，有效扩大经验的生成和学习

下图显示的是研究人员提出的持续学习领域。在图中可以看到，智能体在满是物体的丰富的3D环境中进行导航，并且借助了第一人称视角的视觉输入。

△ 上图指的是持续学习领域：在DM Lab的丰富环境中（左图）找到并按特定顺序拾取钥匙、锁和箱子（右图）的表现，偏离特定顺序将会被重置（虚线）。下图指的是独角兽的表现：和最终在最佳基线（glutton虚线）上的表现相比，研究人员提出的方法快速胜任了四个子任务。相对能力在分阶段增强，从简单（钥匙）到困难（箱子），最困难的任务能力增长幅度最大

使这个领域变得最为挑战的是，物体需要以特定的顺序收集起来。例如，箱子只有在智能体已经收集了钥匙、锁和门的情况下才起作用。

这就意味着，在大多数探索任务中，箱子这种高度依赖型任务的反馈非常稀疏，并且不能直接学习。

幸运的是，独角兽智能体始终在解决领域内的这类问题，并且通过分享经验和重新利用任务中的表现和技能输出基线。

想了解更多实验过程，可移步论文原文~地址给你：

https://arxiv.org/abs/1802.08294

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

加入社群

量子位AI社群13群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot5入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot5，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

DeepMind新智能体架构Unicorn：持续学习能力胜过多个基准智能体相关推荐

DeepMind集成AI智能体架构「MERLIN」：基于目标导向智能体中的无监督预测记忆
来源:arXiv 摘要:在自然界中,动物往往会执行目标导向的行为,尽管它们的传感器的范围有限. 作者:Greg Wayne. Chia-Chun Hung.David Amos.Mehdi Mirza ...
智源研究院发布“智能体系架构与芯片”重大研究方向，打造通用智能处理器，突破“算法共性特征”难题...
9 月 18 日上午,北京智源人工智能研究院(以下简称"智源研究院")在北大科技园举行"智能体系架构与芯片"重大研究方向发布会,智源研究院院长黄铁军以及北京人工 ...
云端研发新基建：Serverless与持续架构服务落地实践
在<我心中的云时代原生开发环境>这篇文章中,我们探讨过云厂商的愿景,云计算的趋势与现状以及研发团队的架构服务诉求等背景.今天,我想结合我们打造的云开发平台(Cloud Workbench) ...
DeepMind发布最新《神经网络中持续学习》综述论文！
来源:AI科技评论本文约3200字,建议阅读6分钟本文重点介绍一些神经网络中最有前途和最有影响力的方向. 在过去的几十年中,人工智能研究取得了巨大进展,但是它主要依赖于固定的数据集和固定的环境. ...
疫后新基建：加快从半工业半信息社会到智能社会
作者:徐苏涛,谢盼盼,杨洋,张欢,冯凡缨,刘磊鑫. 一言以蔽之,当前及未来最大的时代变化,是新一轮科技革命与产业变革与经济社会系统转换历史性交汇:当前及未来最大的世界变化,是新一轮全球化与逆全球化与国 ...
超越AlphaZero，DeepMind新算法MuZero登顶Nature | AI日报
超越AlphaZero,DeepMind新算法MuZero登顶Nature 2016年,DeepMind 推出了第一个人工智能程序 AlphaGo,在围棋游戏中击败人类.两年后,它的继任者AlphaZ ...
论坛报名 | 智能体系架构与芯片的下一个十年
与6位图灵奖得主和100多位专家共同探讨人工智能的下一个十年长按图片或点击阅读原文,内行盛会,首次免费注册 2020年6月21-24日,第二届北京智源大会(官网:https://2020.baai ...
DeepMind新突破！首次用深度学习从第一性原理计算分子能量
来源:AI科技评论编译 | 青暮 DeepMind发表了一项新研究,展示了深度学习如何帮助解决现实系统中的量子力学基本方程问题,相关论文发表在物理学期刊<Physical Review Res ...
Zeppelin：用于区块链应用的开源安全智能合约架构
9月15日,Zeppelin的路线图建议发布.Zeppelin是一种构建安全智能合约的开源架构,遵循MIT许可.该建议的推出正是时候,从DevCon2大会上围绕着智能合约形式验证的报告和讨论的次数上就 ...

DeepMind新智能体架构Unicorn：持续学习能力胜过多个基准智能体

安妮编译自 arXiv
量子位出品 | 公众号 QbitAI

何为持续学习？

独角兽的特征

作者系网易新闻·网易号“各有态度”签约作者

DeepMind新智能体架构Unicorn：持续学习能力胜过多个基准智能体相关推荐

最新文章

热门文章

DeepMind新智能体架构Unicorn：持续学习能力胜过多个基准智能体

安妮 编译自 arXiv 量子位 出品 | 公众号 QbitAI

何为持续学习？

独角兽的特征

作者系网易新闻·网易号“各有态度”签约作者

DeepMind新智能体架构Unicorn：持续学习能力胜过多个基准智能体相关推荐

最新文章

热门文章

安妮编译自 arXiv
量子位出品 | 公众号 QbitAI