安妮 编译自 arXiv
量子位 出品 | 公众号 QbitAI

出于未知原因,DeepMind为自己研究起的名字总饱含诗意,在学术界中显得尤为画风清奇。

比如“彩虹”?,比如“独角兽”?。

前者,是去年10月DeepMind投递到AAAI 2018的六种DQN混血论文;后者,是我们今天要介绍的主角。

近日,DeepMind提出了命名为“独角兽(Unicorn)”的智能体架构,它展示出厉害的持续学习能力,已经胜过很多基准智能体。

这是怎样实现的呢?

研究人员表示,独角兽通过利用并行的off-policy学习策略,统一表示和学习多种策略,才达到了这样的表现。

 DeepMind曾经的研究——一个会跑酷的小人

何为持续学习?

持续学习(Continual learning),指的是智能体借助已经获得的知识和技能,从经验中学习持续的任务流的一种方法。

这种设置的主要特点是,它有潜力成为一个完全独立的智能体,可以增强构建自己的能力,解决丰富和复杂环境中的挑战,而无需人类提供的数据集、任务边界或奖励设置等的干预。

因为智能体的能力在增长,所以它会去考虑复杂性持续增长的任务。理想的持续学习智能体应该能:

(A)解决多项任务

(B)当任务相关时表现出协同效应

(C)处理任务之间深度依赖的结构

独角兽的特征

在这篇题为Unicorn: Continual learning with a universal, off-policy agent的论文中,DeepMind的研究人员Daniel J. Mankowitz等人提出了一种新型的独角兽智能体架构,可以显示上述这三种性能。

独角兽架构有三个显著特征:

(1)它是一种用单一网络同时学习多任务中价值函数的新方法

(2)同时,利用样例有效的off-policy更新通过任务分享经验

(3)当然,还结合了最先进的并行智能体架构,有效扩大经验的生成和学习

下图显示的是研究人员提出的持续学习领域。在图中可以看到,智能体在满是物体的丰富的3D环境中进行导航,并且借助了第一人称视角的视觉输入。

 上图指的是持续学习领域:在DM Lab的丰富环境中(左图)找到并按特定顺序拾取钥匙、锁和箱子(右图)的表现,偏离特定顺序将会被重置(虚线)。下图指的是独角兽的表现:和最终在最佳基线(glutton虚线)上的表现相比,研究人员提出的方法快速胜任了四个子任务。相对能力在分阶段增强,从简单(钥匙)到困难(箱子),最困难的任务能力增长幅度最大

使这个领域变得最为挑战的是,物体需要以特定的顺序收集起来。例如,箱子只有在智能体已经收集了钥匙、锁和门的情况下才起作用。

这就意味着,在大多数探索任务中,箱子这种高度依赖型任务的反馈非常稀疏,并且不能直接学习。

幸运的是,独角兽智能体始终在解决领域内的这类问题,并且通过分享经验和重新利用任务中的表现和技能输出基线。

想了解更多实验过程,可移步论文原文~地址给你:

https://arxiv.org/abs/1802.08294

作者系网易新闻·网易号“各有态度”签约作者

加入社群

量子位AI社群13群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot5入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot5,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


DeepMind新智能体架构Unicorn:持续学习能力胜过多个基准智能体相关推荐

  1. DeepMind集成AI智能体架构「MERLIN」:基于目标导向智能体中的无监督预测记忆

    来源:arXiv 摘要:在自然界中,动物往往会执行目标导向的行为,尽管它们的传感器的范围有限. 作者:Greg Wayne. Chia-Chun Hung.David Amos.Mehdi Mirza ...

  2. 智源研究院发布“智能体系架构与芯片”重大研究方向,打造通用智能处理器,突破“算法共性特征”难题...

    9 月 18 日上午,北京智源人工智能研究院(以下简称"智源研究院")在北大科技园举行"智能体系架构与芯片"重大研究方向发布会,智源研究院院长黄铁军以及北京人工 ...

  3. 云端研发新基建:Serverless与持续架构服务落地实践

    在<我心中的云时代原生开发环境>这篇文章中,我们探讨过云厂商的愿景,云计算的趋势与现状以及研发团队的架构服务诉求等背景.今天,我想结合我们打造的云开发平台(Cloud Workbench) ...

  4. DeepMind发布最新《神经网络中持续学习》综述论文!

    来源:AI科技评论 本文约3200字,建议阅读6分钟 本文重点介绍一些神经网络中最有前途和最有影响力的方向. 在过去的几十年中,人工智能研究取得了巨大进展,但是它主要依赖于固定的数据集和固定的环境. ...

  5. 疫后新基建:加快从半工业半信息社会到智能社会

    作者:徐苏涛,谢盼盼,杨洋,张欢,冯凡缨,刘磊鑫. 一言以蔽之,当前及未来最大的时代变化,是新一轮科技革命与产业变革与经济社会系统转换历史性交汇:当前及未来最大的世界变化,是新一轮全球化与逆全球化与国 ...

  6. 超越AlphaZero,DeepMind新算法MuZero登顶Nature | AI日报

    超越AlphaZero,DeepMind新算法MuZero登顶Nature 2016年,DeepMind 推出了第一个人工智能程序 AlphaGo,在围棋游戏中击败人类.两年后,它的继任者AlphaZ ...

  7. 论坛报名 | 智能体系架构与芯片的下一个十年

    与6位图灵奖得主和100多位专家 共同探讨人工智能的下一个十年 长按图片或点击阅读原文,内行盛会,首次免费注册 2020年6月21-24日,第二届北京智源大会(官网:https://2020.baai ...

  8. DeepMind新突破!首次用深度学习从第一性原理计算分子能量

    来源:AI科技评论 编译 | 青暮 DeepMind发表了一项新研究,展示了深度学习如何帮助解决现实系统中的量子力学基本方程问题,相关论文发表在物理学期刊<Physical Review Res ...

  9. Zeppelin:用于区块链应用的开源安全智能合约架构

    9月15日,Zeppelin的路线图建议发布.Zeppelin是一种构建安全智能合约的开源架构,遵循MIT许可.该建议的推出正是时候,从DevCon2大会上围绕着智能合约形式验证的报告和讨论的次数上就 ...

最新文章

  1. python-pcl GPU、输入输出模块教程翻译
  2. Pycharm的运行和简单调试
  3. Python的命名空间和作用域
  4. 微软云平台媒体服务实践系列 1- 使用静态封装为iOS, Android 设备实现点播(VoD)方案...
  5. python3.7入门教程-python 3.7极速入门教程5循环
  6. BugkuCTF-Misc:眼见非实(ISCCCTF)
  7. JQuery-学习笔记04【基础——JQuery基础案例】
  8. c++智能指针的设计思想
  9. Nunit2.5.10快速上手
  10. js三元判断html,JS 三元条件运算符
  11. linux中zip文件编码错误,如何避免在 Linux 下解压 zip 文件时可能出现的乱码情况...
  12. 高等代数_第2章:证明_Laplace定理
  13. layui框架实战案例(9):layPage 静态数据分页组件
  14. 常用z反变换公式表_高中数学三角函数题型总结归纳,同角三角函数及诱导公式...
  15. 解决IOS下window.open页面打不开问题
  16. 利益相关者软件工程_吸引组织的各个利益相关者的4种方法
  17. 测者的测试技术笔记:Screenplay 模式(Journey 模式)
  18. java工程加包_向java工程添加jar包
  19. sata及adma控制器linux操作系统驱动的设计与实现,SATA及ADMA控制器Linux操作系统驱动的设计与实现.pdf...
  20. Java文件/文件夹 加密解密工具(Swing版)

热门文章

  1. Java 9 关注度不断上升!2018 编程语言流行度大调查
  2. 2017 开发者大调查活动获奖名单新鲜出炉
  3. 微信七年,终于实现一键切换账号功能了!
  4. PHP 程序员危机:如何快速成长为不可或缺的技术人才?
  5. python传递参数 调用c++ 传递vector_python调用c++传递数组的实例
  6. 放在请求头目的_YSLOW性能测试前端调优23大规则(三)添加Expires头
  7. ebs r12多少钱 实施oracle_Oracle EBS实施具体是做什么
  8. idea自动下载gradle_如何在IDEA中下载Gradle项目的依赖源?
  9. java简介 ppt 精,TP1java简介.ppt
  10. mysql6.0_MySQL6.0安装