夏乙 编译整理
量子位 出品 | 公众号 QbitAI

火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6,这么强大的算法什么时候才能打破次元壁,走进现实、控制物理世界中的物体呢?

DeepMind已经开始往这方面努力。他们昨天发布的控制套件“DeepMind Control Suite”,就为设计和比较用来控制物理世界的强化学习算法开了个头。

就像ALE(Arcade Learning Environment)极大推动了用强化学习打电子游戏的研究一样,DeepMind希望他们的Control Suite也能推动用强化学习控制实体的研究,比如说先让模拟环境中的机器人学会行走、游泳、搬东西等等。

Control Suite设计了一组有着标准化结构、可解释奖励的连续控制任务,还为强化学习Agent提供一组性能测试指标

这些任务基于MoJoCo物理引擎,所用的语言是Python。DeepMind在GitHub上放出的源代码中,就包含基于MoJoCo的Python强化学习环境,以及为MoJoCo提供Python绑定的软件库。

如上图所示,Control Suite中的任务可以分为14个领域,也就是14类物理模型,上排从左到右分别是:

体操机器人Acrobot,(两节钟摆)、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人,下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的Reacher、游泳机器人、步行者。

DeepMind还测试了A3C、DDPG和D4PG强化学习算法在这些任务上的表现,:

这些结果也是强化学习完成控制任务的基线数据。

DeepMind Control Suite似乎很受欢迎,截止量子位发稿,已经在GitHub上收获了300多个星标。

Twitter网友们也在热烈讨论这个Control Suite。不过,DeepMind官推为这个套件所选的配图,可谓骨骼清奇,被不少网友质疑:这是……最优跑步方式?

O(∩_∩)O 最后放出来,给大家来观赏一下:

请勿模仿,请勿模仿,请勿模仿。

如果受伤了还怎么看下面的论文和代码呢~

论文:
https://arxiv.org/pdf/1801.00690.pdf

代码:
https://github.com/deepmind/dm_control

加入社群

量子位AI社群13群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot5入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot5,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


如何让强化学习走进现实世界?DeepMind要用“控制套件”推动相关推荐

  1. [论文]基于强化学习的无模型水下机器人深度控制

    基于强化学习的无模型水下机器人深度控制 摘要 介绍 问题公式 A.水下机器人的坐标框架 B.深度控制问题 马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...

  2. 这个高仿真框架AI2-THOR,想让让强化学习快速走进现实世界

    夏乙 编译整理 量子位 出品 | 公众号 QbitAI AlphaGo的节节胜利,向人们展示了强化学习的强大能力.但要是想让这种方法作用于现实世界,指挥机器人完成开门.拿东西.放东西等等对人类来说轻而 ...

  3. DeepMind推出「控制套件」:为「强化学习智能体」提供性能基准

    来源:arxiv 作者:Yuval Tassa, Yotam Doron, Alistair Muldal, Tom Erez,Yazhe Li, Diego de Las Casas, David ...

  4. 浅析强化学习及使用Policy Network实现自动化控制

    来源:极客头条 概要:强化学习已经有几十年的历史,但是直到最近几年深度学习技术的突破,强化学习才有了比较大的进展. 浅析强化学习 一个强化学习问题包含三个主要概念,即环境状态(Environment  ...

  5. 汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实

    作者 | 陈彩娴 深度强化学习的故事,可以追溯到2015年: 当时,位于英国伦敦的一家小公司 DeepMind 在<Nature>上发表了一篇文章"Human-level con ...

  6. 【ICML2021】 9篇RL论文作者汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实...

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:转载自AI科技评论 作者 | 陈彩娴 深度强 ...

  7. 只用1/500数据就打败人类!一种采样高效的强化学习算法 | 报告详解

    [栏目:前沿进展]近日,清华大学交叉信息研究院高阳研究组在强化学习领域中取得突破,研究组所提出的模型EfficientZero首次在雅达利(Atari )游戏数据上超过同等游戏时长的人类平均水平.Ef ...

  8. 《强化学习周刊》第13期:强化学习应用之金融

    No.13 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,它在金融领域中的应用研究进展与成果也引发了众多关注.为帮助研究与工程人员了解 ...

  9. 深度丨深度强化学习研究的短期悲观与长期乐观(长文)

    文章来源:机器之心 深度强化学习是最接近于通用人工智能(AGI)的范式之一.不幸的是,迄今为止这种方法还不能真正地奏效.在本文中,作者将为我们解释深度强化学习没有成功的原因,介绍成功的典型案例,并指出 ...

最新文章

  1. MySQL备份和恢复数据表的方法(1)
  2. Android app集成Google Map方法
  3. Android 系统(18)---Handler,MessageQueue与Looper关系
  4. 网易云音乐喊话酷狗称其“耍猴”:专利文件与“跟听”毫无关系
  5. thymeleaf html模块化,SpringBoot中使用Thymeleaf模板开发的后台管理框架
  6. 用SPFA判断是否存在负环
  7. opencv移植到ubuntu
  8. 2021-06-10 JUC01DAY
  9. 我与希赛PMP的不解之缘
  10. 免费好用的虚拟服务器,六大免费好用的虚拟主机管理系统
  11. 谷歌地图坐标转换为百度地图坐标
  12. HTK中Vocab字典的结构
  13. 关于junk jack
  14. Vue前端项目-系统监控-数据监控
  15. ETA4322耐压30V,线性充1000mA,充电电流可调,双灯指示
  16. 关于如何在Matlab中构造三维几何,以及三棱柱实例演示
  17. 解决VMware内存占用过高问题
  18. 院校解析||211大学分八档
  19. 「KLAYswap升级」Klaytn圣诞送好礼,Kakao专属礼品大放送!
  20. IFIX组态----语音报警实例

热门文章

  1. “宇宙最强”GPU —— NVIDIA Tesla V100 面向开发者开放试用!
  2. 怡丰机器人上市_【利元亨 | 复盘】十家自动停车机器人大PK,你更看好谁?
  3. string 都不能作用于switch_谁带孩子争论不休?家庭教育谁也不能缺席,每个人的作用都不同...
  4. php解决mysql主从同步_mysql 主从同步原理
  5. aps是什么意思_三分钟看懂ERP、MES、APS系统的关联和区别
  6. python datetime 加一个月_Python日期的加减等操作的示例
  7. .net mysql limit 分页原理_浅谈MySQL分页Limit的性能问题
  8. python render_requests-html库render的使用
  9. 如何通过yum安装mysql数据库_CentOS 7通过yum安装MySQL数据库例子
  10. css3动画保持状态不变