本文来自AI新媒体量子位(QbitAI)

“看起来就像小学生在玩地狱边境。”

近日,谷歌DeepMind团队创造了一个自学跑酷的智能体,并且解锁了它在不同地形和障碍物下的跑酷姿势。除了画风喜感了点,训练效果看起来还是蛮好的。

 1分37秒处情感惊艳

简笔小人

视频中的简笔小人似乎似乎在进行一场激烈的跑酷比赛,它的身型、周围的地形以及障碍物都是变化的。小人需要自学奔跑、跳跃、蹲伏等姿势,找到从A到B的最佳穿越方式。

研究人员赋予了智能体一组虚拟传感器,传感器告诉智能体有没有走歪,并激励它前进。智能体需要根据传感器的指示自己探索和修正错误,尝试不同的通过方法。

这个智能体背后,是DeepMind团队在探索怎样将强化学习应用在教智能体适应陌生且复杂的环境。

这项研究成果也被同步发表到arXiv上,DeepMind将论文命名为《Emergence of Locomotion Behaviours in Rich Environments》,由Nicolas Heess, Dhruva TB, Srinivasan Sriram等12名DeepMind研究人员完成。

论文介绍

一般来说,强化学习(Reinforcement Learning)让智能体在奖励中直接学习复杂行为。但在通常情况下,强化学习训练的运动非常脆弱,在陌生环境中很容易崩溃,不知下一步应如何移动。

就像婴儿适应了家里的楼梯后,再把他放在电动扶梯上,他就不知如何是好了。

一般的强化学习需要研究人员仔细地设计很多特定的奖励机制。

但DeepMind研究人员仅仅给予智能体一个奖励行为,那就是前进。

他们用单一的奖励机制配合丰富的环境,让智能体学习运动。运动行为对奖励的设置非常敏感,但结果显示,智能体在各种环境中都表现良好。

也就是说,DeepMind的智能体不依赖多种奖励,而是通过丰富的环境,如地形与障碍学习复杂行为。

通过这种新奇的可扩展策略梯度增强学习变体,智能体在没有明确环境奖励引导的情况下,也可以跑步、跳跃、蹲伏和转弯。

强化学习算法

为了使智能体在这些富有挑战的环境中有效学习,必须有一个可靠的可拓展强化学习算法。因此,DeepMind用了几组方法组合完成了这项任务。

这项任务不仅需要基于强大的策略梯度算法,如信赖域策略优化(TRPO)和近似策略优化(PPO)置信区间的参数更新,来确保稳定性。

其次,还要像广泛使用得A3C算法等相关方法一样,需要在很多并行智能实例和环境上分配计算。

最后,附上论文地址:

https://arxiv.org/pdf/1707.02286.pdf

【完】

本文作者:安妮
原文发布时间:2017-07-11

DeepMind智能体自学跑酷:略显智障,结果尚好相关推荐

  1. RVO:实时多智能体导航的交互速度避障

    原文地址:https://www.researchgate.net/publication/221073351_Reciprocal_Velocity_Obstacles_for_Real-Time_ ...

  2. 【控制】《多智能体系统的协同群集运动控制》陈杰老师-第5章-基于骨干网络的多智能体系统群集运动与避障控制

    第4章 回到目录 第6章 第5章-基于骨干网络的多智能体系统群集运动与避障控制 5.1 研究背景 5.2 预备知识 5.2.1 问题描述 运动方程 (5.1) 5.2.2 流体力学基础 可压缩性 黏性 ...

  3. 逆水linux决服务器搭建教程,【教程攻略】智障式Linux服务器搭建教程

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 打开文件夹目录下的/date/server-settings.example.json文件,可以用word打开. 这是服务器的设置文件 { "n ...

  4. 《多智能体博弈学习研究进展--罗俊仁,张万鹏》论文笔记

    目录 一.引言 二.多智能体学习简介 2.1多智能体学习系统组成 2.2 多智能体学习概述 2.3 多智能体学习研究方法分类 三. 多智能体博弈学习框架 3.1 多智能体博弈基础模型及元博弈 3.1. ...

  5. 【控制】《多智能体系统的协同群集运动控制》陈杰老师-目录

    无 回到目录 第1章 跳转链接 章节 跳转链接 第1章 绪论 第2章 连通性保持条件下多智能体系统群集运动控制 第3章 基于代数连通度估计的多智能体系统群集运动控制 第4章 连通性保持下多移动机器人群 ...

  6. 中科院自动化所利用光学定位系统实现多智能体编队避障

    协同控制提高智能体系统鲁棒性,编队避障是重点 随着工业技术的发展,任务复杂程度和规模逐渐增加,单个智能体获取信息及解决问题的能力有限,在多数情况下无法满足任务要求.而多智能体系统强调单体之间的合作与协 ...

  7. 喂,315吗?我花299元买到一只人工智障!

    2017年,AlphaGO刷爆朋友圈:碳基围棋天才柯洁居然输给了硅基计算机.这让"人工智能"迅速走红,进入公众视野. 人工智能为何这么强?2019年,距离充满人工智能设备的未来还有 ...

  8. 人工智能还是人工智障?我tm快崩溃了

    哈喽,中生代的浪花们中午好 随着科技的发展 现在大家或多或少 都会使用一些人工智能产品 大到扫地机器人,小到智能音箱.Siri 但人工智能并不能保证永远「智能」 它们也有「智障」的时候 更别说 Sir ...

  9. 北京智源大会 | 启元AI战胜中国星际冠军,智能体激发人类探索未知

    6月21日,北京智源大会特色活动--启元星际AI顶级职业选手挑战赛在北京举行,启元AI"星际指挥官"以两个2:0的成绩击败了<星际争霸I/II>全国冠军黄慧明(TooD ...

最新文章

  1. 与SENet互补提升,华为诺亚提出自注意力新机制:Weight Excitation|ECCV2020
  2. 究竟使用什么样的万向轮?
  3. 求职必备技能:教你如何扒了公司的底裤!
  4. 分布式锁的实现与探索
  5. asp获取mysql数据报错_ASP.NET在删除掉数据库文件后报错处理
  6. 麒麟操作系统|Linux下低延时RTMP|RTSP直播播放实现
  7. 假期读书|《步履不停》读后感
  8. 新版本IntelliJ IDEA 构建maven,并用Maven创建一个web项目
  9. swagger map示例_Android Google Map Street View示例
  10. JDBC实现增删改查功能
  11. java超市管理系统ppt_基于java-web的超市管理系统毕业答辩ppt课件
  12. 里氏替换原则-正方形是长方形
  13. html超链接位置居中,html 标题 超链接 居中 换行 图片 新标签页
  14. 2020年的成长印记
  15. 永恒骑士 小程序服务器列表空,微信小程序一键登录应用服务器通过AES解密返回purePhoneNumber为空?...
  16. html中背景简写,css中background简写属性
  17. 设计模式之禅之单一职责原则
  18. 矩阵的三角分解(LU分解)
  19. 【python】采集**本子,不要看了,快进来~
  20. 好看的照片效果html,9款超绚丽的HTML5 3D图片动画特效

热门文章

  1. day19【前台】支付
  2. python fileinputstream_Java FileInputStream.available()方法示例
  3. openquery 如果执行存储过程_ORA-01502--记一次数据库索引失效导致执行存储过程出错...
  4. python 元类的call_通过 python的 __call__ 函数与元类 实现单例模式
  5. android 调用wcf json,使用 JSONP
  6. 电脑麦克风插孔是哪个_【教程】客所思kx2传奇版接电脑控制面板调试教程
  7. python条形码_python3转换code128条形码
  8. 扫地机器人滤网顺序_扫地机器人如何维护 扫地机器人维护技巧【介绍】
  9. React:创建用于获取数据的自定义Hook
  10. 单线程和多线程的区别