简笔小人

视频中的简笔小人似乎似乎在进行一场激烈的跑酷比赛，它的身型、周围的地形以及障碍物都是变化的。小人需要自学奔跑、跳跃、蹲伏等姿势，找到从A到B的最佳穿越方式。

研究人员赋予了智能体一组虚拟传感器，传感器告诉智能体有没有走歪，并激励它前进。智能体需要根据传感器的指示自己探索和修正错误，尝试不同的通过方法。

这个智能体背后，是DeepMind团队在探索怎样将强化学习应用在教智能体适应陌生且复杂的环境。

这项研究成果也被同步发表到arXiv上，DeepMind将论文命名为《Emergence of Locomotion Behaviours in Rich Environments》，由Nicolas Heess, Dhruva TB, Srinivasan Sriram等12名DeepMind研究人员完成。

论文介绍

一般来说，强化学习（Reinforcement Learning）让智能体在奖励中直接学习复杂行为。但在通常情况下，强化学习训练的运动非常脆弱，在陌生环境中很容易崩溃，不知下一步应如何移动。

就像婴儿适应了家里的楼梯后，再把他放在电动扶梯上，他就不知如何是好了。

一般的强化学习需要研究人员仔细地设计很多特定的奖励机制。

但DeepMind研究人员仅仅给予智能体一个奖励行为，那就是前进。

他们用单一的奖励机制配合丰富的环境，让智能体学习运动。运动行为对奖励的设置非常敏感，但结果显示，智能体在各种环境中都表现良好。

也就是说，DeepMind的智能体不依赖多种奖励，而是通过丰富的环境，如地形与障碍学习复杂行为。

通过这种新奇的可扩展策略梯度增强学习变体，智能体在没有明确环境奖励引导的情况下，也可以跑步、跳跃、蹲伏和转弯。

强化学习算法

为了使智能体在这些富有挑战的环境中有效学习，必须有一个可靠的可拓展强化学习算法。因此，DeepMind用了几组方法组合完成了这项任务。

这项任务不仅需要基于强大的策略梯度算法，如信赖域策略优化（TRPO）和近似策略优化（PPO）置信区间的参数更新，来确保稳定性。

其次，还要像广泛使用得A3C算法等相关方法一样，需要在很多并行智能实例和环境上分配计算。

最后，附上论文地址：

https://arxiv.org/pdf/1707.02286.pdf

【完】

本文作者：安妮

原文发布时间：2017-07-11

DeepMind智能体自学跑酷：略显智障，结果尚好相关推荐

RVO：实时多智能体导航的交互速度避障
原文地址:https://www.researchgate.net/publication/221073351_Reciprocal_Velocity_Obstacles_for_Real-Time_ ...
【控制】《多智能体系统的协同群集运动控制》陈杰老师-第5章-基于骨干网络的多智能体系统群集运动与避障控制
第4章回到目录第6章第5章-基于骨干网络的多智能体系统群集运动与避障控制 5.1 研究背景 5.2 预备知识 5.2.1 问题描述运动方程 (5.1) 5.2.2 流体力学基础可压缩性黏性 ...
逆水linux决服务器搭建教程,【教程攻略】智障式Linux服务器搭建教程
该楼层疑似违规已被系统折叠隐藏此楼查看此楼打开文件夹目录下的/date/server-settings.example.json文件,可以用word打开. 这是服务器的设置文件 { "n ...
《多智能体博弈学习研究进展--罗俊仁，张万鹏》论文笔记
目录一.引言二.多智能体学习简介 2.1多智能体学习系统组成 2.2 多智能体学习概述 2.3 多智能体学习研究方法分类三. 多智能体博弈学习框架 3.1 多智能体博弈基础模型及元博弈 3.1. ...
【控制】《多智能体系统的协同群集运动控制》陈杰老师-目录
无回到目录第1章跳转链接章节跳转链接第1章绪论第2章连通性保持条件下多智能体系统群集运动控制第3章基于代数连通度估计的多智能体系统群集运动控制第4章连通性保持下多移动机器人群 ...
中科院自动化所利用光学定位系统实现多智能体编队避障
协同控制提高智能体系统鲁棒性,编队避障是重点随着工业技术的发展,任务复杂程度和规模逐渐增加,单个智能体获取信息及解决问题的能力有限,在多数情况下无法满足任务要求.而多智能体系统强调单体之间的合作与协 ...
喂，315吗？我花299元买到一只人工智障！
2017年,AlphaGO刷爆朋友圈:碳基围棋天才柯洁居然输给了硅基计算机.这让"人工智能"迅速走红,进入公众视野. 人工智能为何这么强?2019年,距离充满人工智能设备的未来还有 ...
人工智能还是人工智障？我tm快崩溃了
哈喽,中生代的浪花们中午好随着科技的发展现在大家或多或少都会使用一些人工智能产品大到扫地机器人,小到智能音箱.Siri 但人工智能并不能保证永远「智能」它们也有「智障」的时候更别说 Sir ...
北京智源大会 | 启元AI战胜中国星际冠军，智能体激发人类探索未知
6月21日,北京智源大会特色活动--启元星际AI顶级职业选手挑战赛在北京举行,启元AI"星际指挥官"以两个2:0的成绩击败了<星际争霸I/II>全国冠军黄慧明(TooD ...

DeepMind智能体自学跑酷：略显智障，结果尚好

简笔小人

论文介绍

强化学习算法

DeepMind智能体自学跑酷：略显智障，结果尚好相关推荐

最新文章

热门文章