问耕 编译整理

OpenAI发布了一项新的机器人技术。

研究人员完全在仿真模拟环境中对机器人控制器进行训练,然后把控制器直接应用在实体机器人身上,通过这种方式让机器人在执行简单任务时,可以应对外界环境预料之外的变化。OpenAI已经用这一技术构建了闭环系统,取代原来的开环系统。

这个模拟器不需要匹配现实世界的情况,相反,OpenAI对相关环境采用了随机化的设置,包括摩擦力、动作延迟、传感器噪声等。这项研究表明,通用机器人可以在完全仿真模拟的环境中进行训练,只需要在现实世界中进行少量的自校准。

上面这个视频中,就是一个使用动态随机进行过模拟训练的机器人,任务就是把一个冰球推到目标点。尽管在真实世界中,研究人员在冰球上绑了一个袋子,改变了冰球的滑动性能,但机器人仍然能完成目标。

动态随机

OpenAI开发出了动态随机来训练机器人适应现实世界位置的动态变化。在训练过程中,研究人员随机抽取一组95个属性来定义环境动态,比如改变机器人身体各个部分的质量、改变操作对象的摩擦力和阻尼、置物台的高度、行动延迟观察噪音等等。

研究人员使用这种方法,训练了一个基于LSTM的策略,用以把冰球在桌子上推来推去。前馈网络在这个任务中失败了,而LSTM可以应用过去的观察,来分析世界的动态并相应的调整自己的行为。

从视觉到行动

OpenAI还是用了强化学习(RL)在模拟器中对机器人进行端到端的训练,并把得到的策略应用于一个实体机器人。这套系统不需要特殊传感器的帮助,就能把视觉直接映射到动作,并且可以根据视觉反馈进行调整。

这是机器人的相机视角。抓取方块的策略,使用了端到端的视觉到动作训练。在模拟情况下,夹子会随着方块的下滑而略微上移,以保持方块的位置。常见的RL算法,只能在扰动较小的情况下起效。

就在这个抓取任务上,OpenAI花了好几个月的时间来尝试传统的RL算法,但最终研究人员开发出一套新的算法:Hindsight Experience Replay (HER)。

HER的实现使用了不对称信息的actor-critic(演员-批评家)技术。演员是一个策略,批评家评估状态,并向演员发出训练信号。批评家可以获得完整的模拟器状态,演员只能访问RGB和深度信息,也就是现实世界中存在的数据。

成本

新的尝试增加了计算需求。动态随机让训练速度降低了3倍,而从图像学习而不是状态,让训练时长增加了5-10倍。

OpenAI认为有三种构建通用机器人的方法:训练大量的物理机器人、让模拟器不断接近真实世界、随机化模拟器然后把模型应用到真实世界。OpenAI的研究人员指出,他们越来越觉得第三种方式将是最重要的解决方案。

OpenAI在最后的视频中,展示了用简单的前馈网络在模拟器中训练的机器人,它无法适应真实世界,完成和模拟器中一样的任务。

关于这项研究的详情,OpenAI最近在arXiv上公布了两篇论文:

Sim-to-Real Transfer of Robotic Control with Dynamics Randomization

https://arxiv.org/abs/1710.06537

Asymmetric Actor Critic for Image-Based Robot Learning

https://arxiv.org/abs/1710.06542

OpenAI博客原文:https://blog.openai.com/generalizing-from-simulation/

OpenAI探索机器人模拟训练新方法:仿真与真实世界无缝衔接相关推荐

  1. 探索处理数据新方法,8 个重点搞懂云数据库 DBaaS 到底是什么!

    作者| Rohan Wadiwala.Mangesh More 翻译 | 天道酬勤,编辑 | Carol 出品| CSDN云计算(ID:CSDNcloud) 在分析的世界中,网站的每次点击都是数据分析 ...

  2. 探索处理数据的新方法,8 个重点带你搞懂云数据库——DBaaS(数据库即服务)到底是什么!...

    作者| Rohan Wadiwala.Mangesh More 翻译 | 天道酬勤,编辑 | Carol 出品| CSDN云计算(ID:CSDNcloud) 在分析的世界中,网站的每次点击都是数据分析 ...

  3. 数学模型天气预测方法_预测即将到来的天气的新方法

    数学模型天气预测方法 By: Teja Balasubramanian 创建人:Teja Balasubramanian A new wave arises. Computer programming ...

  4. UTA研究团队提出首个3D点云+GAN新方法,让机器人“眼神”更犀利 | AI日报

    韩国NAVER AI LAB重新标注128万张ImageNet图片:多标签,全面提升模型性能 ImageNet是机器学习社区最流行的图像分类基准数据集,包含超过1400张标注图像.该数据集由斯坦福教授 ...

  5. OpenAI公布强化学习新算法,可控制复杂机器人

    近日,OpenAI 发布了一种新型的强化学习算法:近端策略优化(Proximal Policy Optimization,简称 PPO),这种算法不但在性能上比肩甚至超过当前最先进的方法,而且更容易实 ...

  6. 无副作用、效果超越吗啡!用微电极精准管理大脑“疼痛中心”,科学家探索止痛新方法...

    来源:大数据文摘本文约1900字,建议阅读5分钟 本文为你介绍了科学家探索止痛的最新方法. 从古至今,人类一直在寻求合适的方式对抗疼痛.为了减轻疼痛,人们经常求助于传统的止痛药.不过,这些药物往往伴随 ...

  7. 强化学习新方法,让后空翻回旋踢再也难不倒机器人 | 伯克利论文

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 波士顿动力人形机器人的后空翻技能亮相时,惊艳了全球群众. 这么复杂的动作,不用说现实世界中的机器人,就算是在模拟器里,学起来也非常的难. 现 ...

  8. 莫尔条纹三维测量仿真matlab,利用莫尔条纹测量物体三维形貌新方法研究

    第 37 卷第 7 期 2008 年 7 月 光 子 学 报 ACTA PHOTONICA SINICA Vol. 37 No. 7 July 2008 3陕西省教育厅专项科研计划(05J K221) ...

  9. 相机成像原理_【科研进展】动态虚拟相机:探索三维视觉成像新方法

    由于微信公众号试行乱序推送,您可能没办法准时收到"爱光学"的文章.为了让您第一时间看到"爱光学"的新鲜推送, 请您: 1. 将"爱光学"点亮 ...

最新文章

  1. bug诞生记——临时变量、栈变量导致的双杀
  2. 专访郭霖:成长无止境
  3. [moka同学笔记]redis练习Demo
  4. rhel6多台主机的HA集群,并实现增加仲裁盘和共享存储
  5. love2d杂记9--光照效果
  6. 算法:删除数组中的重复项
  7. 计算整数n的b进制展开式
  8. [zz]NoSQL对比:Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Membase vs Neo4j
  9. VC的文件路径为什么要用双斜杠
  10. matplotlib图表介绍
  11. 关于三星某些系列笔记本电脑无法安装Windows10的原因及解决办法
  12. opencv库skimage 实现Canny边缘探测算法
  13. Repeater 中如何绑定计算列的值
  14. 手电筒安卓_王思聪吃热狗数字时钟app安卓android苹果ios
  15. IOS逆向-静态分析
  16. C# 关于winFrom控制网页的自动登录的问题(网页刷屏器的制作原理)
  17. IOS苹果账号三方登录服务器端验证
  18. 大数据时代,你应该具备的大数据思维
  19. 项目管理挣值分析应用
  20. chart.js基本知识——调整图表尺寸

热门文章

  1. mcs 4微型计算机,MCS-II高性能自主品牌的微机测速仪
  2. 用专业的说一句情话 计算机,用电脑专业说一句情话
  3. 云计算Python自动化运维开发实战 三、python文件类型
  4. java夯实基础:final脑图
  5. 在深谈TCP/IP三步握手四步挥手原理及衍生问题—长文解剖IP
  6. C#Redis列表List
  7. Mysql数据库权限问题
  8. 基于Atmega8单片机的串口收发程序
  9. NGUI_Depth
  10. Vue.js 2.0 学习重点记录