《强化学习周刊》第11期：强化学习应用之模拟到真实

No.11

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，它在模拟到真实领域中的应用研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第11 期《强化学习周刊》。本期周刊整理了近期强化学习在模拟到真实相关的最新论文推荐、资讯、研究综述、新工具等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、陈斌

论文推荐

近年来，强化学习取得了令人瞩目的成就，将其应用于模拟到真实领域也取得较大的进步。强化学习中，模拟环境与实际环境进行不断的交互，基于环境的反馈学习如何选择一系列动作，以使长期累积的奖励和最大。近年来，该方向已经取得了一系列瞩目的进展，比如机器人领域准确和精确的地形估计、基于物理的强化学习任务可以从简化的物理模拟器中受益、双向领域自适应等。故将强化学习应用于模拟到真实领域具有较大的优势。

强化学习在模拟到真实领域中的应用越来越多，其在机器人、视觉等方面都有了深入的应用。本次推荐了8篇强化学习在模拟到真实领域应用的相关论文，主要涉及到双足机器人运动、图像转换、物理模拟器、机器人导航、视觉自动飞行等。

标题：Blind Bipedal Stair Traversal via Sim-to-Real Reinforcement Learning（基于Sim-to-Real 强化学习的盲双足楼梯穿越）了解详情

简介：准确和精确的地形估计是机器人在现实环境中运动的一个难题。因此，使系统不依赖于对脆弱点的准确估计是极其重要的。本文通过研究在没有任何外部感知或双足机器人地形模型的情况下穿越类似楼梯地形的问题，来探索这种方法的局限性。对于这样的盲双足平台，由于海拔的突然变化，这个问题显得很困难（即使对人类也是如此）。本文主要贡献是证明了模拟到真实的强化学习可以在双足机器人Cassie上仅使用本体感知反馈就可以实现在阶梯状地形上的鲁棒运动。重要的是，其只需要修改现有的平坦地形训练RL框架，以包括阶梯状地形随机化，而无需改变任何奖励函数。据悉，这是第一个能够仅使用本体感觉可靠地穿越各种现实世界的楼梯和其他类似楼梯的干扰的双足、人类规模机器人的控制器。

论文地址：https://arxiv.org/pdf/2105.08328.pdf

标题：DeepWalk: Omnidirectional Bipedal Gait by Deep Reinforcement Learning（DeepWalk：基于深度强化学习的全方位双足步态）了解详情

简介：准确和精确的地形估计是机器人在现实环境中运动的一个难题。因此，使系统不依赖于对脆弱点的准确估计是极其重要的。本文通过研究在没有任何外部感知或双足机器人地形模型的情况下穿越类似楼梯地形的问题，来探索这种方法的局限性。对于这样的盲双足平台，由于海拔的突然变化，这个问题显得很困难（即使对人类也是如此）。本文主要贡献是证明了模拟到真实的强化学习可以在双足机器人Cassie上仅使用本体感知反馈就可以实现双足行走是机器人领域中最困难但最令人兴奋的挑战之一。其困难源于高维动力学、传感和驱动限制以及实时和计算约束的复杂性。深度强化学习 (DRL) 有望通过以极简的技艺充分利用机器人动力学来解决上述问题。基于此，本文提出了一种基于真实机器人模型的仿人机器人全方位行走控制策略的新颖的 DRL 方法，使代理能够学习仿人（双足）机器人的全方位运动。值得注意的是，运动行为是由单个控制策略（单个神经网络）完成的。为此，本文通过引入一种新的课程学习方法来实现这一目标，该方法通过设定目标速度以逐渐增加任务难度。此外，该方法不需要参考运动，有助于将其应用于具有不同运动学的机器人，并降低了整体复杂度。最后，本文提出了模拟到真实迁移的不同策略，以将学习到的策略迁移到真实的仿人机器人上。

论文地址：https://arxiv.org/pdf/2106.00534.pdf

标题：Optical Tactile Sim-to-Real Policy Transfer via Real-to-Sim Tactile Image Translation（基于 Real-to-Sim 触觉图像转换实现光学触觉 Sim-to-Real 策略迁移）了解详情

简介：最新研究表明，模拟已成为深度强化学习从视觉和本体感受输入中安全有效地获取一般和复杂控制策略的关键。尽管触觉信息与环境交互直接相关，但通常不会考虑触觉信息。本文提出了一种针对触觉机器人和强化学习量身定制的模拟环境。提供了一种简单快速的光学触觉传感器模拟方法，将高分辨率的接触几何图形表示为深度图像。并将近端策略优化 (PPO) 用于学习跨所有考虑任务的成功策略。数据驱动的方法能够将真实触觉传感器的当前状态转换为相应的模拟深度图像。该策略在物理机器人的实时控制回路中实现，以演示在多个需要触觉的物理交互任务上的实现零样本sim-to-real策略迁移。

论文地址：https://arxiv.org/pdf/2106.08796.pdf

标题：Cat-like Jumping and Landing of Legged Robots in Low-gravity Using Deep Reinforcement Learning（基于深度强化学习的腿式机器人低重力类猫跳跃与着陆）了解详情

简介：本文证明了无模型的学习策略可用于解决具有广泛飞行阶段的腿部运动控制任务，而目前还没有其他可用的解决方案。例如在太空探索中遇到的任务中使用一种现成的深度强化学习算法，以训练一个神经网络来控制跳跃的四足机器人，同时仅使用其四肢进行姿态控制。本文通过越来越复杂的任务，使四足机器人穿越模拟低重力天体的三维（重新）定向和着陆运动行为的组合。研究结果表明，该方法可以轻松地推广至这些复杂任务，并成功地为每种情况训练策略。进而使用模拟到真实的迁移，将训练好的策略部署到实际环境中的SpaceBok机器人（该机器人放置在一个为二维微重力实验设计的实验台上）。实验结果表明，该方法使机器人具有自然敏捷性的重复、控制跳跃和着陆成为可能。

论文地址：https://arxiv.org/pdf/2106.09357.pdf

标题：Intuitive Physics Guided Exploration for Sample Efficient Sim2real Transfer （直观的物理指导探索高效的Sim2real传输）了解详情

简介：基于物理的强化学习任务可以从简化的物理模拟器中受益，因为它们有可能允许在模拟中学习接近最优的策略。但是，此类模拟器需要准确指定关联对象的潜在因子（质量，摩擦系数等）及其环境的因子（风速，空气密度等），否则，可能会花费大量额外的时间学习努力使学习的模拟策略适应实际环境。由于这样一个完整的规范可能是不切实际的，因此本文研究重点为学习指定任务的潜在因素估计，这些潜在因素允许在理想的仿真环境中逼近真实世界的轨迹。具体提出了两个新概念：a）动作分组-某些动作类型与潜在因素的估计紧密相关；以及 b）部分实际-指定任务的动态仿真可能不需要精确估计所有潜在因素。首先介绍基于人类物理知识和经验的直观动作分组，然后将其用于设计与真实环境进行交互的新颖策略。接下来，描述给定环境中使用先验知识来提取不同潜在因素的相对重要性，以及将其用于部分基础知识，从而使模型在任意环境中高效学习任务。

论文地址：https://arxiv.org/pdf/2104.08795.pdf

标题：Bi-directional Domain Adaptation for Sim2Real Transfer of Embodied Navigation Agents（双向域自适应，用于实现导航代理的Sim2Real传输）了解详情

简介：深度强化学习模型需要大量数据，而获取真实世界的数据既昂贵又耗时。许多人寻求的解决方案是在实际环境中部署机器人之前，先使用仿真进行训练。仿真提供了并行训练大量机器人的能力，并提供了大量数据。然而，没有一个模拟是完美的，仅接受模拟训练的机器人无法推广到现实世界，从而导致“模拟与实际之间的差距”。我们如何克服模拟器中大量不准确的人工数据与可靠的现实数据之间的权衡？本文提出了双向域自适应（BDA），这是一种桥接双向sim-vs-real间隙的新颖方法，real2sim 弥合视觉领域的差距，以及 sim2real弥合动力学领域的鸿沟。文章展示了BDA在PointGoal导航任务中的优势。

论文地址：https://arxiv.org/pdf/2011.12421v2.pdf

标题：Sim2Real Transfer for Reinforcement Learning without Dynamics Randomization（Sim2Real Transfer用于无需动态随机化的强化学习）了解详情

简介：本文展示了如何在联合和笛卡尔约束下使用操作空间控制框架（OSC）在笛卡尔空间中进行强化学习。本文提出的方法能够快速学习并且具有可调整的自由度，同时能够在不增加KUKA LBR 钉入式井内任务动态随机性的情况下传输策略。在开始学习模拟之前，我们将执行系统识别，以使模拟环境尽可能与真实机器人的动力学保持一致。在OSC控制器上增加约束，使我们能够在真实的机器人上以安全的方式学习或学习灵活的，目标条件化的策略，该策略可以轻松地从仿真转移到真实的机器人。

论文地址：https://arxiv.org/pdf/2002.11635.pdf

标题：Generalization through Simulation: Integrating Simulated and Real Data into Deep Reinforcement Learning for Vision-Based Autonomous Flight（通过模拟泛化:在视觉自动飞行强化学习中集成模拟和真实数据）了解详情

简介：本文来自于伯克利研究院。其提出了一种使用模拟器和有限的控制策略来学习可归纳的的方法，使用模拟器和有限的的现实世界的数据。通过模拟进行概括的方法使用模拟器学习指定的任务模型，然后将感知层转移到一个有效的样本。其中，动作是奖励预测器，该预测器是在真实世界的数据上训练的。研究结果表明该方法能够在现实世界的数据上训练出有效的奖励预测器。通过模拟进行归纳的关键思想是使用模拟来学习如何归纳，而使用现实世界的数据来调整模拟模型以适应真实世界的动态变化。该领域可进一步研究用于现实世界的机器人学习，特别是基于视觉的自主飞行。

论文地址：https://arxiv.org/pdf/1902.03701.pdf

研究动态

DeepMind最新论文：强化学习“足以”达到通用人工智能了解详情

简介：该研究由 DeepMind 首席研究科学家、伦敦大学学院教授 David Silver 领衔，研究灵感源自对自然智能的进化研究以及人工智能的最新成就，在撰写论文时仍处于预证明阶段。研究人员认为，奖励最大化和试错经验足以培养表现出与智力相关的能力行为。此外，来自 DeepMind 的科学家在提交给同行评议的期刊《人工智能》（Artificial Intelligence）上的一篇题为 “Reward is enough” 的论文中认为，人工智能及其相关能力不是通过制定和解决复杂问题而产生的，而是通过坚持一个简单而强大的原则：奖励最大化。由此，他们得出结论，强化学习是基于奖励最大化的人工智能分支，可以推动通用人工智能的发展。

综述

基于机器人深度强化学习的模拟到真实迁移：综述了解详情

简介：深度强化学习最近在机器人领域中的多个领域取得了巨大成功。由于收集真实世界数据的局限性，即样本效率低和收集成本高，因此利用模拟环境训练不同的代理。这不仅有助于提供潜在的无限数据源，而且还减轻了对真实机器人的安全问题。然而，当模型被迁移到真实的机器人时，模拟环境和真实环境的差距就会降低策略的性能。因此，目前诸多研究工作正致力于缩小此差距，实现更有效的策略迁移。近年来，出现了适用于不同领域的多种方法，但尚未有一个全面的综述总结不同的方法。这篇综述性论文介绍了深度强化学习中从模拟到真实迁移的基本背景，并综述了目前使用的主要方法：领域随机化、领域适应性、模仿学习、元学习和知识提炼等。并对一些最相关的最新工作进行了分类，概述了主要的应用场景。最后，本文讨论了不同方法的主要机遇和挑战，并指出了最有前景的方向。

新工具

一个基于Pybullet的开源多目标强化学习机器人操纵环境了解详情

简介：这项工作重新实现了OpenAI Gym的多目标机器人操纵环境。此操纵环境最初基于商业的Mujoco引擎，在开源的Pybullet引擎上重新实现。通过比较 "后知后觉 "经验回放辅助的深度确定性策略梯度智能体在两种环境中的表现，他们证明了他们对原始环境的成功重新实现。此外，他们为用户提供了新的API，以访问联合控制模式、图像观察和具有可定制的相机及内置的手持相机目标。他们进一步设计了一套多步骤、多目标、长跨度和稀疏奖励的机器人操纵任务，旨在激发新的以目标为条件的强化学习算法来应对这种挑战。他们使用一个简单的、基于人类优先权的课程学习方法来衡量多步骤的操纵任务。他们还讨论了关于此类任务的未来研究机会。

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第11期：强化学习应用之模拟到真实相关推荐

深度学习算法(第5期)----深度学习中的优化器选择
欢迎关注微信公众号"智能算法" – 原文链接(阅读体验更佳): 深度学习算法(第5期)----深度学习中的优化器选择上一期,我们一起学习了TensorFlow在训练深度网络的时候 ...
【码云周刊第 11 期】追踪代码大仓库？ Git 的拿手好戏！
为什么80%的码农都做不了架构师?>>> 一周热门资讯回顾 ActFramework 1.0 正式发布, Java MVC 框架 TIOBE 3 月编程语言排行榜:Swift ...
《敏捷个人》周刊第11期（可下载）
#敏捷个人# 每日成长101:第55天如今我们的社会交流形式更为丰富,但是带给我们更多的是孤独.孤独是一种存在状态,人的孤独感是现在社会的一种普遍存在.谈到孤独,也许你会想到那些孑然一身,儿女不在 ...
深度学习三人行(第5期)----深度学习中的优化器选择
上一期,我们一起学习了TensorFlow在训练深度网络的时候怎么解决梯度消失或梯度爆炸的问题,以及怎么尽可能的减少训练时间. 深度学习三人行(第4期)---- TF训练DNN之进阶这期我们继续学习 ...
开源大数据周刊-第11期
摘要: 开源有四个阶段:拥抱开源.回馈开源.融合开源.回报开源阿里云E-Mapreduce动态 E-Mapreduce团队 1.3.3版本 (已经发布) 商业化发布,用户无需申请即可使用E-MapR ...
阿里云前端周刊 - 第 11 期
推荐 1. JavaScript 模块现状 https://zhuanlan.zhihu.com/p/26567790 最近在 twitter 上有很多关于 ES Module 现状的讨论,尤其是在 ...
深度学习算法(第37期)----如何用强化学习玩游戏？
上期我们一起学习了强化学习中的时间差分学习和近似Q学习的相关知识, 今天我们一起用毕生所学来训练一个玩游戏的AI智能体. 由于我们将使用 Atari 环境,我们必须首先安装 OpenAI gym 的 ...
《因果学习周刊》第9期：因果学习中的工具变量
No.09 智源社区因果学习组因果学习研究观点资源活动关于周刊因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
深度学习三人行(第8期)----卷积神经网络通俗原理
上一期,我们一起学习了深度学习中如何避免过拟合, 深度学习三人行(第7期)----深度学习之避免过拟合(正则化) 接下来我们一起学习下网红网络之卷积神经网络(CNN),我们多多交流,共同进步.本期主要 ...
深度学习三人行(第10期)----CNN经典网络之LeNet-5和AlexNet
上一期,我们一起学习了深度学习卷积神经网络中的代码实现,内存计算以及池化层的原理等, 深度学习三人行(第9期)----卷积神经网络实战进阶(附代码) 接下来我们一起学习下关于CNN中比较经典的网络Le ...

《强化学习周刊》第11期：强化学习应用之模拟到真实

《强化学习周刊》第11期：强化学习应用之模拟到真实相关推荐

最新文章

热门文章