《强化学习周刊》第24期：CORL 2021强化学习的最新研究与应用

No.24

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。并且诸多研究成果发表于CORL 2021学术会议中，为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第24期《强化学习周刊》。本期周刊整理了CORL 2021中强化学习领域相关的最新论文推荐和新工具等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖、陈元

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步。人工智能顶会CORL 2021对强化学习取得了一系列瞩目的进展进行了发布，比如并行深度强化学习、无模型强化学习、逆强化学习、自监督强化学习、安全强化学习相关的理论及其最新应用等。

本次推荐了13篇CORL 2021强化学习领域的相关论文，主要涉及大规模并行深度强化学习、离线无模型强化学习、跨实体逆强化学习、基于平衡重放和Pessimistic Q-集成的离线到在线强化学习、基于独立可控子目标的自监督强化学习、基于扩展多任务机器人强化学习、零违规强化学习的无模型安全控制、基于习得技能的演示引导强化学习、机器人在限制条件范围内的强化学习、基于模型的安全强化学习等。

标题：Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning（使用大规模并行深度强化学习在几分钟内学会走路）了解详情

简介：本文提出并研究了一种训练设置，该设置通过在单个工作站 GPU 上使用大规模并行性来为现实世界的机器人任务实现快速策略生成。通过分析大规模并行机制中不同训练算法组件对最终策略性能和训练时间的影响。并且提出了一种新颖的游戏启发课程，非常适合与数千个模拟机器人并行训练。通过训练四足机器人 ANYmal 在具有挑战性的地形上行走来评估该方法。并行方法允许在 4 分钟内对平坦地形进行训练，而在不平坦地形上则需要 20 分钟。其代表了多个数量级的加速。最后，将本文的策略转移到真正的机器人以验证该方法，以帮助加速学习腿部运动领域的进一步研究。

论文地址：https://arxiv.org/pdf/2109.11978v1.pdf

标题：A Workflow for Offline Model-Free Robotic Reinforcement Learning（离线无模型机器人强化学习的工作流程）了解详情

简介：离线强化学习（RL）仅利用先前的经验，无需任何在线交互，即可实现学习控制策略。这可以让机器人从庞大而多样化的数据集中获得通用技能，而无需任何昂贵或不安全的在线数据收集。虽然离线 RL 方法可以从先验数据中学习，但没有明确和易于理解的过程来做出各种设计选择，从模型架构到算法超参数，而无需实际在线评估学习到的策略。本文的目标是开发一个使用离线RL的实用工作流程，类似于相对容易理解的用于监督学习问题的工作流程。为此，其设计了一套可在离线训练过程中跟踪的指标和条件，并可告知实践者应如何调整算法和模型架构以提高最终性能。该工作流程来源于对保守离线RL算法行为的概念性理解和监督学习中的交叉验证。在几个模拟机器人学习场景和两个不同的真实机器人上的三个任务中展示了该工作流在无需任何在线调整的情况下产生有效策略的有效性，重点是使用稀疏二进制奖励的原始图像观察来学习操作技能，该方法可以告知从业者应该如何调整算法和模型架构以提高最终性能。

论文地址：https://arxiv.org/pdf/2109.10813v2.pdf

标题：XIRL: Cross-embodiment Inverse Reinforcement Learning（XIRL：跨实体逆强化学习）了解详情

简介：本文研究了视觉跨实体模仿设置，其中智能体从其他智能体（例如人类）的视频中学习策略，演示相同的任务，但在他们的实施中存在明显差异——形状、动作、末端效应器动力学等。本文证明了可以从对这些差异具有鲁棒性的跨实体演示视频中自动发现和学习基于视觉的奖励函数。通过提出了一种跨实体逆强化学习 (XIRL) 的自我监督方法，利用时间周期一致性约束来学习深度视觉嵌入，这些嵌入可以从多个专家代理的离线演示视频中捕获任务进展，每个智能体执行相同的任务因实施例不同而不同。此前，从自监督嵌入产生奖励通常需要与参考轨迹对齐，这在明显的实施差异下可能难以获得。凭经验表明，如果嵌入了解任务进度，则在学习的嵌入空间中简单地取当前状态和目标状态之间的负距离作为强化学习训练策略的奖励是有用的。研究表明学习奖励函数不仅适用于训练期间看到的实施例，而且还可以推广到全新的实施例。此外，当将真实世界的人类演示转移到模拟机器人时，研究发现 XIRL 比当前的最佳方法更有效。

论文地址：https://arxiv.org/pdf/2106.03911.pdf

标题：Offline-to-Online Reinforcement Learning via Balanced Replay and Pessimistic Q-Ensemble （基于平衡重放和Pessimistic Q-集成的离线到在线强化学习）了解详情

简介：深度离线强化学习（RL）的最新进展使得从离线数据集中训练强大的机器人代理成为可能。然而，根据经过培训的智能体质量和所考虑的应用程序，通常需要通过进一步的在线交互来微调此类代理。在本文中，在微调过程中，状态-动作分布偏移可能导致严重的引导错误，从而破坏通过离线RL获得的良好初始策略。为了解决这个问题，提出了一个平衡重播方案，该方案对在线遇到的样本进行优先级排序，同时还鼓励使用来自离线数据集的接近策略样本。此外，利用离线悲观训练的多个Q函数，从而防止在初始训练阶段对新状态下的不熟悉动作过于乐观。所提出的方法提高了样本效率和微调机器人代理在各种移动和操纵任务上的最终性能。

论文地址：https://openreview.net/pdf?id=AlJXhEI6J5W

标题：Self-supervised Reinforcement Learning with Independently Controllable Subgoals （具有独立可控子目标的自监督强化学习）了解详情

简介：为了成功地处理具有挑战性的操作任务，自治代理必须学习多种技能，以及如何将它们结合起来。最近，通过利用环境中发现的结构来设定自己抽象目标的自监督代理在许多不同的任务中表现良好。特别是，其中一些用于学习合成多对象环境中的基本操作技能。但是，这些方法学习技能时不考虑对象之间的依赖关系。因此，所学的技能很难在现实环境中结合起来。论文提出了一种新的自监督代理，它估计环境组件之间的关系，并使用它们独立地控制环境状态的不同部分。此外，对象之间的估计关系可用于将复杂目标分解为兼容的子目标序列。通过使用该框架，agent可以在对象间关系不同的多对象环境中高效、自动地学习操作任务。

论文地址：https://openreview.net/pdf?id=TEQWRlncJVm

标题：S4RL: Surprisingly Simple Self-Supervision for Offline Reinforcement Learning in Robotics（S4RL：机器人离线强化学习的简单自我监督）了解详情

简介：离线强化学习建议在不与物理环境交互的情况下，从大量收集的数据集中学习策略。这些算法使我们能够从数据中学习有用的技能，然后将这些技能部署到真实环境中，在真实环境中，交互可能代价高昂或危险，例如自动驾驶或工厂。但是，脱机代理无法访问环境以收集新数据，因此只能在静态数据集上进行培训。本文研究了在状态空间上执行数据扩充的有效性，并研究了7种不同的扩充方案，以及它们与现有离线RL算法的关系。然后，将最佳数据性能增强方案与最先进的Q-学习技术相结合，并通过平滑学习的状态-动作空间来改进Q-网络的函数逼近。实验表明，在RL（S4RL）中使用这种令人惊讶的简单自我监控技术，我们在离线机器人学习环境以及基准数据集上显著改进了当前最先进的算法。

论文地址：https://openreview.net/pdf?id=8xC5NNej-l_

标题：Smooth Exploration for Robotic Reinforcement Learning （机器人强化学习的平滑探索）了解详情

简介：强化学习（RL）使机器人能够从与现实世界的互动中学习技能。在实践中，深度RL中使用的基于非结构化步长的探索——通常在模拟中非常成功——会在真实机器人上产生抖动的运动模式。由此产生的不稳定行为的后果是探测能力差，甚至对机器人造成损坏。本文通过使状态相关探索（SDE）适应当前的深度RL算法来解决这些问题。为了实现这种自适应，文章提出了对原始SDE的两个扩展，使用更一般的特征和周期性地重新采样噪声，这导致了一种新的探索方法——广义状态相关探索（gSDE）。论文在仿真、PyBullet连续控制任务和直接在三个不同的真实机器人上评估gSDE：肌腱驱动的弹性机器人、四足动物和RC车。gSDE的噪声采样间隔可以在性能和平滑度之间实现折衷，从而可以在不损失性能的情况下直接在真实机器人上进行训练。

论文地址：https://openreview.net/pdf?id=TSuSGVkjuXd

标题：Scaling Up Multi-Task Robotic Reinforcement Learning （扩展多任务机器人强化学习）了解详情

简介：通用机器人系统必须掌握大量的各种技能。虽然强化学习为获取个体行为提供了一个强大的框架，但获取每项技能所需的时间使得采用 RL 训练的通用机器人前景不容乐观。本文研究了大规模集体机器人学习系统如何同时获得一系列行为，跨任务共享探索、经验和表示。在此框架中，可以从先前学习的任务中不断实例化新任务，从而提高系统的整体性能和能力。为了实例化这个系统，本文开发了一个可扩展且直观的框架，用于通过用户提供的期望结果示例来指定新任务，设计一个用于数据收集的多机器人集体学习系统，该系统同时收集多个任务的经验，并开发一种可扩展且可推广的多任务深度强化学习方法-MT-Opt。本文展示了 MT-Opt 如何学习广泛的技能并在真实世界任务上训练和评估了此系统。

论文地址：https://openreview.net/pdf?id=p9Pe-l9MMEq

标题：A Constrained Multi-Objective Reinforcement Learning Framework （一个受约束的多目标强化学习框架）了解详情

简介：许多现实世界的问题，尤其是机器人技术，要求强化学习 (RL)中智能体学习的策略不仅要使环境回报最大化，还要满足约束条件。本文提出了一个解决此类问题的高级框架，该框架将环境奖励和成本视为单独的目标，并了解策略应该优化哪些目标才能满足约束条件。本文称之为并行学习偏好和策略（LP3）。通过对如何学习偏好以及如何优化给定偏好的策略做出不同的选择，本文可以获得现有的方法（例如，Lagrangian relaxation）并推导出具有更好性能的新方法。其中之一是学习一组满足约束的策略算法，在事先不知道确切的约束时非常有用。

论文地址：https://openreview.net/pdf?id=YeJaZBXlhPX

标题：Model-free Safe Control for Zero-Violation Reinforcement Learning （零违规强化学习的无模型安全控制）了解详情

简介：虽然深度强化学习 (DRL) 在各种连续控制任务中具有令人印象深刻的性能，但限制 DRL 在物理世界中应用的一个关键障碍是缺乏安全保证。DRL 智能体在训练期间持续满足硬性状态约束（称为安全规范）具有挑战性。另一方面，具有安全保证的安全控制方法已被广泛研究。然而，为了综合安全控制，这些方法需要明确的动力系统分析模型；但这些模型通常在 DRL 中不可用。本文提出了一种无模型安全控制策略来合成 DRL 智能体的保障措施，这将确保训练期间的零安全违规。尤其本文提出了一个隐式安全集算法，它仅通过查询黑盒动态函数来综合安全指标和随后的安全控制律。理论结果表明隐式安全集算法保证了安全集的前向不变性和有限时间收敛。本文在最先进的安全基准上验证了所提出的方法。

论文地址：https://openreview.net/pdf?id=UGp6FDaxB0f

标题：Demonstration-Guided Reinforcement Learning with Learned Skills （具有习得技能的演示引导强化学习）了解详情

简介：演示引导的强化学习 (RL) 是一种通过利用奖励反馈和一组目标任务演示来学习复杂行为的方法。演示引导 RL 的先前方法将每个新任务视为一个独立的学习问题，并尝试逐步遵循提供的演示，类似于人类试图通过跟踪演示者的确切肌肉运动来模仿完全看不见的行为。这种学习很慢，由于新行为通常不是完全看不见的：它们与之前学习的行为共享子任务。本文旨在利用这种共享的子任务结构来提高演示引导 RL的效率。首先从在许多任务中收集的大型离线先验数据集中学习一组可重用的技能。然后，本文提出了基于技能的演示学习 (SkiLD)，这是一种演示引导 RL 的算法，它通过遵循演示的技能而不是原始动作来有效地利用所提供的演示，显著提高了性能。本文验证了此方法在长距离迷宫导航和复杂机器人操作任务上的有效性。

论文地址：https://openreview.net/pdf?id=JSC4KMlENqF

标题: Robot Reinforcement Learning on the Constraint Manifold (机器人在限制条件范围内的强化学习)了解详情

简介: 由于许多实际问题，包括安全、机制限制和磨损等，在机器人技术中运用强化学习是非常有挑战性的。通常情况下，这些问题在机器人学习文献中没有被充分考虑。一个在现实世界中应用强化学习的关键问题是安全探索，这需要在整个学习过程中满足物理和安全约束。要在这样的安全环境中探索，利用诸如机器人模型和约束条件等已知信息，有利于提供更有力的安全保障。利用这些信息，本文提出了一种新的方法来有效地在模拟中学习机器人任务，同时满足学习过程中需要的约束条件。

论文地址：https://openreview.net/pdf?id=zwo1-MdMl1P

标题：Look Before You Leap: Safe Model-Based Reinforcement Learning with Human Intervention（先看后跳：有人类干预的基于模型的安全强化学习）了解详情

简介：安全已经成为将深度强化学习应用于现实世界系统的主要挑战之一。目前，纳入人类监督等外部知识是防止代理访问灾难性状态的唯一手段。在本文中提出了MBHI，一个基于模型的安全强化学习的新框架，它能确保状态层面的安全，并能有效地避免 "灾难性 "状态包括有效地避免 "局部 "和 "非局部 "的灾难。在MBHI中训练了一个监督学习的集合，以模仿人类的决策。与人类的决策过程类似，MBHI将在对环境执行行动前在动力学模型中推出一个想象的轨迹，并估计其安全性。当预估会遇到灾难时，MBHI将阻止当前的行动，并使用有效的MPC方法来输出安全策略。本文在多个安全任务上进行评估，结果显示MBHI在样本效率和灾难数量方面取得了更好的性能。

论文地址：https://openreview.net/pdf?id=oqZrUx-PRqb

新工具

SCAPE：从增强位置控制经验中学习刚度控制了解详情

简介：本文引入了一种样本高效的方法，用于学习用于灵巧操作的状态相关刚度控制策略。通过提供对不确定性的遵从性和鲁棒性，控制刚度的能力有助于安全可靠的操纵。目前大多数实现机器人操作的强化学习方法都专注于位置控制，其通常是由于难以学习高维刚度控制策略。这种困难可以通过模仿学习等政策指导来部分缓解。然而，专家刚度控制演示通常很昂贵或无法记录。故本文提出了一种从增强位置控制经验 (SCAPE) 中学习刚度控制的方法，该方法通过将位置控制演示转换为近似的、次优的刚度控制演示来绕过这一困难。然后，通过使用互补技术来帮助智能体安全地从演示和强化学习中学习，从而解决增强演示的次优问题。通过在机器人测试台上使用模拟工具和实验，研究表明所提出的方法有效地学习了安全操作策略，并且优于学习的位置控制策略和其他几种基线学习算法。

论文地址：

https://arxiv.org/pdf/2102.08442v2.pdf

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第24期：CORL 2021强化学习的最新研究与应用相关推荐

【组队学习】【24期】Datawhale组队学习内容介绍
第24期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: 零基础入门语音识别(食物声音识别) Docker教程数据挖掘实践(智慧海洋) 集成学习(中) 河北邀请赛(二手车价 ...
麻省、北大、清华等顶尖高校与企业 20 位强化学习专家齐聚，RLChina 2021 强化学习暑期课免费报名啦！
2016 年,AlphaGo 宛然横空出世,凭借精湛的棋艺接连战胜韩国围棋九段棋手李世石.中国围棋九段棋手柯洁之后,更是以 60 局无败绩的成绩轰动整个科技圈,人工智能的新纪元也因此开启.站在技术角度 ...
麻省、北大、清华等顶尖高校与企业 20 位强化学习专家齐聚，RLChina 2021 强化学习暑期课免费报名啦！...
2016 年,AlphaGo 宛然横空出世,凭借精湛的棋艺接连战胜韩国围棋九段棋手李世石.中国围棋九段棋手柯洁之后,更是以 60 局无败绩的成绩轰动整个科技圈,人工智能的新纪元也因此开启.站在技术角度 ...
深度学习算法(第37期)----如何用强化学习玩游戏？
上期我们一起学习了强化学习中的时间差分学习和近似Q学习的相关知识, 今天我们一起用毕生所学来训练一个玩游戏的AI智能体. 由于我们将使用 Atari 环境,我们必须首先安装 OpenAI gym 的 ...
【码云周刊第 24 期】超实用 Andorid 开发实例
为什么80%的码农都做不了架构师?>>> ##码云项目推荐 1.项目名称:开源中国 Android 客户端 **项目简介:**这是 OSCHINA 官方开发的 Android ...
【组队学习】【24期】集成学习（中）
集成学习(中) 开源内容: https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearni ...
【组队学习】【24期】零基础入门语音识别（食物声音识别）
零基础入门语音识别(食物声音识别) 开源内容: https://github.com/datawhalechina/team-learning-nlp/tree/master/FoodVoiceRec ...
【组队学习】【28期】Datawhale组队学习内容介绍
第28期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: 吃瓜教程--西瓜书+南瓜书李宏毅机器学习动手学数据分析集成学习 SQL编程语言 R语言数据科学基于Pytho ...
【组队学习】【29期】Datawhale组队学习内容介绍
第29期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: 编程实践(数据可视化) 计算机视觉自然语言处理之情感分析吃瓜教程--西瓜书+南瓜书李宏毅机器学习(含深度学习) ...

《强化学习周刊》第24期：CORL 2021强化学习的最新研究与应用

《强化学习周刊》第24期：CORL 2021强化学习的最新研究与应用相关推荐

最新文章

热门文章