《强化学习周刊》第18期：ICML-2021强化学习的最新研究与应用

No.18

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。并且诸多研究成果发表于ICML-2021学术会议中，为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第18期《强化学习周刊》。本期周刊整理了ICML-2021中强化学习领域相关的最新论文推荐和新工具等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明，刘青，小会

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步。人工智能顶会ICML-2021对强化学习取得了一系列瞩目的进展进行了发布，比如约束惩罚强化学习、基于部分可观测马尔科夫决策过程强化学习相关的理论及其最新应用等。

本次推荐了11篇ICML-2021强化学习领域的相关论文，主要涉及基于安全离线强化学习和基于稀疏奖励的约束强化学习、基于表征的强化学习、基于部分可观测马尔科夫决策过程强化学习、基于不确定性加权的Actor-Critic离线强化学习、基于约束不匹配的策略加速安全强化学习、基于彩虹算法的深度强化学习、基于深度强化学习的知识迁移等。

标题：Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning（基于安全离线强化学习的约束惩罚Q学习）了解详情

简介：本文研究了安全离线强化学习(RL) 的问题，其目标是通过学习一种策略，在满足仅给定离线数据的情况下最大化长期奖励，且同时满足安全约束，而无需与环境进一步交互。此问题对真实环境中的 RL 应用更具吸引力，因为实际应用中数据收集成本高昂或危险。强制约束满足非常重要，尤其是在离线设置中，因为策略分布和数据分布之间存在潜在的巨大差异，从而导致估计安全约束值时出现错误。研究表明，结合安全 RL 和离线 RL 技术的简单方法只能学习次优解决方案。因而，本文提出了一个简单而有效的算法，约束惩罚 Q-学习（CPQ）来解决此问题。该方法允许使用由混合行为策略生成的数据。此外，本文还提出了一个理论分析，并凭经验证明该方法可以在各种基准控制任务中稳健地学习，且优于多个基线。

论文链接：https://arxiv.org/pdf/2107.09003.pdf

标题：Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks（基于稀疏奖励任务的最短路径约束强化学习）了解详情

简介：本文提出了k-最短路径（k-SP）约束：一种对agent轨迹的新约束，它提高了稀疏奖励在MDP中的样本效率。研究证明了任何最优策略都必须满足k-SP约束。值得注意的是，k-SP约束阻止策略沿非k-SP轨迹探索状态-动作对（例如，来回）。然而，在实践中，排除状态-动作对可能会阻碍RL算法的收敛。为了克服此问题，本文提出了一种新颖的成本函数来惩罚违反策略的SP约束，而不是完全排除它。在表格RL环境中的数值实验表明，SP约束可以显著减少策略的轨迹空间。因此，该约束通过抑制冗余探索和开发，实现了更有效的样本学习。在MiniGrid、DeepMind Lab、Atari和Fetch上的实验表明，所提出的方法显著改进了近端策略优化（PPO），并优于现有的新颖性探索方法，包括基于计数的探索，即使在连续控制任务中，表明它通过防止智能体执行冗余动作来提高采样效率。

论文链接：https://arxiv.org/pdf/2107.06405.pdf

标题：RRL: Resnet as representation for Reinforcement Learning（RRL：基于Resnet表征的强化学习）了解详情

简介：通过在非仪器化环境中的直接交互自主学习行为的能力可以导致通用机器人能够提高生产力或在非结构化环境（如家庭）中提供护理。这种未经仪表化的设置保证仅使用机器人的本体感受传感器（例如车载摄像头、关节编码器等）进行操作，由于高维和部分可观察性问题，这对策略学习可能具有挑战性。故本文提出 RRL：Resnet 作为强化学习的表示——一种直接而有效的方法，可以直接从本体感受输入中学习复杂的行为。RRL 将从预训练的 Resnet 中提取的特征融合到标准强化学习管道中，并提供与直接从状态学习相当的结果。在模拟灵巧操作基准测试中，最先进的方法未能取得重大进展，RRL 提供了丰富的接触行为。RRL 的吸引力在于它简单地汇集了来自表示学习、模仿学习和强化学习领域的最新研究。其直接从视觉输入中学习行为的有效性，与直接从状态中学习的性能和样本效率相匹配，即使在复杂的高维域中，也远非显而易见。

论文链接：https://arxiv.org/pdf/2107.03380.pdf

标题：Structured World Belief for Reinforcement Learning in POMDP（基于POMDP强化学习的结构化世界信念）了解详情

简介：以对象为中心的世界模型提供了场景的结构化表示，可以成为强化学习和规划的重要支柱。然而，由于缺乏信念状态，现有的方法在部分可观察的环境中受到影响。本文提出了结构化世界信念，一种以对象为中心的信念状态学习和推理模型。通过序贯蒙特卡罗（SMC）推断，该信念状态提供了多个以对象为中心的场景假设。为了将SMC粒子的优点与对象表示相结合，本文还提出了一种新的以对象为中心的动力学模型，该模型考虑了对象持久性的诱导偏差。这使跟踪对象状态成为可能，即使对象状态长时间不可见。为了进一步促进在这种情况下的目标跟踪，允许提出的模型灵活地处理图像中的任何空间位置，这在以前的模型中是受到限制的。实验研究证明了以对象为中心的信念为过滤和生成提供了更准确、更稳健的性能。此外，本文还证明了结构化世界信念在提高强化学习、计划和监督推理性能方面的有效性。

论文链接：https://arxiv.org/pdf/2107.08577.pdf

论文标题：Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning(不确定性加权演员批评的离线强化学习)

了解详情

简介：离线强化学习有望从以前收集的静态数据集中学习有效的策略，而无需进行探索。但是，从分布失调（OOD）动作或状态进行引导时，现有的基于Q学习和基于行为者批评的策略RL算法将失败。假设现有方法中的一个关键缺失要素是对离线环境中不确定性的正确处理。本文提出了不确定加权演员关键（UWAC）算法，该算法可检测OOD状态-动作对并相应地降低其在训练目标中的贡献。在实现方面，本文采用一种实用且有效的基于辍学的不确定性估计方法，与现有的RL算法相比，其引入的开销很小。根据经验，UWAC在训练过程中大大提高了模型的稳定性。此外，UWAC在各种竞争性任务上的性能均优于现有的离线RL方法，并在从人类专家那里收集的稀疏演示数据集的基础上，以最先进的基准获得了显着的性能提升。

论文链接：https://arxiv.org/pdf/2105.08140.pdf

标题：Average-Reward Off-Policy Policy Evaluation with Function Approximation(具有函数逼近的平均奖励离职政策评估)

了解详情

简介：本文考虑在平均奖励MDP中采用函数逼近（FA）进行非政策性政策评估，其目的是估计奖励率和差值函数。对于这个问题，引导是必要的，并且与非政策性学习和FA一起导致致命的三合会（Sutton＆Barto，2018）。为了解决致命的三合会问题，提出了两种新颖的算法，在平均奖励设置中重现了Gradient TD算法的成功案例。就估计微分值函数而言，这些算法是第一种收敛的非策略线性函数近似算法。在估计奖励率方面，这些算法是不需要收敛密度比的第一个收敛的非策略线性函数近似算法。

论文链接：https://arxiv.org/pdf/2101.02808.pdf

标题：Accelerating Safe Reinforcement Learning with Constraint-mismatched Policies(使用约束不匹配的策略加速安全强化学习)了解详情

简介：当提供（1）基线控制策略和（2）受控系统必须满足的一组约束时，一般会考虑强化学习的问题。基线策略可能来自教师代理、演示数据甚至启发式，而约束可能编码安全性、公平性或其他特定于应用程序的要求。重要的是，基线策略对于手头的任务可能不是最优的，并且不能保证满足指定的约束。因此，关键挑战在于有效地利用基线策略来加快学习速度，同时仍确保最大限度地违反约束。为了调和这些潜在的竞争方面，提出了一种迭代策略优化算法，该算法在最大化任务的预期回报之间交替，最小化与基线策略的距离，并将策略投影到满足约束的集合上。从理论上分析了算法的收敛性并提供了有限样本保证。在对五个不同控制任务的实证实验中，本文的算法始终优于几种最先进的方法，实现了 10 倍的约束违规和 40% 的平均奖励。

论文链接：https://arxiv.org/pdf/2006.11645.pdf

标题：Ensemble Bootstrapping for Q-Learning(集成自举的强化学习)了解详情

简介：Q学习（QL）是一种常见的强化学习算法，由于最佳Bellman算子中的最大化项而遭受过高估计偏差。这种偏见可能导致次优行为。Double-Q学习通过利用两个估计量来解决此问题，但会导致低估偏差。与Q学习中的高估类似，在某些情况下，低估偏差可能会降低性能。本文引入了一种新的减少偏倚的算法，称为Ensemble Bootstrapped Q-Learning（EBQL），这是Double-Q-learning对集合的自然扩展。在理论上和经验上都对提出的方法进行了分析。从理论上讲，证明当估计一组独立随机变量的最大平均值时，类似EBQL的更新产生较低的MSE。根据经验，显示存在一些域，在这些域中，高估和低估都会导致次优性能。最后，展示了EBQL的RL深度RL变体优于其他ATARI游戏的深度QL算法的优越性能。

论文链接：https://arxiv.org/pdf/2103.00445.pdf

标题：Revisiting Rainbow: Promoting more insightful and inclusive deep reinforcement learning research(重温彩虹算法：促进更具洞察力和包容性的深度强化学习研究)了解详情

简介：自从DQN引入以来，绝大多数强化学习研究都集中在使用深度神经网络作为函数逼近器的强化学习上。通常会在现已成为标准的一组环境中评估新方法，例如Atari 2600游戏。虽然这些基准有助于标准化评估，但不幸的是，它们的计算成本会扩大具有充足计算资源访问权限的人和没有足够访问计算资源的人之间的差距。在这项工作中，尽管社区强调大型环境，但传统的小型环境仍然可以产生有价值的科学见解，并且可以帮助减少贫困社区的进入障碍。本文凭经验重新审视了介绍 Rainbow 算法的论文（Hessel 等人，2018 年），并对 Rainbow 使用的算法提出了一些新见解。

论文链接：https://arxiv.org/pdf/2011.14826.pdf

标题：First-Order Methods for Wasserstein Distributionally Robust MDPs Wasserstein (分布鲁棒 MDP 的一阶方法)了解详情

简介：众所周知，马尔可夫决策过程 (MDP) 对参数规范很敏感。分布鲁棒 MDP 通过允许模糊集来缓解这个问题，这些模糊集给出了一组可能的参数集分布。目标是根据最坏情况的参数分布找到最优策略。本文提出了一个用于解决分布式鲁棒 MDP 的一阶方法框架，并针对几种类型的Wasserstein 歧义集对其进行实例化。通过开发高效的近端更新，本文的算法实现了特定表示的收敛速度（此比率根据 Wasserstein 设置略有不同）本文算法对支持名义分布的核N，状态S和动作A的依赖性明显优于现有方法。数值实验表明，本文的算法在多个领域中比最先进的方法更具可扩展性。

论文链接：https://arxiv.org/pdf/2009.06790.pdf

标题：REPAINT: Knowledge Transfer in Deep Reinforcement Learning (REPAINT:深度强化学习中的知识转移)

了解详情

简介：通过利用先前学习的任务来加速复杂任务的学习过程一直是强化学习中最具挑战性的问题之一，尤其是当源任务和目标任务之间的相似性较低时。本文针对深度强化学习中的知识转移问题，提出了表示与实例转移(REPAINT)算法。REPAINT 不仅在策略学习中转移了预先训练的教师策略的表示，而且还使用基于优势的经验选择方法来转移在非策略学习中按照教师政策收集的有用样本。本文在几个基准任务上的实验结果表明，在任务相似的一般情况下，REPAINT 显著减少了总训练时间。尤其是当源任务与目标任务不同或子任务不同时，REPAINT 在训练时间减少和返回分数的渐近表现方面都优于其他基线。

论文链接：http://proceedings.mlr.press/v139/tao21a/tao21a.pdf

新工具

基于离线偏好的学徒学习了解详情

简介：本文研究了如何使用先前（可能是随机的）经验的离线数据集来解决自主系统在努力向人类学习、适应和协作时面临的两个挑战：（1）识别人类的意图和（2）安全地优化自治系统的行为以实现这种推断的意图。首先，本文使用离线数据集通过基于池的主动偏好学习有效地推断人类的奖励函数。其次，鉴于这个学习奖励函数，本文执行离线强化学习根据推断的人类意图优化策略。至关重要的是，提出的方法不需要实际物理部署或用于奖励学习或策略优化步骤的准确模拟器，从而实现安全高效的学徒学习。在现有离线 RL 基准的子集上识别和评估了该方法，这些基准非常适合离线奖励学习，并评估了这些基准的扩展，这些基准允许更多开放式行为。实验表明离线离线基于偏好的奖励学习和离线强化学习能够实现高效、高性能的策略，同时只需要少量的偏好查询。

视频地址：

https://sites.google.com/view/offline-prefs

论文链接：

https://arxiv.org/pdf/2107.09251.pdf

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第18期：ICML-2021强化学习的最新研究与应用相关推荐

麻省、北大、清华等顶尖高校与企业 20 位强化学习专家齐聚，RLChina 2021 强化学习暑期课免费报名啦！
2016 年,AlphaGo 宛然横空出世,凭借精湛的棋艺接连战胜韩国围棋九段棋手李世石.中国围棋九段棋手柯洁之后,更是以 60 局无败绩的成绩轰动整个科技圈,人工智能的新纪元也因此开启.站在技术角度 ...
麻省、北大、清华等顶尖高校与企业 20 位强化学习专家齐聚，RLChina 2021 强化学习暑期课免费报名啦！...
2016 年,AlphaGo 宛然横空出世,凭借精湛的棋艺接连战胜韩国围棋九段棋手李世石.中国围棋九段棋手柯洁之后,更是以 60 局无败绩的成绩轰动整个科技圈,人工智能的新纪元也因此开启.站在技术角度 ...
深度学习算法(第37期)----如何用强化学习玩游戏？
上期我们一起学习了强化学习中的时间差分学习和近似Q学习的相关知识, 今天我们一起用毕生所学来训练一个玩游戏的AI智能体. 由于我们将使用 Atari 环境,我们必须首先安装 OpenAI gym 的 ...
【组队学习】【29期】Datawhale组队学习内容介绍
第29期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: 编程实践(数据可视化) 计算机视觉自然语言处理之情感分析吃瓜教程--西瓜书+南瓜书李宏毅机器学习(含深度学习) ...
【组队学习】【28期】Datawhale组队学习内容介绍
第28期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: 吃瓜教程--西瓜书+南瓜书李宏毅机器学习动手学数据分析集成学习 SQL编程语言 R语言数据科学基于Pytho ...
【组队学习】【25期】Datawhale组队学习内容介绍
第25期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: web开发入门教程数据挖掘实战(异常检测) 集成学习(下) 大家可以根据我们的开源内容进行自学,也可以加入我们的组 ...
【组队学习】【24期】Datawhale组队学习内容介绍
第24期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: 零基础入门语音识别(食物声音识别) Docker教程数据挖掘实践(智慧海洋) 集成学习(中) 河北邀请赛(二手车价 ...
【组队学习】【23期】Datawhale集成学习（上）
集成学习(上) 开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/IntegratedLearn ...
最好的浏览器排行榜_PG是最好的数据库；TiDB 4.0前瞻；SequoiaDB高可用原理；20c DG新特性... 数据库周刊第18期...
热门资讯 1. 2020年4月数据库流行度排行:MySQL 成事实王者,国产openGauss引期待 [摘要]2020年4月 DB-Engines 数据库流行度排行出炉.在本月的排行榜上,Oracle ...

《强化学习周刊》第18期：ICML-2021强化学习的最新研究与应用

《强化学习周刊》第18期：ICML-2021强化学习的最新研究与应用相关推荐

最新文章

热门文章