《强化学习周刊》第38期：DreamingV2、Shadow-price DRL、离线强化学习

No.38

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第38期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法：请点击本文下方的“阅读原文”，进入《强化学习周刊》Hub社区版，点击作者栏“预训练周刊”后选择“关注TA”。(注：《强化学习周刊》Hub社区版内有详细的订阅步骤图示介绍)。

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如逆强化学习、强化学习应用于仿生机器人及多智能体强化学习相关的理论及其最新应用等。

本次推荐了15篇强化学习领域的相关论文，主要涉及于基于反事实推理提高人类逆强化学习、基于对比学习和动态模型的图像强化学习、非平稳环境下的强化学习、DreamingV2：无重构的离散世界模型强化学习、Monkey Business：强化学习与虚拟网络嵌入的邻域搜索、强化学习中表征的泛化、基于强化学习的仿人机器人反应式步进：在外骨骼Atlante上站立推力恢复中的应用、基于多智能体强化学习解决资源抢占环境中的作业调度问题、基于强化学习的饱和自适应鲁棒神经网络控制欠驱动自主水下航行器、基于高效样本强化学习的 AI 规划注释等。

标题：Reasoning about Counterfactuals to Improve Human Inverse Reinforcement Learning（基于反事实推理提高人类逆强化学习）了解详情

简介：为了更好地与机器人合作，必须能够理解它们的决策。人类通过以类似于逆强化学习 (IRL) 的方式推理其可观察到的行为，自然地推断出其他智能体的信念和愿望。鉴于学习者目前对机器人决策的理解，信息性演示与学习者对机器人将做什么的期望有很大不同。然而，标准的IRL不能模拟学习者现有的期望，因此不能进行这种反事实推理。本文建议将学习者当前对机器人决策的理解纳入人类IRL模型，以便机器人能够选择能够最大限度地提高人类理解的演示。其还提出了新方法来估计人类在看不见的环境中预测机器人行为的难度。通过用户研究发现，本文的测试难度指标与人的表现和信心密切相关。并在选择演示时考虑人类的信念和反事实会降低人类在简单测试中的表现，但会提高在困难测试中的表现，从而提供如何最好地利用此类模型的见解。

论文链接：https://arxiv.org/pdf/2203.01855.pdf

标题：Integrating Contrastive Learning with Dynamic Models for Reinforcement Learning from Images（基于对比学习和动态模型的图像强化学习）了解详情

简介：最近的图像强化学习方法使用辅助任务来学习代理策略或Q函数使用的图像特征。基于对比学习的方法在动态线性或对数据增强的不变性，已经被证明可以极大地提高强化学习算法的样本效率和学习嵌入的可推广性。本文提出了将对比学习与动态模型相结合的自监督表征学习方法，将这三个目标协同地结合起来：（1）最大化状态嵌入和动作嵌入之间互信息的信息界以及下一状态的嵌入，从而在不显式学习线性过渡模型的情况下诱导线性预测嵌入，（2）通过使用回归显式学习非线性过渡模型，进一步提高了所学习嵌入的马尔可夫性，（3）基于当前行为和当前状态的两个独立增强，最大化了下一个嵌入的两个非线性预测之间的互信息，这自然不仅会导致状态嵌入的变换不变性，而且还会导致非线性过渡模型的变换不变性。在Deepmind control suite上的实验评估表明，与基于对比学习或重构的先进方法相比，该方法实现了更高的样本效率和更好的泛化。

论文链接：https://arxiv.org/pdf/2203.01810.pdf

标题：Reinforcement Learning in Possibly Nonstationary Environments（非平稳环境下的强化学习）了解详情

简介：本文考虑离线非平稳环境中的强化学习（RL）方法。现有许多的RL 算法依赖于平稳性假设，该假设要求系统转换和奖励函数随时间保持不变。然而，平稳性假设在实践中具有限制性，并且可能在许多应用中被违反，包括交通信号控制、机器人技术和移动健康。本文提出一个一致的程序来测试基于预先收集的历史数据的最优策略的非平稳性，而无需额外的在线数据收集。基于所提出的测试，本文进一步提出了一种顺序变化点检测方法，该方法可以自然地与现有的最先进的 RL 方法相结合，用于在非平稳环境中进行策略优化。理论结果、模拟研究和 2018 年实习生健康研究的真实数据示例说明了该方法的有效性。

论文链接：https://arxiv.org/pdf/2203.01707.pdf

标题：DreamingV2: Reinforcement Learning with Discrete World Models without Reconstruction（DreamingV2：无重构的离散世界模型强化学习）了解详情

简介：本文提出了一种新的世界模型强化学习方法 DreamingV2，它是 DreamerV2 和 Dreaming 的协作扩展。DreamerV2 是一种基于像素的前沿模型强化学习技术，它使用离散世界模型来表示具有分类变量的潜在状态。Dreaming也是一种像素强化学习的形式，它试图通过涉及无重构对比学习目标来避免一般世界模型训练中的自动编码过程。所提出的DreamingV2是一种新颖的方法，它既采用DreamingV2的离散表示，又采用了DreamingV2的无重构目标。与 DreamerV2 和其他最近无重构的基于模型的方法相比，DreamingV2 在五个模拟具有挑战性的 3D 机械臂任务上取得了最好的成绩。本文相信DreamingV2将是一个可靠的机器人学习解决方案，因为它的离散表示适用于描述不连续的环境，并且无重建方式能够很好地管理复杂的视觉观察。

论文链接：https://arxiv.org/pdf/2203.00494.pdf

标题：Monkey Business: Reinforcement learning meets neighborhood search for Virtual Network Embedding（Monkey Business：强化学习与虚拟网络嵌入的邻域搜索）了解详情

简介：本文考虑了 5G 网络切片的虚拟网络嵌入 (VNE) 问题。该问题需要在基板虚拟化物理网络上分配多个虚拟网络 (VN)，同时最大限度地提高资源利用率、放置的 VN 的最大数量和网络运营商的利益。本文提出了邻域增强策略适应 (NEPA) 的新算法. 其关键特征是观察 NRPA 不能利用在状态树的一个分支中获得的知识用于另一个以不同方式开始的分支。NEPA 通过以节俭的方式将 NRPA 与 Neighbordhood Search 相结合来学习，这种方式只改进有希望的解决方案，同时保持较低的运行时间。并称这种技术为猴子业务，因为它归结为从一个有趣的分支跳到另一个，类似于猴子如何从一棵树跳到另一棵树，而不是每次都下去。与其他最先进的算法相比，无论是在真实拓扑还是合成拓扑上，NEPA在接受率和收入成本比方面都取得了更好的结果。

论文链接：https://arxiv.org/pdf/2202.13706.pdf

标题：On the Generalization of Representations in Reinforcement Learning（强化学习中表征的泛化）了解详情

简介：在强化学习中，状态表示用于处理大型问题空间。状态表示既可以用少量参数逼近价值函数，也可以泛化到新遇到的状态。它们的特征可以被隐式学习（作为神经网络的一部分）或显式学习（例如，\citet{dayan1993improving} 的后继表征）。虽然表征的近似属性已经得到了相当好的理解，但缺乏对这些表征如何以及何时泛化的精确描述。本文解决了此差距，并提供了关于由特定状态表示引起的泛化错误的信息范围。此界限基于有效维度的概念，有效维度衡量的是知道一个状态的值对其他状态的值的影响程度。该界限适用于任何状态表示，并量化了泛化好的表示和近似好的表示之间的自然张力。通过对文献和街机学习环境结果中的经典表示学习方法的实证调查来补充本文的理论结果，并发现学习表示的泛化行为可以通过其有效维度得到很好的解释。

论文链接：https://arxiv.org/pdf/2203.00543.pdf

标题：Reactive Stepping for Humanoid Robots using Reinforcement Learning: Application to Standing Push Recovery on the Exoskeleton Atalante（基于强化学习的仿人机器人反应式步进：在外骨骼Atlante上站立推力恢复中的应用）了解详情

简介：最先进的强化学习现在能够在模拟中学习双足机器人的多功能运动、平衡和推动恢复能力。然而，现实差距大多被忽视，模拟结果很难转化为实际硬件。要么因为物理过于简化，硬件限制被忽略，在实践中失败，要么规律性得不到保证，可能会发生意外的危险运动。本文提出了一种强化学习框架，该框架能够为双足机器人学习稳健的站立推动恢复，并且开箱即用地顺利转移到现实，只需要瞬时本体感受观察。通过结合原始终止条件和策略平滑条件，本文实现了稳定的学习，使用没有记忆或观察历史的策略进行模拟到真实的传输和安全。然后使用奖励塑造来深入了解如何保持平衡。并在Atlante的下肢医疗外骨骼上展示了它的实际性能。

论文链接：https://arxiv.org/pdf/2203.01148.pdf

标题：Solving job scheduling problems in a resource preemption environment with multi-agent reinforcement learning（基于多智能体强化学习解决资源抢占环境中的作业调度问题）了解详情

简介：在智能制造领域，制造资源通常是有限的，因此机器人之间存在抢占关系。故作业调度对精度和通用性提出了更高的要求。为此，本文提出了一种利用多智能体强化学习解决资源抢占环境下作业调度问题的调度算法。资源抢占环境被建模为一个分散的部分可观测马尔可夫决策过程，其中每个作业被视为一个智能体，根据其当前的部分可观测选择一个可用的机器人。并构造了多智能体调度体系结构，用于处理多任务同时调度引起的高维动作空间问题。此外，多智能体强化学习用于学习每个智能体的决策策略和智能体之间的合作。本文在解决资源抢占环境下的调度问题和利用多智能体强化学习解决job-shop调度问题方面具有创新性。

论文链接：https://www.sciencedirect.com/science/article/pii/S0736584522000138

标题：Reinforcement learning-based saturated adaptive robust neural-network control of underactuated autonomous underwater vehicles（基于强化学习的饱和自适应鲁棒神经网络控制欠驱动自主水下航行器）了解详情

简介：本文通过在存在未建模动力学、不确定性、海洋扰动和执行器饱和的情况下使用 Actor-Critic 神经网络，研究了一种用于欠驱动自主水下航行器的高性能智能在线自适应鲁棒饱和动态表面控制框架。所提出的控制器是基于强化学习方法设计的，以更准确地补偿未建模动力学和不确定性的影响，从而为控制器带来更好的性能。通过创造性地设计在线训练规律对Actor-Critic神经网络进行实时训练，并提出了一种新的critic函数来监督Critic神经网络的闭环性能。强化学习方法的建议结构受益于无模型算法，并且仅依赖于闭环控制系统的可测量变量。这种与系统动力学的独立性导致控制器的计算负担相当低，因此，该控制算法在计算上是有效的。

论文链接：https://www.sciencedirect.com/science/article/pii/S0957417422001907

标题：Keeping Minimal Experience to Achieve Efficient Interpretable Policy Distillation（保持最少的经验以实现高效的可解释性策略提炼）了解详情

简介：尽管深度强化学习已成为复杂控制任务的通用解决方案，但由于缺乏策略的安全保证，其现实世界的适用性仍然有限。故本文通过最小经验保留 (BCMER) 进行边界表征，这是一种端到端的可解释策略提炼 (IPD) 框架。与以前的 IPD 方法不同，BCMER 区分了经验的重要性，并保留了一个最小但关键的经验池，几乎没有损失策略相似性。具体来说，提议的 BCMER 包含两个基本步骤。首先，本文提出了一种新颖的多维超球面相交（MHI）方法，将经验点划分为边界点和内部点，并保留关键的边界点。其次，本文开发了一个基于最近邻的模型，以基于边界点生成稳健且可解释的决策规则。

论文链接：https://arxiv.org/pdf/2203.00822.pdf

标题：Improving the Diversity of Bootstrapped DQN via Noisy Priors（通过噪声先验提高Bootstrapped DQN 的多样性）了解详情

简介：Q-learning 是最著名的强化学习算法之一。使用神经网络开发这种算法已经付出了巨大的努力。Bootstrapped DQN就是其中之一。它利用多个神经网络将多样性引入 Q 学习。有时可以将多样性视为智能体在给定状态下可以采取的合理移动的数量，类似于 RL 中探索率的定义。因此，Bootstrapped DQN的性能与算法内的多样性水平密切相关。在最初的研究中，有人指出随机先验可以提高模型的性能。本文进一步探索了将先验视为一种特殊类型的噪声的可能性，并从高斯分布中采样先验，以在该算法中引入更多的多样性。通过实验表明，噪声先验可以通过确保多样性的完整性来提高 Bootstrapped Deep Q-Learning 的性能。

论文链接：https://arxiv.org/pdf/2203.01004.pdf

标题：Shadow-price DRL: A Framework for Online Scheduling of Shared Autonomous EVs FleetsO（Shadow-price DRL：共享自主电动汽车车队在线调度框架）了解详情

简介：本文研究了共享自动驾驶电动汽车 (SAEV) 车队的在线调度。该研究包括 SAEV 的充电管理、路由和再平衡策略，以满足电力和交通耦合网络 (PTN) 中的出行需求。它旨在最小化 PTN 的总社会成本。困难在于如何在考虑时间耦合的 SAEV 调度和 PTN 运行的情况下处理随时间变化的出行需求。故本文首次提出了名为 shadow-price 深度强化学习（shadow-price DRL）的新框架，它结合了严格的 PTN 操作模型和基于数据驱动的无模型 DRL 算法。在shadow-price DRL 中，策略神经网络自适应地学习系统动力学并将其作为动态shadow-price应用于在线 SAEV 调度问题。通过这样做，SAEV 时间表将以在线方式确定。此外，讨论了所提出的框架与拉格朗日松弛方法之间的联系，说明了所提出方法的原理和有效性。

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9723448

标题：Comprehensive Ocean Information Enabled AUV Path Planning via Reinforcement Learning（通过强化学习实现支持综合海洋信息的 AUV 路径规划）了解详情

简介：自主水下航行器 (AUV) 的路径规划在各种水下物联网 (IoOUT) 应用中显示出巨大潜力。为了克服某些研究的局限性，本文提出了 COID，利用综合海洋信息和强化学习的 AUV 路径规划方案。首先，本文引入了包括天气、温度、温盐、洋流等在内的综合真实海洋数据，并将其应用到区域海洋建模系统中，以生成可靠的洋流。并通过精心设计的状态转换函数和奖励函数，构建了一个用于强化学习的海洋环境 3D 网格模型。此外，基于Double Dueling Deep Q Network（D3QN）框架，COID融合了局部洋流和位置特征提供状态输入，并使用优先采样来加速网络收敛。COID 的性能已经通过数值结果进行了评估和证明，证明了有效的路径规划和扩展到不同海洋环境的高度灵活性。

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9723442

标题：AI Planning Annotation for Sample Efficient Reinforcement Learning（基于高效样本强化学习的 AI 规划注释）了解详情

简介：人工智能规划和强化学习 (RL) 都解决了不同公式下的顺序决策问题。人工智能规划需要算子模型，但随后允许高效的计划生成。强化学习不需要算子模型，而是学习一种策略来引导智能体进入高奖励状态。面对噪音，人工智能规划可能很脆弱，而强化学习则更宽容。然而，强化学习需要大量的训练样本来学习策略。本文旨在通过展示适当定义的规划模型可用于提高强化学习的效率来拉近人工智能规划和强化学习。其展示了分层强化学习中的选项可以从计划任务中导出，并将计划和强化学习算法集成到训练选项策略功能中。实验证明，与以前的最新技术相比，在各种强化学习环境中的样本效率都有所提高。

论文链接：https://arxiv.org/abs/2203.00669

标题：AI Planning Annotation for Sample Efficient Reinforcement Learning（洋流扰动下基于深度强化学习的自主水下航行器路径规划）了解详情

简介：本文研究了洋流扰动下欠驱动自主水下航行器（AUV）的路径规划问题。为了提高AUV在未知环境下的路径规划能力，提出了一种基于双深度Q网络（DDQN）的深度强化学习（DRL）路径规划方法。它是由改进的卷积神经网络创建的，该网络具有两个输入层以适应高维环境的处理。考虑到欠驱动AUV在海流扰动下的机动性，特别是未知环境下洋流扰动的问题，本文开发了一种动态复合奖励函数，使AUV能够避障到达目的地。最后通过仿真分析验证了所提方法在未知环境下的路径规划能力。

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9722969

研究综述

标题：离线强化学习综述：分类、回顾和开放性问题了解详情

简介：随着深度学习的广泛采用，强化学习（RL）的受欢迎程度显著提高，并扩展到以前难以解决的问题，例如通过像素观察玩复杂游戏、与人类保持对话以及控制机器人代理。然而，由于与环境交互的高成本和危险性，仍有许多领域是RL无法访问的。离线RL是一种仅从先前收集的交互的静态数据集学习的范例，使得从大型和多样化的培训数据集中提取策略成为可能。有效的离线RL算法比在线RL有更广泛的应用范围，尤其适合教育、医疗和机器人等现实世界的应用。本文提出了一个统一的分类法来对离线RL方法进行分类。此外，本文还全面综述了该领域最新的算法突破，并回顾了现有基准的特性和缺点。最后，对开放性问题提出了自己的观点，并对这个快速发展的领域提出了未来的研究方向。

论文链接：

https://arxiv.org/pdf/2203.01387.pdf

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第38期：DreamingV2、Shadow-price DRL、离线强化学习相关推荐

【组队学习】【31期】水很深的深度学习
水很深的深度学习航路开辟者:刘洋领航员:陈宇航海士:刘洋.陈陟原.左凯文.初晓宇.刘羽中基本信息开源内容:https://github.com/datawhalechina/unusual- ...
【组队学习】【31期】李宏毅机器学习（含深度学习）
李宏毅机器学习(含深度学习) 航路开辟者:王茂霖.陈安东,刘峥嵘,李玲领航员:张菘淳航海士:王茂霖.吴振一基本信息开源内容:https://github.com/datawhalechina/ ...
【组队学习】【32期】李宏毅机器学习（含深度学习）
李宏毅机器学习(含深度学习) 航路开辟者:王茂霖.陈安东,刘峥嵘,李玲领航员:郭棉昇航海士:汪超.赵美基本信息开源内容:https://github.com/datawhalechina/le ...
【组队学习】【30期】6. 树模型与集成学习
树模型与集成学习航路开辟者:耿远昊领航员:姜萌航海士:耿远昊基本信息开源内容:https://github.com/datawhalechina/machine-learning-toy-c ...
【组队学习】【30期】李宏毅机器学习（含深度学习）
李宏毅机器学习(含深度学习) 航路开辟者:王茂霖.陈安东,刘峥嵘,李玲领航员:初晓宇航海士:王茂霖基本信息开源内容:https://github.com/datawhalechina/leem ...
【组队学习】【35期】李宏毅机器学习（含深度学习）
李宏毅机器学习(含深度学习) 航路开辟者:王茂霖.陈安东,刘峥嵘,李玲领航员:梁家晖航海士:程浩伟.周小要.吴昌广基本信息开源内容:https://linklearner.com/datawh ...
《强化学习周刊》第37期：视觉深层框架、Transformer World模型、注意力增强强化学习...
No.37 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
《强化学习周刊》第36期：DDA3C、因果推理干预、逆强化学习
No.36 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
《强化学习周刊》第24期：CORL 2021强化学习的最新研究与应用
No.24 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于CORL 2021学 ...
《强化学习周刊》第58期：RFQI、DRL-DBSCAN广义强化学习
No.58 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

《强化学习周刊》第38期：DreamingV2、Shadow-price DRL、离线强化学习

《强化学习周刊》第38期：DreamingV2、Shadow-price DRL、离线强化学习相关推荐

最新文章

热门文章