《强化学习周刊》第33期：UdeM | 基于不确定性估计的样本高效深度强化学习

No.33

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第33期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如多智能体强化学习、高效深度强化学习、基于深度强化学习的经济应用、深度强化学习在工业领域相关的理论及其最新应用等。

本次推荐了14篇强化学习领域的相关论文，主要涉及基于不确定性估计的样本高效深度强化学习、基于深度强化学习在多智能体经济模拟中寻找一般均衡、基于深度强化学习和注意机制的动态作业车间调度混合智能、通过奖励设计进行政策教学、基于价值学习的广义Bootstrap目标，有效地结合价值和特征预测、多智能体强化学习中认知差异与一致表示增强合作、近似强化学习以控制分布式网络中的信标拥塞等。

标题：A Deeper Understanding of State-Based Critics in Multi-Agent Reinforcement Learning（一种对多智能体强化学习中基于状态的批评的更深入理解）了解详情

简介：分散执行的集中训练，即以集中的离线方式进行训练，已成为多智能体强化学习中流行的解决方案范例。许多此类方法采用基于状态的批评者的参与者批评者的形式，因为集中式训练允许访问真实的系统状态，尽管在执行时不可用，但在训练期间可能很有用。以国家为基础的批评已经成为普遍的经验选择，尽管其理论依据或分析有限。本文证明了基于状态的批评者可以在策略梯度估计中引入偏差，这可能破坏算法的渐近保证。其还表明，即使基于状态的批评者没有引入任何偏差，它们仍然可以导致更大的梯度方差，与通常的直觉相反。最后，通过在广泛的共同基准上比较不同形式的集中批评来展示理论在实践中的效果，并详细说明各种环境属性如何与不同类型批评的有效性相关。

论文地址：https://arxiv.org/pdf/2201.01221.pdf

标题：UdeM | Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation（基于不确定性估计的样本高效深度强化学习）了解详情

简介：来自加拿大蒙特利尔大学（英文简称：UdeM）的学者们最近提出一种基于不确定性估计的样本高效深度强化学习。在无模型深层强化学习（RL）算法中，使用噪声值估计来监督策略评估和优化会对样本效率造成不利影响。由于这种噪声是异方差的，因此可以在优化过程中使用基于不确定性的权重来缓解其影响。先前的方法依赖于抽样的集合，这些集合不能捕获不确定性的所有方面。本文通过对RL中出现的噪声监督中的不确定性来源进行系统分析，并引入了反向方差RL，其结合概率集合和批量反向方差加权的贝叶斯框架。其中两种互补的不确定性估计方法同时考虑了Q值和环境随机性，以更好地缓解噪声监督的负面影响。研究结果表明，在离散和连续控制任务中，样本效率显著提高。

论文地址：https://arxiv.org/pdf/2201.01666.pdf

标题：Finding General Equilibria in Many-Agent Economic Simulations Using Deep Reinforcement Learning（基于深度强化学习在多智能体经济模拟中寻找一般均衡）了解详情

简介：实体经济可被看作是一个顺序的不完全信息博弈。动态一般均衡模型是常见的经济工具，用于模拟此类系统中的经济活动、相互作用和结果。然而，现有的分析和计算方法很难找到显式的平衡，当所有代理都是战略性的和相互作用的，而联合学习是不稳定的和具有挑战性的。由于一个经济主体的行为可能会改变另一个经济主体的奖励功能。研究表明多智能体深度强化学习 (RL) 可以通过使用结构化学习课程和有效的 GPU-only 在具有许多智能体的经济模拟中发现稳定的解决方案，即 ε-纳什均衡的智能体类型元博弈模拟和训练。通过近似最佳响应分析验证了所学的元博弈ε-纳什均衡，表明RL政策与经济直觉相一致。

论文地址：https://arxiv.org/pdf/2201.01163.pdf

标题：Hybrid intelligence for dynamic job-shop scheduling with deep reinforcement learning and attention mechanism（基于深度强化学习和注意机制的动态作业车间调度混合智能）了解详情

简介：动态Job Shop调度问题（DJSP）是一类调度任务，它在实际的智能制造环境中，具体考虑固有的不确定性，如变化的订单要求和可能的机器故障。由于传统方法无法在环境干扰下动态生成有效的调度策略，故本文将DJSP描述为马尔可夫决策过程（MDP），通过强化学习（RL）进行处理。进而提出了灵活的混合框架，该框架以析取图为状态，将一组通用调度规则作为具有最少先验领域知识的动作空间。注意机制被用作状态特征提取的图形表示学习（GRL）模块，并采用具有优先重放和噪声网络的双决斗深度Q网络（D3QPN）将每个状态映射到最合适的调度规则。在各种DJSP实例上的综合实验证实，本文提出的框架优于基线算法，在所有实例中具有更小的制造跨度，并为混合框架中各种组件的有效性提供经验证明。

论文地址：https://arxiv.org/pdf/2201.00548.pdf

标题：Admissible Policy Teaching through Reward Design（通过奖励设计进行政策教学）了解详情

简介：本文研究了奖励设计策略，以激励强化学习智能体从一组可接受的策略中采用一个策略。奖励设计者的目标是经济高效地修改底层奖励函数，同时确保新奖励函数下的任何近似最优确定性策略都是可接受的，并且在原始奖励函数下表现良好。其可看作是最优奖励中毒攻击问题的对偶问题：奖励设计者不是强迫代理采用特定策略，而是激励代理避免采取在某些状态下不允许的行为。与最优奖励中毒攻击的问题相比，本文首先证明了可接受的策略教学的奖励设计问题在计算上具有挑战性，并且很难找到一个近似最优的奖励修改。然后，通过制定替代问题继续进行，其最优解近似于本文环境中奖励设计问题的最优解。对于该智能体问题，本文提出的表征结果提供了最优解值的界限。最后，通过设计了一种局部搜索算法来解决代理问题，并使用基于模拟的实验展示其实用性。

论文地址：https://arxiv.org/pdf/2201.02185.pdf

标题：A Generalized Bootstrap Target for Value-Learning, Efficiently Combining Value and Feature Predictions（基于价值学习的广义Bootstrap目标，有效地结合价值和特征预测）了解详情

简介：价值函数估计是强化学习算法的核心组成部分。时间差分(TD)学习算法使用自举，即它们在随后的时间步骤中使用值估计值向学习目标更新值函数。或价值函数可以向学习目标更新，该学习目标是通过分别预测后继特征(SF) -依赖于策略的模型-并将它们与即时回报线性组合而构建的。本文专注于估计价值函数时使用的自举目标，并提出了新的备份目标，η-return mixture，它隐式地将价值预测知识(由TD方法使用)与(后继)特征预测知识相结合，参数η捕获对每个知识的依赖程度。研究表明通过ξγ-discounted SF模型结合预测知识，与极端情况(即完全基于价值函数估计的自举，或基于分别估计的后继特征和瞬时报酬模型的乘积的自举)相比，可以更有效地利用采样经验，及其具有可扩展性和通用性。

论文地址：https://arxiv.org/pdf/2201.01836.pdf

标题：MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced Active Learning（MORAL：通过多目标强化主动学习使人工智能与人类规范保持一致）了解详情

简介：从演示和成对偏好中推断奖励函数是使强化学习（RL）代理与人类意图相一致的好方法。然而，最新的方法通常侧重于学习单个奖励模型，因此很难权衡来自多个专家的不同奖励函数。本文提出了多目标强化主动学习（MORAL），将社会规范的不同演示组合成帕累托最优策略的新方法。通过维持标度化权重的分布，该方法能够交互式地根据各种偏好调整深度RL代理，同时消除计算多个策略的需要。通过模拟交付和紧急任务场景中表明了道德的有效性，该任务要求代理人在规范冲突存在时采取行动。总体而言，本文的研究迈向多目标RL与学习奖励，弥补目前的奖励学习和机器伦理文献之间的差距。

论文地址：https://arxiv.org/pdf/2201.00012.pdf

标题：Learning Reward Machines: A Study in Partially Observable Reinforcement Learning（学习奖励机：部分可观察强化学习的研究）了解详情

简介：强化学习是人工智能的核心问题。这个问题包括定义人工智能体，这些智能体可以通过与环境交互来学习最佳行为——在环境中，最佳行为是根据智能体寻求最大化的奖励信号来定义的。奖励机器（RMs）提供了奖励函数的结构化、基于自动机的表示，使RL代理能够将RL问题分解为结构化子问题，这些子问题可以通过非策略学习有效地学习。在这里，文章表明RMs可以从经验中学习，而不是由用户指定，并且由此产生的问题分解可以有效地解决部分可观察的RL问题。本文将学习RMs的任务视为一个离散优化问题，其目标是找到一个RM，该RM将问题分解为一组子问题，使其最优无记忆策略的组合成为原始问题的最优策略。文章展示了这种方法在三个部分可观察领域的有效性，在这三个领域，它的表现明显优于A3C、PPO和ACER，并讨论了其优势、局限性和更广泛的潜力。

论文地址：https://arxiv.org/pdf/2112.09477.pdf

标题：Centralizing State-Values in Dueling Networks for Multi-Robot Reinforcement Learning Mapless Navigation（多机器人强化学习无障碍导航决斗网络的集中状态值）了解详情

简介：本文研究了流行的集中训练和分散执行（CTDE）模式下的多机器人mapless导航问题。当每个机器人考虑其路径而不与其他机器人明确共享观测值时，其可能导致深度强化学习（DRL）中的非平稳问题。典型的CTDE算法将联合行动价值函数分解为单独的行动价值函数，以利于合作并实现分散执行。这种因式分解涉及限制个体中出现新行为的约束（例如，单调性），因为每个代理都是从联合动作值开始训练的。而本文提出了一种新的CTDE体系结构，该体系结构使用集中式状态值网络来计算联合状态值，用于在基于值的代理更新中注入全局状态信息。因此，考虑到环境的整体状态，每个模型计算其权重的梯度更新。本文的想法遵循了决斗网络的观点，因为对关节状态值的单独估计既有提高样本效率的优势，又能为每个机器人提供全局状态是否有价值的信息。

论文地址：https://arxiv.org/pdf/2112.09012.pdf

标题：CEM-GD: Cross-Entropy Method with Gradient Descent Planner for Model-Based Reinforcement Learning（CEM-GD：基于模型强化学习的梯度下降规划交叉熵方法）了解详情

简介：当前最先进的基于模型的强化学习算法使用轨迹采样方法，如交叉熵法（CEM），在连续控制设置中进行规划。这些零阶优化器需要对大量的轨迹卷展进行采样，以选择最佳动作，对于较大的预测范围或高维动作空间，该动作的伸缩性较差。一阶方法使用与动作相关的奖励梯度作为更新，由于非凸优化环境，会出现局部最优。故本文提出了一种新的规划器，即梯度下降交叉熵法（CEM-GD），它将一阶方法与CEM相结合。在执行开始时，CEM-GD使用CEM对大量的轨迹展开进行采样，以探索优化环境并避免出现局部极小值。它使用顶部轨迹作为梯度下降的初始化，并对每个轨迹应用梯度更新，以找到最佳动作序列。在随后的每个时间步，CEM-GD在应用梯度更新之前从CEM中采样的轨迹要少得多。实验表明，CEM-GD通过使用梯度信息在恒定的小样本数下保持理想的性能，同时使用初始良好采样轨迹避免局部最优。

论文地址：https://arxiv.org/pdf/2112.07746.pdf

标题：A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement Learning（昂贵进化强化学习的代理辅助控制器）了解详情

简介：强化学习 (RL) 和进化算法 (EA) 的集成旨在同时利用样本效率以及两种范式的多样性和鲁棒性。最近，基于这一原理的混合学习框架在各种具有挑战性的机器人控制任务中取得了巨大的成功。然而，在这些方法中，来自遗传种群的策略是通过与真实环境的交互来评估的，这限制了它们在计算成本高的问题中的适用性。本文提出了代理辅助控制器 (SC)，这是一种新颖且高效的模块，可以集成到现有框架中，通过部分替代昂贵的策略评估来减轻 EA 的计算负担。应用此模块的关键挑战是防止优化过程被代理引入的可能错误最小值所误导。为了解决这个问题，本文提出了两种 SC 控制混合框架工作流的策略。来自 OpenAI Gym 平台的六个连续控制任务的实验表明，SC 不仅可以显著降低Gym评估的成本，还可以通过协作学习和进化过程提升原始混合框架的性能。

论文地址：https://arxiv.org/pdf/2201.00129.pdf

标题：Alleviating Parameter-tuning Burden in Reinforcement Learning for Large-scale Process Control（减轻大规模过程控制强化学习中的参数调整负担）了解详情

简介：现代过程控制器需要高质量模型和在性能下降时重新识别补救系统。强化学习 (RL) 可以成为手动程序的有希望的替代品。然而，现实中，时间是有限的，需要能够通过减少人机交互或自我探索（例如参数调整）进行稳健学习的算法。本文提出了一个有原则的框架，以确保即使参数表现不佳也能改进单调策略，增强 RL 过程对参数设置的鲁棒性。本文将随机特征和因子策略等关键因素纳入单调改进机制，以便在大规模过程控制问题中谨慎学习。本文在模拟醋酸乙烯单体过程的具有挑战性的控制问题中证明，所提出的方法在给定模拟相互作用的各种参数配置的情况下，在短期固定学习范围内稳健地学习有意义的策略，与其他方法相比，该方法只能在较窄的参数范围内表现出良好的性能。

论文地址：https://www.sciencedirect.com/science/article/pii/S0098135422000035#!

标题：Enhancing cooperation by cognition differences and consistent representation in multi-agent reinforcement learning（多智能体强化学习中认知差异与一致表示增强合作）了解详情

简介：多智能体强化学习能够有效地处理需要不同个体协作的任务。在可扩展和不稳定的环境中，通信对于增强智能体之间的协作起着重要的作用。智能体之间如何协作探索有效的信息是一个亟待解决的关键问题。本文提出了一种具有认知差异和一致表示的多智能体强化学习算法（CDCR）。认知差异标准的制定是为了探索不同主体所拥有的信息，帮助每个主体更好地理解其他主体。本文进一步训练一个认知编码网络来获得每个智能体的全局认知一致性表示，然后利用该表示来实现智能体对环境的认知一致性。捕食者-食饵的实验结果表明，所提出的认知差异可以实现个体间的有效沟通；星际争霸II的结果表明，在最佳情况下，同时考虑认知差异和一致性表示可以将基线算法的测试成功率提高29%。

论文地址：https://link.springer.com/content/pdf/10.1007/s10489-021-02873-7.pdf

标题：Approximate reinforcement learning to control beaconing congestion in distributed networks（近似强化学习以控制分布式网络中的信标拥塞）了解详情

简介：在车辆通信中，由过多的周期性消息（信标）引起的信道负载增加是必须控制的一个重要方面，以确保安全应用程序和驾驶员辅助系统的适当运行。迄今为止，大多数拥塞控制解决方案都涉及在传输消息的有效负载中包含附加信息，这可能会在信道条件不利时危及这些控制解决方案的适当操作，从而引发数据包丢失。这项研究利用了非合作分布式信标分配的优势，其中车辆独立运行，不需要任何昂贵的道路基础设施。特别是，本文将信标率控制问题表述为马尔可夫决策过程，并使用近似强化学习来解决它以执行最优动作。将获得的结果与其他传统解决方案进行比较，表明本文的方法（称为 SSFA）能够保持一定比例的通道容量可用，这保证了与其他方案相比，以更快的收敛速度交付紧急相关通知。此外，在数据包传递和冲突率方面获得了良好的性能。

论文地址：https://www.nature.com/articles/s41598-021-04123-9.pdf

研究综述

标题：莱顿大学 | 深度强化学习了解详情

简介：深度强化学习近年来备受关注。在自动驾驶、游戏、分子重组和机器人等多种活动中取得了令人印象深刻的成果。由于计算机程序已经自学解决难题。在驾驶模型直升机和进行特技飞行，如循环和滚动。在某些应用中，它们甚至比最优秀的人类还要好，例如在 Atari、围棋、扑克和星际争霸中。深度强化学习探索复杂环境的方式让我们想起了孩子们是如何通过有趣地尝试事物、获得反馈并再次尝试来学习的。计算机似乎真正拥有人类学习的各个方面，其触及了人工智能梦想的核心。本书的目的是提供深度强化学习领域的全面概述。其为人工智能研究生以及希望更好地理解深度强化学习方法及其挑战的研究人员和从业者而编写的。通过假设对计算机科学和人工智能有本科水平的理解；本书的编程语言是 Python，其描述了深度强化学习的基础、算法和应用并涵盖了构成该领域基础的已建立的无模型和基于模型的方法。发展很快，其还涵盖了高级主题：深度多智能体强化学习、深度分层强化学习和深度元学习。

论文链接：

https://arxiv.org/pdf/2201.02135.pdf

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第33期：UdeM | 基于不确定性估计的样本高效深度强化学习相关推荐

论文浅尝 | ADRL：一个基于注意力机制的知识图谱深度强化学习框架
论文笔记整理:谭亦鸣,东南大学博士. 来源:Knowledge-Based Systems 197 (2020) 105910 链接:https://www.sciencedirect.com/sci ...
【组队学习】【33期】组队学习内容详情
第33期 Datawhale 组队学习活动马上就要开始啦! 01月05日(星期三),宣发,寒假组队学习计划!. 01月08日(星期六),进入学习群.开营仪式. 本次组队学习的内容为: 吃瓜教程--西瓜 ...
【组队学习】【31期】基于Python的办公自动化
基于Python的办公自动化航路开辟者:牧小熊.刘雯静.张晓东.吴争光.隆军领航员:六一航海士:牧小熊.李显.刘羽中.王晓亮基本信息开源内容:https://github.com/dataw ...
【组队学习】【28期】基于transformers的自然语言处理(NLP)入门
基于transformers的自然语言处理(NLP)入门论坛版块: http://datawhale.club/c/team-learning/39-category/39 开源内容: https: ...
【组队学习】【28期】基于Python的会员数据化运营
基于Python的会员数据化运营论坛版块: http://datawhale.club/c/team-learning/37-category/37 开源内容: https://github.com ...
OpenCV学习笔记（二十六）——小试SVM算法ml OpenCV学习笔记（二十七）——基于级联分类器的目标检测objdect OpenCV学习笔记（二十八）——光流法对运动目标跟踪Video Ope
OpenCV学习笔记(二十六)--小试SVM算法ml 总感觉自己停留在码农的初级阶段,要想更上一层,就得静下心来,好好研究一下算法的东西.OpenCV作为一个计算机视觉的开源库,肯定不会只停留在数字图 ...
【组队学习】【33期】数据可视化（Matplotlib）
数据可视化(Matplotlib) 航路开辟者:杨剑砺.杨煜.耿远昊.李运佳.居凤霞领航员:王森航海士:肖明远.郭棉昇基本信息开源内容:https://github.com/datawhale ...
【组队学习】【33期】Scratch（一级）
Scratch一级航路开辟者:王思齐.马燕鹏领航员:马燕鹏航海士:马燕鹏基本信息开源内容:https://github.com/datawhalechina/team-learning-pr ...
【组队学习】【33期】3. 李宏毅机器学习（含深度学习）
李宏毅机器学习(含深度学习) 航路开辟者:王茂霖.陈安东,刘峥嵘,李玲领航员:宋泽山航海士:汪健麟.叶梁基本信息开源内容:https://github.com/datawhalechina/l ...

《强化学习周刊》第33期：UdeM | 基于不确定性估计的样本高效深度强化学习

《强化学习周刊》第33期：UdeM | 基于不确定性估计的样本高效深度强化学习相关推荐

最新文章

热门文章