《强化学习周刊》第32期：上海交大华为 | 可解释强化学习研究综述

No.32

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第32期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：李明、刘青、小胖

论文推荐

强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步，比如多智能体强化学习在工程领域、可解释性强化学习、基于平均奖励强化学习的网络服务应用、多智能体图强化学习、深度强化学习在智能交通领域、原始-对偶强化学习相关的理论及其最新应用等。

本次推荐了14篇强化学习领域的相关论文，主要涉及于基于多智能深度强化学习的无线干扰网络动态信道接入与功率控制、基于平均奖励强化学习的多提供商NFV网络服务委托、基于多智能体图强化学习的大规模机器学习集群调度、基于策略的深度强化学习的智能交通灯、基于演示的原始-对偶强化学习的有效性能界限、基于昂贵进化强化学习的代理辅助控制器、基于连续强化学习的量子体系结构搜索、基于超图卷积值函数分解的多智能体协同强化学习、结合主动变化检测和深度强化学习，基于多智能体模型的连续控制信用分配、基于对比学习与动态模型相结合的图像强化学习等。

标题：Dynamic Channel Access and Power Control in Wireless Interference Networks via Multi-Agent Deep Reinforcement Learning（基于Multi-Agent深度强化学习的无线干扰网络动态信道接入与功率控制）了解详情

简介：由于无线频谱的稀缺性和能量资源的有限性，有效的资源分配策略在无线网络中至关重要。本文研究了无线干扰网络中基于多代理DRL的联合动态信道接入和功率控制。首先提出了集中训练的多智能体DRL算法（DRL-CT）来解决联合资源分配问题。并在中央单元（CU）执行训练，训练后用户仅使用本地信息就其传输策略做出自主决策。研究表明在有限的信息交换和更快的收敛速度下，DRL-CT算法可以达到功率控制加权最小均方误差（WMMSE）算法和动态信道访问穷举搜索算法相结合所获得性能的90%。并考虑了分布式多代理DRL场景，其中每个用户进行自己的训练并单独做出决策，作为DRL智能体。最后，作为集中式和完全分布式场景之间的折衷，本文考虑联邦DRL（FDRL）在训练中使用中央单元来限制DRL-CT的性能，同时限制无线系统中的用户的信息交换和保持隐私。仿真结果表明，所提出的学习框架能够在动态环境下实现高效的自适应信道接入和功率控制策略。

论文链接：https://arxiv.org/pdf/2112.14709.pdf

标题：Multi-Provider NFV Network Service Delegation via Average Reward Reinforcement Learning（基于平均奖励强化学习的多提供商NFV网络服务委托）了解详情

简介：在多提供商5G/6G网络中，服务委托使管理域能够联合提供NFV网络服务。准入控制是选择适当部署域的基础，以便在事先不知道服务请求统计分布的情况下最大化平均利润。本文从多方面分析了服务委托的通用联邦契约模型。首先，在已知系统动力学的假设下，通过将接纳控制问题公式化为无限时域马尔可夫决策过程(MDP)并通过动态规划求解，得到理论上最优的性能界。其次，当到达率和离开率未知时，本文应用强化学习来实际解决问题。当Q学习使折扣奖励最大化时，由于它对折扣因子的敏感性，研究表明它不是有效的解决方案。然后，本文提出了平均奖励强化学习方法(R-Learning)来寻找直接使平均利润最大化的策略。最后，通过广泛的模拟和使用5Growth平台的实验来评估不同的解决方案。结果表明所提出的R-学习方案总是优于Q-学习和贪婪策略。此外，尽管在理想的模拟环境中最优性差距最多为9%，但它在实验评估中与MDP解类似。

论文链接：https://arxiv.org/pdf/2112.13093.pdf

标题：Large-scale Machine Learning Cluster Scheduling via Multi-agent Graph Reinforcement Learning（基于多智能体图强化学习的大规模机器学习集群调度）了解详情

简介：大型GPU集群中分布式深度学习（DL）作业的高效调度对于资源效率和作业性能至关重要。由于资源争用，位于同一位置的DL作业之间会发生干扰。现有研究采用基于显式干扰建模的白盒方法和基于强化学习的黑盒调度算法，研究了干扰感知的工作安排问题。由于工作负载规模庞大，运行单个调度程序来及时有效地管理所有到达作业具有挑战性。本文在大规模集群/数据中心中采用了多个调度器，并提出了多代理强化学习（MARL）调度框架，以协作学习细粒度作业布局策略，以最小化作业完成时间（JCT）为目标。为了实现拓扑感知布局，本文提出的框架使用分层图神经网络对数据中心拓扑和服务器架构进行编码。鉴于普遍缺乏与不同安置对应的精确奖励样本，并设计了工作干扰模型，用于预测不同位置的干扰水平，用于训练MARL调度器。测试平台和跟踪驱动的评估表明，该调度框架在平均JCT方面优于代表性调度方案20%以上，并且适用于各种机器学习集群拓扑。

论文链接：https://arxiv.org/pdf/2112.13354.pdf

标题：Intelligent Traffic Light via Policy-based Deep Reinforcement Learning（基于策略的深度强化学习的智能交通灯）了解详情

简介：智能城市中的智能交通灯可以最佳地减少交通拥堵。本文使用强化学习在城市交通模拟器上训练交通灯的控制代理。与已有的研究不同，本文采用了基于策略的深度强化学习方法，即近端策略优化（PPO），而不是基于值的方法，如深度Q网络（DQN）和双DQN（DDQN）。首先，将PPO得到的最优策略与DQN和DDQN得到的最优策略进行了比较。研究发现，PPO策略的性能优于其他策略。其次，通过采用可变时间间隔的交通灯相位，而不是固定间隔的交通灯相位，这导致了更好的通过交通流的策略。然后，研究了环境扰动和动作扰动的影响，证明了基于学习的控制器的鲁棒性。最后，本文考虑了非平衡交通流，发现智能交通灯可以对非平衡交通场景进行适度的处理，尽管它只从平衡交通场景中学习最优策略。

论文链接：https://arxiv.org/pdf/2112.13817.pdf

标题：A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement Learning（基于昂贵进化强化学习的代理辅助控制器）了解详情

简介：强化学习（RL）和进化算法（EAs）的集成旨在同时利用样本效率以及两种范式的多样性和鲁棒性。最近，基于该原理的混合学习框架在各种具有挑战性的机器人控制任务中取得了巨大成功。然而，在这些方法中，来自遗传群体的策略是通过与真实环境的交互来评估的，这限制了它们在计算昂贵的问题中的适用性。本文提出了代理辅助控制器(SC)，一种新颖而高效的模块，可以集成到现有的框架中，通过部分替代昂贵的策略评估来减轻EAs的计算负担。应用此模块的关键挑战是防止优化过程被代理引入的可能的虚假最小值误导。为了解决这个问题，本文为SC提供了两种策略来控制混合框架的工作流。在OpenAI Gym平台的六个连续控制任务上的实验表明，SC不仅可以显著降低适应度评估的成本，还可以提升具有协作学习和进化过程的原始混合框架的性能。

论文链接：https://arxiv.org/pdf/2201.00129.pdf

标题：Efficient Performance Bounds for Primal-Dual Reinforcement Learning from Demonstrations（基于演示的原始-对偶强化学习的有效性能界限）了解详情

简介：本文考虑了具有未知成本函数的大规模马尔可夫决策过程，从一组有限的专家演示中解决学习策略的问题。并假设学习者不被允许与专家互动，也无法获得任何形式的强化信号。现有的逆强化学习方法具有强大的理论保证，但计算成本较高，而最先进的策略优化算法取得了显著的经验成功，但受到理论理解的限制。为了弥合理论和实践之间的鸿沟，通过引入了一种基于拉格朗日对偶的双线性鞍点框架。所提出的原始-对偶观点允许本文通过随机凸优化的视角开发一个无模型的可证明有效的算法。该方法具有实现简单、内存需求低、计算和样本复杂度与状态数无关等优点。该研究进一步提供了一个等效的无悔在线学习解释。

论文链接：https://arxiv.org/pdf/2112.14004.pdf

标题：Quantum Architecture Search via Continual Reinforcement Learning（基于连续强化学习的量子体系结构搜索）了解详情

简介：与经典计算机相比，量子计算有望在解决复杂计算任务方面取得重大进步。然而，为实际用途设计量子电路并不是一个简单的目标，需要专家级的知识。故本文提出了一种基于机器学习的方法来构建量子电路体系结构。以前的工作已经证明，经典的深度强化学习（DRL）算法可以在没有编码物理知识的情况下成功构建量子电路结构。然而，这些基于DRL的工作不能推广到设备噪声不断变化的环境中，因此需要大量的培训资源来保持RL模型的最新。基于此，文章结合了持续学习来提高算法的性能。本文提出了基于深度Q学习的概率策略重用（PPR-DQL）框架来解决这一电路设计难题。通过对各种噪声模式进行数值模拟，证明了具有PPR的RL代理能够比从头开始训练的代理更快地找到量子门序列来生成双量子比特贝尔态。该框架具有通用性，可应用于其他量子门合成或控制问题，包括量子器件的自动校准。

论文链接：https://arxiv.org/pdf/2112.05779.pdf

标题：Deep Q-Network with Proximal Iteration（具有近似迭代的深Q网络）了解详情

简介：在强化学习中，采用近似迭代法优化值函数。近似迭代是一种计算效率高的技术，它能够将优化过程偏向于更理想的解决方案。作为近端迭代在深度强化学习中的具体应用，我们赋予深度Q网络（DQN）代理的目标函数一个近端项，以确保DQN的在线网络组件保持在目标网络附近。最终的代理，称之为DQN与近端迭代，或DQNPro，在Atari基准上比原始的DQN有显著的改进。结果强调了采用声音优化技术进行深度强化学习的能力。

论文链接：https://arxiv.org/pdf/2112.05848.pdf

标题：Value Function Factorisation with Hypergraph Convolution for Cooperative Multi-agent Reinforcement Learning（基于超图卷积值函数分解的多智能体协同强化学习）了解详情

简介：近年来，多agent系统（MAS）中agent之间的协作已成为研究的热点，许多基于集中训练和分散执行（CTDE）的算法如VDN和QMIX也被提出。但是，这些方法忽略了隐藏在单个动作值中的信息。在本文中，文章提出了超图卷积混合（HGCN-MIX），一种结合超图卷积和值分解的方法。通过将动作值视为信号，HGCN-MIX旨在通过自学习超图探索这些信号之间的关系。实验结果表明，HGCN-MIX在各种情况下，尤其是在具有多个代理的情况下，与星际争霸II多代理挑战（SMAC）基准中的最新技术相匹配或超过。

论文链接：https://arxiv.org/pdf/2112.06771.pdf

标题：Multiagent Model-based Credit Assignment for Continuous Control（基于多智能体模型的连续控制信用分配）了解详情

简介：深度强化学习（RL）最近在机器人连续控制任务中显示出巨大的前景。然而，之前在这方面的研究主要集中在集中式学习环境，该环境在很大程度上依赖于机器人所有组件之间的通信可用性。然而，由于延迟要求、有限的电源预算和安全问题，现实世界中的代理通常以分散的方式运行，没有通信。通过将机器人组件描述为一个分散代理系统，本文提出了用于连续控制的分散多代理强化学习框架。为此，首先开发了协作式多代理PPO框架，该框架允许在培训期间进行集中优化，并在执行期间进行分散操作。然而，系统只接收到一个全局奖励信号，该信号不是针对每个代理的。故本文提出了一个通用的博弈论信用分配框架，用于计算特定于代理人的奖励信号。还将基于模型的RL模块纳入了信用分配框架，从而显著提高了样本效率。在Mujoco运动控制任务的实验结果上证明了我们的框架的有效性。

论文链接：https://arxiv.org/pdf/2112.13937.pdf

标题：Sequential Episodic Control（连续片段控制）了解详情

简介：最先进的深度强化学习算法由于需要大量的事件才能达到渐近性能，因此效率低下。受哺乳动物海马体启发的情节强化学习（ERL）算法通常使用扩展记忆系统从过去事件中引导学习，以克服样本效率低下的问题。然而，这种记忆增强通常仅仅用作缓冲区，从中提取孤立的过去经验，以离线方式学习（例如，回放）。本文证明了在获取的记忆内容中包含一个偏差，该偏差来自于情景采样的顺序，可以提高情景控制算法的样本和记忆效率。通过觅食任务中测试了的顺序情节控制（SEC）模型，以表明存储和使用集成的情节作为事件序列会导致更快的学习，并且内存需求更少，这与标准ERL基准、无模型情节控制（仅缓冲孤立事件）相反。还研究了记忆约束和遗忘对顺序和非顺序SEC算法的影响。并讨论了类似海马的快速记忆系统如何引导哺乳动物大脑皮层和皮层下学习习惯的形成。

论文链接：https://arxiv.org/pdf/2112.14734.pdf

标题：Self Reward Design with Fine-grained Interpretability（具有细粒度可解释性的自我奖励设计）了解详情

简介：深度强化学习中的透明度和公平性问题可能源于用于学习其策略、值函数等的深度神经网络的黑盒性质。本文提出了通过具有详细解释性的自底向上设计神经网络（NN）来规避这一问题的方法，每个神经元或层都有自己的意义和效用，符合人类可以理解的概念。通过精心设计，证明了拉瓦兰问题可以用参数较少的神经网络模型来解决。此外，引入了受反向奖励设计启发的自我奖励设计（SRD），可解释设计可以（1）通过纯设计解决问题（尽管不完全）（2）通过SRD进行优化（3）通过识别聚集中的神经元失活来避免未知状态。

论文链接：https://arxiv.org/pdf/2112.15034.pdf

标题：Integrating Contrastive Learning with Dynamic Models for Reinforcement Learning from Images（基于对比学习与动态模型相结合的图像强化学习）了解详情

简介：图像强化学习方法使用辅助任务来学习智能体策略或 Q 函数使用的图像特征。尤其基于对比学习的方法，诱导潜在动态的线性或数据增强的不变性，已被证明可以大大提高强化学习算法的样本效率和学习嵌入的泛化性。本文认为明确改进学习嵌入的马尔可夫性是可取的，并提出一种自我监督的表示学习方法，该方法将对比学习与动态模型相结合，以协同组合这三个目标：（1）最大化 InfoNCE 之间的互信息边界状态和动作嵌入以及下一状态的嵌入以在不显式学习线性转换模型的情况下诱导线性预测嵌入；（2）通过使用回归显式学习非线性转换模型来进一步提高学习嵌入的马尔可夫性；（3）最大化基于当前动作和当前状态的两个独立增强的下一个嵌入的两个非线性预测之间的互信息，这自然地不仅对于状态嵌入，而且对于非线性引入了变换不变性过渡模型。

论文链接：https://www.sciencedirect.com/science/article/pii/S0925231221019500#!

标题：Towards optimal HVAC control in non-stationary building environments combining active change detection and deep reinforcement learning（结合主动变化检测和深度强化学习，在非固定建筑环境中实现最佳 HVAC 控制）了解详情

简介：供暖、通风和空调（HVAC）能耗显著增加，在建筑能耗增长中占很大比例。需要先进的控制策略来降低能耗，同时保持住户的热舒适度。关键的限制是非平稳性，即变化的 HVAC 系统动态。深度强化学习因其在捕获实时信息、自适应系统反馈控制、避免繁琐的建模工作等方面的优势而备受关注。然而，目前的研究以被动的方式解决了非平稳性，这阻碍了其潜力并增加了实际应用中的不稳定性。为了填补这一研究空白，本文提出了一种结合主动建筑环境变化检测和深度 Q 网络 (DQN) 的新型 HVAC 控制方法，称为非平稳 DQN。该方法旨在通过主动识别建筑环境的变化点并学习相应建筑环境的有效控制策略来解开非平稳性。

论文链接：https://www.sciencedirect.com/science/article/pii/S0360132321010702#!

研究综述

标题：交大密西根学院&华为诺亚方舟实验室 | 可解释强化学习研究综述

了解详情

简介：深度强化学习已成为解决顺序决策问题的一种很有前途的机器学习方法，但对于自主驾驶或医疗应用等高风险领域，深度强化学习还不够成熟。在此情况下，学习到的策略需要是可解释的，以便在任何部署之前对其进行检查（例如，出于安全和可验证的原因）。本研究综述了在强化学习（RL）中实现更高解释性的各种方法。为此，本文区分了可解释性（作为模型的一个属性）和可解释性（作为一个临时操作，在智能体的干预下），并在RL的上下文中讨论它们。本文认为可解释的RL可能包含不同的方面：可解释的输入、可解释的（转换/奖励）模型和可解释的决策。基于此方案，该研究总结和分析了最近与可解释RL相关的研究工作，其重点是过去10年发表的论文。本文最后还简要讨论了一些相关的研究领域，并指出了一些潜在的有前途的研究方向。

论文链接：https://arxiv.org/pdf/2112.13112.pdf

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第32期：上海交大华为 | 可解释强化学习研究综述相关推荐

【组队学习】【32期】深入理解计算机系统
深入理解计算机系统航路开辟者:李岳昆.易远哲领航员:初晓宇航海士:叶前坤.沈豪基本信息开源内容:https://github.com/datawhalechina/team-learning ...
【组队学习】【32期】吃瓜教程——西瓜书+南瓜书
吃瓜教程--西瓜书+南瓜书航路开辟者:谢文睿.秦州领航员:陈伟峰航海士:谢文睿.秦州基本信息开源内容:https://github.com/datawhalechina/pumpkin-bo ...
【组队学习】【32期】数据可视化（Matplotlib）
数据可视化(Matplotlib) 航路开辟者:杨剑砺.杨煜.耿远昊.李运佳.居凤霞领航员:王万航海士:范歆琦.张文恺基本信息开源内容:https://github.com/datawhale ...
【组队学习】【32期】SQL编程语言
SQL编程语言航路开辟者:王复振.杨煜.闫钟峰.杨梦迪.苏鹏.红星.张晋.汪健麟领航员:李云龙航海士:蒋志强.闫钟峰基本信息开源内容:https://github.com/datawhale ...
【组队学习】【32期】李宏毅机器学习（含深度学习）
李宏毅机器学习(含深度学习) 航路开辟者:王茂霖.陈安东,刘峥嵘,李玲领航员:郭棉昇航海士:汪超.赵美基本信息开源内容:https://github.com/datawhalechina/le ...
【组队学习】【32期】动手学数据分析
动手学数据分析航路开辟者:陈安东.金娟娟.杨佳达.老表.李玲.张文涛.高立业领航员:范淑卷航海士:武者小路.曾心怡基本信息内容属性:精品入门课系列开源内容:https://github.c ...
【组队学习】【32期】统计学习方法习题实战
统计学习方法习题实战航路开辟者:胡锐锋.王维嘉.王瀚翀.王茸茸.毛鹏志领航员:张璇航海士:胡锐锋.王维嘉.王瀚翀.王茸茸.毛鹏志.王天富.范佳慧基本信息开源内容:https://github ...
【组队学习】【32期】Linux实践
Linux实践航路开辟者:刘羽中领航员:六一航海士:刘洋.王晓亮.陈玉立.六一基本信息开源内容:https://github.com/datawhalechina/team-learning ...
【组队学习】【32期】算法的应用
算法的应用航路开辟者:肖然领航员:李铭哲航海士:伊雪.左凯文基本信息开源内容:https://github.com/datawhalechina/team-learning-program/ ...

《强化学习周刊》第32期：上海交大华为 | 可解释强化学习研究综述

《强化学习周刊》第32期：上海交大华为 | 可解释强化学习研究综述相关推荐

最新文章

热门文章