《强化学习周刊》第16期：多智能体强化学习的最新研究与应用

No.16

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，多智能强化学习的研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第16期《强化学习周刊》。本期周刊整理了近期多智能体强化学习领域相关的最新论文推荐、综述、新工具、课程等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（李明，刘青、陈斌）

论文推荐

多智能体强化学习近年来取得了令人瞩目的成就，其应用于各个领域的研究也取得较大的进步。多智能体强化学习通过对不同智能体学习策略奖励不同的情况下，不断改进学习算法。近年来，该方向已经取得了一系列瞩目的进展，比如交通信号控制、机器人控制、未知探索、公交车时刻表优化等。故多智能体强化学习领域具有较大的潜在研究优势。

多智能体强化学习的研究与应用越来越多，其在通信网络、合作探索、任务卸载等方面都有了深入的研究。本次推荐了8篇多智能体强化学习的相关论文，主要涉及应用于基于图注意的多智能体强化学习、基于多智能体强化学习的合作探索、基于知识迁移的多智能体改进、分布式多智能体强化学习、竞争性策略探索、结构关系推理、人机协作调度等。

标题：Packet Routing with Graph Attention Multi-agent Reinforcement Learning（基于图注意多智能体强化学习的封包路由）了解详情

简介：封包路由是通信网络中的一个基本问题，它决定了封包如何通过一些中间节点从其源节点定向到其目的节点。随着网络拓扑结构的日益复杂和高度动态的流量需求，传统的基于模型和基于规则的路由方案由于简化和不切实际的模型假设以及缺乏灵活性和适应性而表现出明显的局限性。网络控制智能化正在成为一种趋势，也是实现网络高效运行的关键。本文通过利用强化学习 (RL) 开发了一种无模型和数据驱动的路由策略，其中路由器与网络交互并从经验中学习，为未来做出一些好的路由配置。考虑到网络拓扑的图性质，其结合图神经网络 (GNN) 设计了一个多代理 RL 框架，针对路由问题量身定制。分别探索了三种部署范式，集中式、联合式和协作式学习。仿真结果表明，本文的算法在数据包传输延迟和可承受负载方面优于一些现有的基准算法。

https://arxiv.org/pdf/2107.13181.pdf

https://hub.baai.ac.cn/view/9054

标题：Cooperative Exploration for Multi-Agent Deep Reinforcement Learning（基于多智能体深度强化学习的合作探索）了解详情

简介：探索对于深度强化学习的良好效果至关重要，并已引起了广泛关注。然而，现有的多智能体深度强化学习算法仍然主要使用基于噪声的技术。最近，开发方法，考虑多个代理之间的合作已经开发出来。然而，现有的方法面临着一个共同的挑战：代理努力识别值得探索的状态，并且几乎无法协调针对这些状态的探索工作。为了解决这一缺点，本文提出了合作多智能体探索（CMAE）：智能体在探索过程中共享一个共同的目标。目标通过基于归一化熵的技术从多个投影状态空间中选择。然后，训练智能体以协调的方式实现这一目标。本文证明了CMAE在各种任务上始终优于基线，包括稀疏奖励版本的多粒子环境（MPE）和星际争霸多智能体挑战（SMAC）。

论文地址：https://arxiv.org/pdf/2107.11444.pdf

标题：Multi-agent Reinforcement Learning Improvement in a Dynamic Environment Using Knowledge Transfer（动态环境下基于知识转移的多智能体强化学习改进）了解详情

简介：多智能体协作系统在许多领域得到了广泛的应用。代理之间的交互将带来积极的方面，包括降低操作成本、高可扩展性和促进并行处理。这些系统为处理大规模、未知和动态环境铺平了道路。然而，在这些环境中学习已成为不同应用中的一个突出挑战。这些挑战包括搜索空间大小对学习时间的影响、代理之间不适当的合作以及代理决策之间缺乏适当的协调。此外，在这些问题中，强化学习算法可能会受到长时间收敛的影响。本文介绍了一个使用知识转移概念的通信框架，以解决具有大状态空间的羊群问题中的此类挑战。为了解决收敛问题，知识转移被用来显著提高强化学习算法的效率。代理之间的协调分别通过每组代理中的主代理和协调代理来执行。研究结果表明，该框架确实可以提高学习速度并缩短收敛时间。

论文地址：https://arxiv.org/pdf/2107.09807.pdf

标题：Decentralized Multi-Agent Reinforcement Learning for Task Offloading Under Uncertainty（不确定环境下任务卸载的分散式多智能体强化学习）了解详情

简介：由于环境的非平稳性和组合动作空间的高维性，多智能体强化学习（MARL）是强化学习的一个具有挑战性的子领域。deepmarl算法已被应用于解决不同的任务卸载问题。然而，在实际应用中，代理所需的信息（即奖励和状态）会受到干扰和更改。深度 MARL 对实际挑战的稳定性和鲁棒性仍然是一个开放的研究问题。本文应用最先进的MARL算法来解决具有奖励不确定性的任务卸载问题。研究发现，与具有完美奖励的学习相比，奖励信号中的扰动会导致性能下降。作者希望本论文能够激发更多的研究，以研究和解决在无线通信系统中部署deep MARL解决方案的实际挑战。

论文地址：https://arxiv.org/pdf/2107.08114.pdf

标题：Strategically Efficient Exploration in Competitive Multi-agent Reinforcement Learning（基于竞争多智能体强化学习的策略性探索）了解详情

简介：高样本复杂度仍然是强化学习（RL）应用的障碍，特别是在多智能体系统中。大量研究表明，基于不确定性下乐观原则的探索机制可以显著提高单智能体任务中RL的样本效率。本文旨在了解乐观探索在非合作多智能体环境中的作用。其将证明，在零和博弈中，乐观探索会导致学习者浪费时间对与战略游戏无关的状态空间部分进行采样，因为它们只能通过两个参与者之间的合作实现。为了解决这个问题，本文在马尔可夫博弈中引入了一个策略有效探索的形式化概念，并使用这个概念开发了两个针对有限马尔可夫博弈的策略有效学习算法。研究结果证明了这些方法比乐观的方法更有效。

论文地址：https://arxiv.org/pdf/2107.14698.pdf

标题：智能工厂在线调度的多智能体强化学习Multi-agent reinforcement learning for online scheduling in smart factories了解详情

简介：传感和通信技术的快速发展将产生大量数据的孤立制造单元连接起来。大规模定制的新趋势给生产计划带来了更高水平的干扰和不确定性。传统的制造系统在集中式架构中分析数据和调度订单，由于过度依赖中央控制器和有限的通信渠道，这种架构效率低下且不可靠。本文提出了智能工厂中新的网络物理集成，用于在线调度小批量高混合订单。首先，制造单位通过物联网技术通过信息物理系统（CPS）相互连接。加工操作的属性由射频识别 (RFID) 标签存储和传输。其次，为每个单元（例如，仓库、机器）提出了一种具有新颖神经网络的 AI 调度程序，以使用实时传感器数据调度动态操作。每个 AI 调度器都可以通过学习其他调度器的调度经验来与其他调度器协作。第三，设计了新的奖励函数，以提高基于强化学习 (RL) 的多个 AI 调度程序的决策能力。通过实际案例研究，在智能工厂中对所提出的方法进行了评估和验证。实验结果表明，智能工厂的新架构不仅提高了多个AI调度器的学习和调度效率，还有效处理了紧急订单和机器故障等突发事件。

论文地址：https://www.sciencedirect.com/science/article/pii/S0736584521000855

标题：用于多智能体强化学习的结构关系推理的 Actor-Critic/Structural Relational Inference Actor-Critic for Multi-Agent Reinforcement Learning了解详情

简介：多智能体强化学习 (MARL) 对于多种高维场景和具有多个智能体的复杂任务至关重要。已经对具有先验领域知识和预定义结构的代理进行了许多尝试。然而，多智能体系统（MAS）中智能体之间的交互关系通常是未知的，以前的方法无法处理不断变化的环境中的动态活动。在这里，本文提出了一种称为结构关系推理 Actor-Critic (SRI-AC) 的多智能体 Actor-Critic 算法，该算法基于集中训练和分散执行的框架。SRI-AC 利用变分自编码器 (VAE) 中的潜在代码来表示成对代理之间的交互，重建误差基于图神经网络 (GNN)。有了这个框架，测试强化学习学习者是否可以形成可解释的结构，同时在合作和竞争场景中取得更好的表现。结果表明，与基线算法相比，SRI-AC 可以应用于复杂的动态环境以找到可解释的结构，同时获得更好的性能。

论文地址：https://www.sciencedirect.com/science/article/pii/S0736584521000855

标题：使用深度多智能体强化学习优化人机协作中的任务调度Optimizing task scheduling in human-robot collaboration with deep multi-agent reinforcement learning了解详情

简介：人机协作 (HRC) 为提高制造流程的效率提供了机会。然而，现有的 HRC 任务规划方法在很多方面仍然受到限制，在本文中，HRC 装配工作过程被格式化为一种新颖的棋盘设置，其中棋子移动的选择被用来类比 HRC 装配工作过程中人类和机器人的决策。为了优化完成时间，考虑了马尔可夫博弈模型，该模型以任务结构和代理状态作为状态输入，以总完成时间作为奖励。没有专家的知识，该博弈模型能够在具有收敛性的代理之间寻求相关的均衡策略，从而做出面对动态环境的实时决策。为了提高寻找任务调度最优策略的效率，应用了一种基于深度 Q 网络（DQN）的多智能体强化学习（MARL）方法，并与 Nash-Q 学习、动态规划和 DQN-基于单智能体的强化学习方法。高度可调的办公桌组件用作案例研究，以证明所提出的算法在不同数量的任务和代理下的有效性。应用基于深度 Q 网络 (DQN) 的多智能体强化学习 (MARL) 方法并与 Nash-Q 学习、动态规划和基于 DQN 的单智能体强化学习方法进行比较。高度可调的办公桌组件用作案例研究，以证明所提出的算法在不同数量的任务和代理下的有效性。

论文地址：https://www.sciencedirect.com/science/article/pii/S0278612521001527

综述

标题：多智能体深度强化学习：综述Multi-agent deep reinforcement learning: a survey了解详情

简介：强化学习的进步已记录了各个领域的卓越成就。尽管在此过程中，多智能体领域已被其单智能体领域所遮盖，但多智能体强化学习获得了快速发展的动力，最新成果解决了现实世界中的复杂性问题。本文概述了多智能体深度强化学习领域的最新发展。主要关注近年来的文献，这些文献结合了深度强化学习方法和多智能体方案。主要内容分为三个部分。首先，分析了用于训练多个特工的训练方案的结构。第二，考虑了合作，竞争和混合场景中代理行为的新兴模式。第三，系统地枚举了多代理领域中唯一出现的挑战，并回顾了用于应对这些挑战的方法。本文讨论了研究进展，确定趋势并概述了该研究领域未来工作的可能方向。

论文地址：

https://link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf

新工具

MALib：基于群体的多智能体强化学习并行框架了解详情

简介：MALib 是一个基于种群的学习的并行框架，嵌套有（多代理）强化学习 (RL) 方法，例如 Policy Space Response Oracle、Self-Play 和 Neural Fictitive Self-Play。MALib 提供了更高级别的 MARL 训练范式抽象，可以在不同的分布式计算范式上实现高效的代码重用和灵活部署。MALib 的设计也力求推动其他多智能体学习的研究，包括多智能体模仿学习和基于模型的 MARL。基于种群的多智能体强化学习(PB-MARL)是指嵌套强化学习(RL)算法的一系列方法，这些方法通过耦合的种群动态产生自生成的任务序列。通过利用自动课程来诱导一群不同的紧急策略，PB-MARL在处理多智能体任务方面取得了令人印象深刻的成功。尽管分布式RL框架的现有技术非常出色，但由于异构策略交互所涉及的采样、训练和评估之间的多个嵌套工作负载的额外复杂性，PB-MARL对并行化训练框架提出了新的挑战。为了解决这些问题，提出了一个可扩展的高效计算框架。框架由三个关键部分组成:(1)集中式任务调度模型，支持自生成任务和异构策略组合的可扩展训练；(2)一个名为“教师-评估者-学习者”的编程架构，实现了训练和采样的高度并行，满足了自动课程学习的评估需求；(MARL训练范例的更高级抽象，它在不同的分布式计算范例上实现了高效的codereuseandflexibledeployments。实验表明，在一台拥有32个中央处理器内核的机器上，马利巴赫的吞吐量高于40K FPS；在多智能体训练任务中，比RLlib加速5倍，比OpenSpiel至少加速3倍。

课程

伦敦大学学院课程《多智能体机器学习（2021）》了解详情

简介：主讲人为伦敦大学学院（UCL）计算机系教授汪军，适合广大多智能体研究的爱好者。现在已经更新48期。本课程基于伦敦大学学院计算机系2020-2021学年度课程Multi-agent Artificial Intelligence (20/21)，主要介绍多智能体机器学习。课程将机器学习的研究与博弈论和经济学研究相结合，包括博弈论、拍卖理论、算法机制设计、多智能体（深度）强化学习等主题，同时还将讨论相关的实际应用，包括在线广告、在线拍卖、生成模型的对抗训练、机器人规划，以及玩在线游戏的智能体。课程为英文授课，与UCL授课进度同步。

课程地址:

https://app6ca5octe2206.pc.xiaoe-tech.com/detail/p_603db816e4b0a77c389892d3/6

RLChina 2021 强化学习暑期课（8月16日-22日）了解详情

简介：RLChina 暑期课程是由英国UCL大学汪军老师发起，强化学习业内顶尖学者共同分享给广大强化学习爱好者的免费网络直播课程。在2020 年的课程就吸引了超过 3 千名学员，课程也获得了大家的一致好评。今年，RLChina 暑期课全新升级，20 位来自全球顶级高校和企业的强化学习专家共同学员讲授从入门到前沿的强化学习知识，此外还准备了习题课、智能体竞赛日、决策智能创业日帮助大家全方位地接触强化学习从理论到落地实践。

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第16期：多智能体强化学习的最新研究与应用相关推荐

组会汇报(本科)-在复杂楼层背景下，一种基于深度强化学习的目的楼层预约调度算法的多智能体电梯群控系统的研究
项目代码地址总体流程引入概念,说明问题,讲解论文,提出方案对综述的引用说明,在老师给的综述中,文献调研时间是2019,从技术的发展历程角度考虑,本文只作部分引用,更多地倚靠2020左右地文章,因 ...
多智能体强化学习思路整理
多智能体强化学习算法思路整理目录摘要背景和意义研究背景强化学习多智能体强化学习与博弈论基础研究意义问题与挑战问题分类问题分析环境的不稳定性与可扩展性的平衡部分可观测的马尔可夫决 ...
多智能体强化学习：合作关系设定下的多智能体强化学习
0 前言在多智能体系统中,一个智能体未必能观测到全局状态 S.设第 i 号智能体有一个局部观测,它是S的一部分. 我们假设所有的局部观测的总和构成了 ...
AlphaStar再升级：多智能体强化学习玩《星际争霸2》，排名超99.8%人类玩家
[进群了解最新免费公开课.技术沙龙信息] 作者 | DeepMind 译者 | 刘畅编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) AlphaStar是第一个在没有任何游戏 ...
一文搞定！！！多智能体强化学习的前世今生
最近在学习多智能体的强化学习,看了几篇高质量基础论文,发现还是很有必要将强化学习的体系简单过一遍,然后再有针对性地练习代码. 推进文章:多智能体强化学习路线图 (MARL Roadmap) 转载总结链 ...
《多智能体博弈学习研究进展--罗俊仁，张万鹏》论文笔记
目录一.引言二.多智能体学习简介 2.1多智能体学习系统组成 2.2 多智能体学习概述 2.3 多智能体学习研究方法分类三. 多智能体博弈学习框架 3.1 多智能体博弈基础模型及元博弈 3.1. ...
《强化学习周刊》第40期：PMIC多智能体强化学习、Lazy-MDPs、CTDS
No.40 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
《强化学习周刊》第2期：多智能体强化学习（MARL）赋能“AI智能时代”
No.02 智源社区强化学习组 R L 学习研究观点资源活动关于周刊随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...
《强化学习周刊》第41期：MERLIN、分散式多智能体强化学习、异步强化学习
No.41 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

《强化学习周刊》第16期：多智能体强化学习的最新研究与应用

《强化学习周刊》第16期：多智能体强化学习的最新研究与应用相关推荐

最新文章

热门文章