[论文阅读]LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning

标题含义：LDSA: 在合作式多智能体强化学习中学习动态任务分配
文章来源：NeurIPS 2022
原文链接：https://arxiv.org/abs/2205.02561

博主是一个科研萌新，刚刚入门多智能体强化学习。如有对本论文理解错误或不周之处，还请各位大佬海涵与斧正。

摘要

为了保证训练时的效率和scalability，绝大部分MARL会让智能体共享策略或价值网络。在许多复杂的多智能体任务中，我们希望不同的智能体具有处理不同子任务的特定能力。不加选择地共享参数可能会导致所有智能体的行为相似，这将限制探索效率并降低最终性能。为了平衡训练复杂性和智能体行为的多样性，文章提出LDSA框架来学习协作 MARL 中的动态子任务分配。

简介

许多复杂的多智能体任务可以视为许多子任务的组合，每一个子任务的transition和奖励函数是不一样的，解决每一个子任务需要特定的能力，而全参数共享可能导致智能体的行为都是相似的，阻碍了智能体策略的多样性。其中一个解决方法为按照子任务划分智能体，为每一个子任务学习一个网络。这个方法有两个难点：(1)如何划分子任务(2)如何实现智能体的分配。
之前有一篇叫做RODE: Learning Roles to Decompose Multi-Agent Tasks是较早研究这个方向的，RODE希望在不引入先验知识的情况下，通过划分联合动作空间，依据动作效果对动作进行聚类来实现子任务的划分。在LDSA一文中，作者认为RODE可能会在某些基本动作是所有子任务所需的情况下失效，而且当动作对环境产生的效果变化较为频繁时，界定动作的效果是比较困难的。[?]
文章提出了LDSA框架。具体来说文章提出了：
①subtask encoder 子任务编码器。子任务编码器依据子任务的identity，构建了每一个子任务的向量表征(vector representation )。
②trajectory encoding network 轨迹编码网络。动作观察历史轨迹反应了一个智能体的行为习惯和能力，可以作为选择子任务的重要依据。轨迹编码网络用于获取并编码每一个智能体的动作观察历史轨迹。
③subtask decoder 轨迹解码器。根据子任务表征生成每个子任务的策略参数，这也可以避免不同子任务之间策略的相似性。
④引入两个正则化来稳定训练，增大子任务之间的差异性。
然后，对于每个时间步长，每个智能体根据其动作观察历史和所有子任务表征的余弦相似度来获取子任务选择的分类分布，并使用 Gumbel-Softmax对子任务进行采样进行训练。

preliminaries

问题建模

方法

子任务表征

首先介绍如何构造一组不同的子任务来分解多智能体任务，如图1(a) 蓝色部分所示。为了消除对先验知识的依赖并将其应用于更广泛的多智能体任务，根据子任务的identity $i$ 为每个子任务 $ϕi\phi_i$ 学习向量表征 $xϕix_{\phi_i}$ [?]。采用两层全链接层来学习子任务编码器 $fe(⋅∣θe):Rk−>Rmf_e(·|\theta_e): R^k->R^m$ 。子任务编码器将子任务 $ϕi\phi_i$ 的独热标识映射到 m 维表示空间，激活函数tanh用于限制输出大小。

当子任务相似度较高，进行任务分解是没有意义的，为了保持子任务之间的不同，提出了：

子任务表征学习贯穿整个训练过程，可以自动适应环境的动态变化。

基于能力的子任务选择 (Ability-based subtask selection)

通过子任务表征划分完任务后，文章根据每个智能体的能力设计了子任务选择策略。正如前文所说，智能体的行为观察历史可以反映其行为习惯和潜在能力。如图1(b) 绿色所示，利用由 GRU和两个全连接网络组成的轨迹编码器 $fh(⋅∣θh)f_h(·|\theta_h)$ 来获取每个智能体的动作观察历史。该编码器是共享的，将智能体的 $g_a$ d的trajectory编码为向量 $xτax_{\tau_a}$ ∈ $R^m$ ， $xτax_{\tau_a}$ 就是智能体 $g_a$ 的能力表征。

对于每一个智能体 $g_a$ ，计算其 $xτax_{\tau_a}$ 和每一个子任务表征 $xΦ:=[xϕi]i=1kx_\Phi:={[x_{\phi_i}]}_{i=1}^k$ 的余弦相似度，因为子任务表征经过了tanh被限制了大小，因此相似度可以表示为 $similarity(xτa,xϕi)=xτaTxϕisimilarity(x_{\tau_a},x_{\phi_i})=x_{\tau_a}^Tx_{\phi_i}$ 。在相似度上采用softmax，得到子任务选择的分类分布：

直接从分类分布采样时不可微的。为了训练子任务选择过程，采用straight-through gumbel softmax estimator 来采样子任务 $ϕj\phi_j$ ， $ϕj\phi_j$ 会被分解为k维独热编码，即独热子任务identity $d_j$ .
每一个时间步，每一个智能体都会选择一个子任务。为了平滑子任务的子任务选择并稳定训练，引入了第二个正则化器，以最小化任意两个相邻时间步长的子任务选择分布之间的 KL 散度，KL散度越小，表示越接近。

基于表征的子任务策略

在根据智能体的能力将智能体分组到不同的子任务之后，要学习每个子任务的策略，如图 1©紫色所示。处理相同子任务的智能体共享策略参数，不同的子任务具有不同的策略参数。采用一个新的(共享的)轨迹编码器 $fτ(⋅∣θτ)f_\tau(·|\theta_\tau)$ 以生成智能体的动作观测历史 $hτah_{\tau_a}$ 。每一个子任务的策略是一个全连接的网络 $fϕi(⋅;θϕi)f_{\phi_i}(·;\theta_{\phi_i})$ 。采用子任务解码器 $fd(⋅∣θd)f_d(·|\theta_d)$ ，基于子任务表征来生成 $ϕi\phi_i$ 策略网络的参数。
对于解决 $ϕi\phi_i$ 的每一个 $g_a$ ∈ $AϕiA_{\phi_i}$ ，将其 $hτah_{\tau_a}$ 输入至所有子任务策略网络，产生个体Q函数 $Qa,ϕiQ_{a,\phi_i}$ 。被选中子任务的独热identity可以理解为掩码，如果 $g_a$ 选中了 $ϕj\phi_j$ ，个体Q函数 $Qa=Qa,ϕjQ_a =Q_{a,\phi_j}$ 。每个智能体只训练其所选子任务的策略参数。通过这种方式，具有相似能力的智能体倾向于选择相同的子任务，从而可以分享经验来加速训练和提高性能。

全局的损失

采用类似QMIX的混合网络的形式。

整体优化目标为：

$λϕ\lambda_\phi$ 和 $λh\lambda_h$ 分别是两个正则化器的正系数。在测试去中心化策略阶段，每个智能体选择子任务选择分布上概率最大的子任务。

实验部分

LDSA与QMIX、ROMA、RODE进行比较。作者认为RODE在执行过程中采用了许多基于环境先验信息的规则，所以在对比中就去除掉RODE中的这些规则。

总结

任务分解是简化复杂多智能体任务的重要方法，在不使用先验知识的情况下还没有得到很好的解决。 LDSA将任务分解为由latent embedding表示的几个子任务。智能体根据他们的能力选择子任务，这些能力基于行动观察历史。通过这种方式，处理相同子任务的智能体可以共享他们的学习来解决子任务，这可以在可控的训练复杂度下学习所有子任务所需的特定能力。尽管每个子任务的embedding representation 可能是抽象的，但它本质上将具有相似能力的智能体聚集到同一组中，因此可以动态地分享他们的经验以加速训练并提高性能。

个人疑问思考：

(1)不太理解对于子任务的representation具体是如何得到的。如果是基于identity，按照建模部分讲的就是一串编号 ${{1,..,k}}$ ，这串编号独热编码后，感觉和任务本身也没有什么实质性关系，怎么就可以作为分类依据。
(2)对于划分子任务部分仍存在疑问。整个任务空间是依据什么划分出来的，fig1.(a)感觉更像是在划分后然后根据每一个子任务的向量进行操作。感觉全文没有定义任务，而是根据行为动态的进行参数分享，对于task decomposition的部分讲解有些抽象。
(3)不太理解作者说的RODE需要的基于先验的规则是哪一些。就我对于RODE的阅读，没发现需要先验规则.(和我太菜没有看代码有关，下一步会着重提升看代码的能力，明白了之后再来解答)。就算RODE基于先验了，为什么不和基于先验的RODE进行对比呢。
(4) SMAC好像出现了在全参数共享的情况下，QMIX加上一定的修改就可以实现100%胜率，感觉需要使用别的环境进行实验验证。