Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning-笔记

Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning

0 摘要

我们提出了一种统一的机制，通过reward对其他Agent有causal influence的Agent，在Multi-Agent强化学习（MARL）中实现协调和沟通。使用反事实推理来评估causal influence。在每个时间步长，agent都会模拟它可能采取的替代操作，并计算它们对其他agent行为的influence。导致其他行为者行为发生较大变化的行为被认为具有influence，并且会得到reward。我们证明这等同于reward agent，因为他们的行为之间具有高度的相Mutual information。实证结果表明，在充满挑战的社会困境环境中，influence导致协作和沟通的增强，极大地增加了高级RLagent的学习曲线，并导致了更有意义的学习型沟通协议。通过使agent能够使用深度神经网络学习其他agent的模型，可以以分散的方式计算所有agent的influence reward。相比之下，先前在MARL环境中有关紧急交流的关键著作无法以分散的方式学习多种policy，而不得不求助于集中培训。因此，influence reward为该领域的研究提供了新的机会。

1 介绍

Intrinsic Motivation for Reinforcement Learning（RL）是指reward功能，它允许个体在各种任务和环境中学习有用的行为，有时在没有环境reward的情况下（Singh等人，2004）。以往对内在动机的研究通常侧重于好奇心（如Pathak等人（2017年）；Schmidhuber（2010年））或empowerment（如Klyubin等人（2005年）；Mohamed&Rezende（2015年））。在这里，我们考虑从多agent RL（MARL）中的其他agent获得内在social motivation的问题。社会学习对人类来说极其重要，它与我们实现前所未有的进步和大规模协调的能力密切相关（Henrich，2015；Harari，2014；Laland，2017；van Schaik&Burkart，2011；Herrmann et al.，2007）。虽然之前的一些研究已经调查了RL的内在social motivation（例如，Sequeira等人（2011年）；Hughes等人（2018年）；Peysakhovich & Lerer（2018年）），但这些方法依赖于特定于环境的手工制作的reward，或者允许agent查看其他agent获得的reward。这样的假设使得MARL agents不可能在多种环境下进行独立训练。

在MARL中实现agent之间的协调仍然是一个难题。在该领域的先前工作（例如，Foerster等人（2017; 2016））经常诉诸于集中培训以确保agent学会协调。尽管agent之间的沟通可以帮助协调，但是培训紧急沟通协议（emergent communication protocols）仍然是一个具有挑战性的问题。最近的经验结果突显了学习有意义的紧急通讯协议的困难，即使依赖于集中式训练也是如此（例如Lazaridou等人（2018）; Cao等人（2018）; Foerster等人（2016））。

为了研究我们的influence reward，我们采用了Leibo等人的顺序社会困境（SSD）multi-agent环境。（2017）。通过一系列三个实验，我们证明了所提议的social influence reward使agent能够学习在这些SSD中进行更有效的协调和沟通。我们直接从像素训练递归神经网络policy，并在第一个实验中表明，与social influence的social influence一起训练的深层RL agent比有效的基线深层RL agent更有效地学习并获得更高的集体reward，而后者往往是完全无法学习的。

在第二个实验中，influence reward用于直接训练agent使用明确的communication channel。我们证明，受influence reward训练的沟通协议对于获得更好的集体成果更有意义和更有效。此外，我们发现在受到沟communication息的influence与获得更高的个人reward之间存在显着的相关性，这表明有influence的沟通对接收它的agent是有益的。通过检查第二个实验中的学习曲线，我们再次发现，influencereward对于使agent学会协调至关重要。

最后，我们证明了当每个agent都配备了一个其他agent的内部神经网络模型（MOA）时，可以独立地训练influenceagent，该模型已经被训练来预测每个其他agent的行为。然后，agent可以模拟反事实行为，并使用自己的内部MOA来预测这些行为将如何influence其他agent，从而计算自己的内在influence reward。因此，influenceagent只有通过观察其他agent的行为，而不需要一个集中的控制器或访问另一个agent的reward功能，才能在社会上学习。因此，influencereward为我们提供了一种简单、普遍和有效的方法，可以克服这一研究领域长期存在的不切实际的假设和限制，包括集中培训和分享reward功能或policy参数。此外，利用表达性深度递归神经网络，可以直接从像素中学习influence reward和agent policy。在第三个实验中，学习曲线再次表明influence reward对于学习在这些复杂领域中的协调是必不可少的。

本文的结构如下。我们在第2节中描述了环境，在第3节中描述了MARL设置。第4节介绍了influence reward的基本公式，第5节通过包含明确的communication协议对其进行了扩展，第6节通过包含其他agent的模型对其进行了改进。实现独立培训。这三个部分中的每一个都提供实验和结果，以经验证明social influence reward的有效性。相关工作在第7节中介绍。最后，在第8节中提供有关因果推理过程的更多详细信息。

2 Sequential Social Dilemmas

Sequential Social Dilemmas（SSD）（Leibo et al。，2017）是具有游戏理论收益结构的部分可观察，时空扩展的multi-agent游戏。个体agent可以通过参与有缺陷的，不合作的行为而在短期内获得较高的reward（因此会贪婪地动机于缺陷），但是如果所有agent合作，每个agent的总收益将更高。因此，由一组agent在这些SSD中获得的集体 reward给出了有关agent学会协作程度的明确信号（Hughes等人，2018）。

我们在这项工作中尝试了两个SSD，一个公共物品游戏Cleanup和一个公共池资源游戏Harvest。在这两种游戏中，苹果（绿色方块）都提供 reward，但资源有限。agent必须与其他agent的行为协调收获苹果，以实现合作（有关更多详细信息，请参阅补充材料的第2节）。为了重现性，这些游戏的代码已在开源代码1中提供。

正如补充材料图10中的谢林图所揭示的那样，所有agent都将从学习合作中受益，因为即使是被剥削的agent，也比在更多agent失灵的情况下获得更高的reward。然而，传统的RLagent努力学习协调或合作以有效解决这些任务（Hughes et al。，2018）。因此，这些SSD代表了具有social influence reward的具有挑战性的基准任务。influence agents不仅必须学会协调自己的行为以获得high reward，而且还必须学会合作。

3 Multi-Agent RL for SSDs

我们考虑由元组<S，T，A，r>定义的MARL马尔可夫游戏，其中训练了multiple agents以独立地最大化其各自的reward；agent商不分担重量。环境状态由s∈S给出。在每个时间步t，每个agent k选择一个actionakt∈A。根据状态转换分布T，将所有N个agent的action组合为，从而在环境T（st + 1 | at，st）中产生转换。然后，每个agent都会收到自己的rewardrk（at，st），这可能取决于其他agent的行为。这些变量随时间的历史称为轨迹，τ= {st，at，rt} Tt = 0。我们考虑部分可观察的设置，其中第k个agent只能查看真实状态skt的一部分。每个agent都试图最大化其自己的总预期折现未来reward，，其中γ是折现因子。分布式异步优势参与者批评（A3C）方法（Mnih等，2016）用于训练每个agent的policyπk。

我们的神经网络由卷积层，完全连接的层，长短期记忆（LSTM）递归层（Gers等，1999）和线性层组成。所有网络都将图像作为输入，并输出policyπk和值函数Vπk（s），但是某些网络变体使用其他输入并输出communicationpolicy或其他agent行为的模型。我们将在时间步t处将第k个agent的内部LSTM状态称为ukt。

4 Basic Social Influence

社会influence的内在动机给因果对其他行为者的causal influence产生了额外的reward。具体来说，它修改了agent的即时reward，使之成为rkt =αekt+βckt，其中ekt是外部或环境reward，而ckt是causal influence reward。

为了计算一个agent对另一个agent的causal influence，假设有两个agent k和j，并且agent j能够在t， akt时根据agent k的动作来制定其policy。因此，agent j计算其下一个动作的概率为p（ajt | akt，sjt）。然后，我们可以用counterfactual action a(~)kt代替它来干预akt。此counterfactual action用于计算j的下一个动作p（ajt | a(~)kt，sjt）的新分布。本质上，agent k提出了一个回顾性问题：“如果我在这种情况下采取不同的行动，j的行动将如何改变？”。

通过对几种counterfactual action进行采样，并在每种情况下平均j的结果policy分布，我们得到j的policy distribution，换句话说，如果不考虑agent k，则使用j’s policy。给定k’s动作，j的policy distribution与conditional policy之间的差异是k对j的causal influence的度量。它给出了j因k’s动作而改变其计划动作分布的程度。因此，agent k的causal influence reward为：

请注意，可以使用除KL以外的散度度量。我们从经验上发现，influence reward对于衡量指标的选择具有鲁棒性。

式4中的reward与agent k和j，I（ak；aj | s）的行为之间的Mutual information（MI）有关。由于reward是在许多独立于环境采样的轨迹上计算的，因此我们得到了I（ak；aj | s）的蒙特卡罗估计。在期望中，influencereward激励agent最大化其行为之间的相Mutual information。补充材料第10.1节给出了证明。直观地说，训练agent使其动作之间的MI最大化，会导致更协调的行为。

此外，随着环境中agent数量的增加，policy gradient更新的方差也会增加（Lowe et al……，2017）。对于大规模MARL任务，此问题可能会阻止收敛到平衡。社会influence可以通过在每个agent的行为之间引入明确的依赖性来减少policy gradient的变化。这是因为agent程序正在接收的梯度的条件方差将小于或等于边缘化方差。

请注意，对于基本influence模型，我们有两个假设：1）我们使用集中训练直接根据agent j的policy计算ckt； 2）我们假设influence是单向的：接受influence reward训练的agent只能influence没有受过influence reward的训练（influence者和influence的集合不相交，influence者的数量在[1，N-1]中）。这两个假设在后面的部分中都会放宽。第8节中提供了更多详细信息以及因果推理过程（包括causal diagrams）的进一步说明。

4.1 Experiment I: Basic Influence

图1显示了针对标准A3C agent接受基本influence reward训练的测试agent的结果，以及模型的简化版本，在该模型中，agent未获得influence reward，但能够根据其他agent的行为来制定policy（即使其他试剂不在该试剂的部分观察环境之内）。我们将此消融模型称为可见行为基线。在此以及所有其他结果图中，我们使用最佳超参数设置（每个5个随机种子进行测试）来衡量获得的总体集体 reward。误差线显示在200个agent步骤的滑动窗口内计算的随机种子上的99.5％置信区间（CI）。我们采用课程学习的方法，逐渐增加了C步的社会influence reward的权重（C ∈[0.2-3.5] 108）；这有时会导致influence模型性能提高之前的轻微延迟。

从图1a和1b可以明显看出，引入其他agent行为的意识会有所帮助，但是拥有social influence reward最终会导致两种游戏的集体reward显着提高。由于SSD游戏的结构，我们可以推断获得更高集体reward的agent学会了更有效的合作。在Harvest MARL设置中，很明显，influence力reward对于实现任何合理的学习都是必不可少的。

图1：在实验1中获得的总集体 reward。受过influence（红色）训练的agent明显优于基线和消融agent。在Harvest中，influence力 reward对于实现有意义的学习至关重要。

为了了解social influence如何帮助agent实现合作行为，我们研究了在“清理”和“收获”中由高分模型产生的轨迹。分析显示出有趣的行为。例如，在此处提供的“清理”视频中：https://youtu.be/iH_V5WKQxmo，对单个agent（以紫色显示）进行了social influence reward培训。与其他agent在等待苹果spawn的同时会继续随机移动和探索的方式不同，influencer只会在追求苹果时遍历地图，然后停下来。其余时间保持静止。

图2显示了influencer和黄色influencer之间的重要时刻。有influence力的人选择了偏向于黄色agent的以自我为中心的视野之外的苹果。由于influencer仅在有苹果的情况下移动，因此会向黄色agent发出信号，表明必须在其上方看到一个苹果，而它看不见。这将改变黄色药剂在其计划动作p（ajt |akt，sjt）上的分布，并允许紫色药剂获得influence。当influencer向一直在清理河道的agent发信号说，保持静止状态时，没有出现苹果的情况发生了类似的时刻（请参阅补充材料中的图14）。

图2：当purple influencer在yellow tiles的视野（yellow outlined box）外发出苹果（green tiles）的信号时，这一瞬间的influence很大。

在这个案例研究中，influencer agent学会了将自己的行为作为二进制代码来表示环境中是否存在苹果。我们观察到类似的收获效果。这种基于动作的交流可以比作冯·弗里希（1969）发现的蜜蜂摇摆舞。显然，influence reward不仅引起了合作行为，而且引起了紧急沟通。

5 Influential Communication

鉴于上述结果，我们接下来将使用influence reward来训练agent使用显式communication信道。我们从研究人类学习中的influence和交流之间的联系中得到一些启示。根据Melis & Semmann（2010）的研究，人类儿童在参与合作活动时，会很快学会使用交流来influence他人的行为。他们解释说，这种通过交流influence伴侣的能力被解释为与他人形成共同目标的能力的证据，而这种能力可能是允许人类参与广泛合作活动的原因。

因此，我们为agent配备了明确的communication通道，类似于Foerster等人（2016）使用的方法。在每个时间步，每个agentk选择一个离散的communication符号mkt；对于N个agent，这些符号串联成一个组合的消息向量mt=[m0t，m1t…mNt]。然后在下一个时间步中，将此消息向量mt作为输入提供给每个其他agent。请注意，之前的研究表明，自利agent人不会学会有效地使用这种不固定、cheap talkcommunication channel（Crawford&Sobel，1982；Cao et al.，2018；Foerster et al.，2016；Lazaridou et al.，2018）。

为了训练agent进行communication，我们增加了一个额外的A3C输出头，以扩展我们的初始网络，该输出头学习communicationpolicyπm和值函数Vm以确定要发射的符号（请参见图3）。 在环境中起作用的正常policy和价值函数πe和Ve仅受环境rewarde训练。 我们使用influencereward作为训练沟通policyπm的额外reward，以使r =αe+βc。 使用反事实来评估来自上一时间步长mkt-1的agentcommunication消息对另一agent动作ajt的action程度，其中：

图3：communication模型有两个头部，分别学习环境policyπe和发射communication符号的policyπm。其他agentcommunication消息mt1被输入LSTM。

重要的是，通过communication channel获得rewarding influence不会受到前一部分提到的限制，即可能以非合作的方式action另一个agent。我们看到这有两个原因。首先，没有什么可以迫使agent j根据agent k的communication消息采取行动；如果mkt不包含有价值的信息，则j可以随意忽略它。其次，由于j的动作policyπe仅受环境reward训练，因此j如果包含有助于j获得环境reward的信息，则仅会由于观察mkt（即受mktaction）而改变其预期的动作。因此，我们假设有influence的交流必须向listener提供有用的信息。

5.1. Experiment II: Influential Communication

图4显示了training agent使用明确的communication channel时获得的集体reward。在这里，ablated model具有与图3相同的结构，但是仅以环境reward来训练communicationpolicyπm。我们观察到，通过social influence激励进行交流的agent会更快地学习，并且在两种游戏中的大多数培训中都能获得更高的集体reward。实际上，在“清理”的情况下，我们发现在最佳超参数设置中α= 0，这意味着以零外部reward来训练communication头是最有效的（请参阅补充材料中的表2）。这表明，仅凭influence就可以成为培训有效沟通policy的充分机制。在Harvest中，influence再次至关重要，它使agent能够学习协调的policy并获得高额reward。

图4：具有沟通渠道的深层RL agent的总集体reward。同样，action力reward对于改善或实现任何学习都是必不可少的。

为了分析agent学习到的沟通行为，我们引入了三个指标（部分受Bogin等人启发，2018年）。Speaker consistency是归一化的分数[0,1]，它评估p（ak | mk）和p（mk | ak）的熵，以确定speaker agent在采取特定行动时发出特定符号的一致性，反之亦然（该公式在补充材料第10.4.4节中给出）。例如，如果speaker在cleaning the river总是发出相同的符号，我们预计此措施会很高。我们还介绍了两种instantaneous coordination（IC）度量，它们都是mutual information（MI）度量：（1）symbol/action IC = I（mkt; ajt + 1）度量influencer/speaker之间的MI符号和influencer/listener的下一个动作，以及（2）action/actionIC = I（akt; ajt + 1）测量action的动作与被action的下一个动作之间的MI。为了计算这些度量，我们首先对所有轨迹步骤求平均值，然后取任意两个agent之间的最大值，以确定是否有任何一对agent在协调。请注意，这些度量都是瞬时的，因为它们仅考虑跨两个连续时间步长的短期依赖关系，并且无法捕获agent是否传达有action力的组成消息，即需要多个连续符号进行传输并仅action其他agent行为的信息。

图5：描述学习到的communication协议质量的指标。受influencereward训练的模型表现出更一致的沟通和更多的协调性，尤其是在high influence的时刻。

图5给出了结果。speaker一致性指标表明，influenceagent比基线agent更明确地交流自己的行为，表明紧急交流更为有意义。IC指标表明，基线agent几乎没有显示出协调沟通行为的迹象，即speaker说A和听者一致地做B。该结果与廉价文献中的理论结果（Crawford＆amp; Sobel，1982）和最近在MARL中的经验结果（例如Foerster等（2016）; Lazaridou等（2018）; Cao等。（2018））。

相反，我们的确看到了influence因素之间的高IC，但是只有当我们将分析限制在influence大于或等于平均influence的时间步上时（参见图5中的influence时刻）。检查结果揭示了一种常见的模式：influence在时间上是稀疏的。在不到10％的时间步长中，agent的influence仅大于其平均influence。因为listener没有被强迫听任何给定的speaker，所以listener仅在有益时才有选择地听speaker，并且influence不会一直发生。只有当听者根据speaker的信息决定改变其行为时，influence才会发生，在这些时刻，我们观察到较高的I（mkt; ajt+1）。似乎有influence的人已经学会了一种policy，可以传达有关自己行为的有意义的信息，并在influence足以使listener采取行动时获得influence。

考察agent受沟通influence的程度与他们所获得的reward之间的关系可得出令人信服的结果：受influence最大的agent也可以获得更高的个人环境reward。我们为这两个游戏抽取了100种不同的实验条件（即超参数和随机种子），并对其influence和个人reward进行了归一化和关联。我们发现，在“清理”（p = .67，p <0.001）和“收获”（p = .34，p <0.001）方面，受influence最频繁的agent倾向于获得更高的任务reward。这支持以下假设：为了通过communicationinfluence另一个agent，communication消息应包含有助于listener最大化其自身环境reward的信息。由于更好的listeners/influences在任务reward方面更成功，因此我们有证据表明有用的信息已传递给他们。

该结果是有希望的，但是可能取决于此处采用的特定实验方法，在这种方法中，agent会相互反复交互。在这种情况下，speaker不具有传达不可靠信息（即lying）的优点，因为随着时间的流逝它会失去对听众的影响。一键式交互可能无法保证这一点。但是，给定重复的交互作用，以上结果提供了经验证据，表明influence作为内在动机，使agent能够在其他情况下无法学习有意义的交流协议。

6. Modeling Other Agent

如第4节所述，要计算因果影响reward，需要了解给定反事实下另一位agent采取行动的可能性，我们先前通过使用集中式培训方法（agent可以访问其他agent政策网络）解决了这一问题。虽然在MARL中通常使用集中式培训框架（例如Foerster等人（2017;2016）），但与每个agent独立培训的情况相比，它不现实。我们可以放宽这个假设，并通过为每个agent配备自己的内部Model of Other Agents（MOA）来进行独立培训。 MOA由连接到agent的卷积层的第二组完全连接的LSTM层组成（请参见图6），并经过训练以预测所有其他agent的先前操作（鉴于其先前的操作）以及该agent的以自我为中心的视图。 状态：p（at + 1 | at，skt）。 使用观察到的动作轨迹和交叉熵损失来训练MOA。

图6：“Model of Other Agents”（MOA）体系结构既学习了RLpolicyπe，又学习了预测其他agent的行为at+1的监督模型。监督模型用于内部计算influence reward。

经过培训的MOA可以通过以下方式用于计算influence reward。每个agent可以想象在每个时间步长可能采取的反事实行动，并使用其内部MOA预测对其他agent的影响。然后，它可以因自己认为最有influence的行动而获得reward。这具有直观的吸引力，因为它类似于人类对他人的影响的推理方式（Ferguson等，2010）。我们经常发现自己在问反事实形式的问题，如果我在那种情况下做了其他事情，她会怎么做？，我们将使用他人的内部模型来回答。

学习p（ajt + 1 | akt，skt）模型需要隐式建模其他agent的内部状态和行为，以及环境转换函数。如果模型不正确，则可能导致因果影响reward的估计高。为了弥补这一点，我们仅在尝试影响agent（j）的agent在其视域内时才向agent（k）提供影响reward，因为p（ajt + 1 | akt，skt ）在j对k可见时更为准确。该约束可能具有鼓励agent保持更近距离的副作用。然而，考虑到人类寻求联系并与他人相处，鼓励亲近的内在social reward是合理的（Tomasello，2009）

6.1. Experiment III: Modeling Other Agents

和以前一样，我们允许每个agent的policy LSTM以最后一个时间步中其他agent的行为为条件（行为可见）。我们将其与图6所示的架构的简化版本进行比较，该架构未使用MOA的输出来计算reward。相反，可以将MOA视为无监督的辅助任务，可以帮助模型学习更好的共享嵌入层，鼓励模型对与预测其他agent行为有关的信息进行编码。图7显示了使用MOA模块训练的座席获得的集体reward。尽管我们看到辅助任务确实有助于提高A3C基线之上的reward，但影响因子始终获得更高的集体reward。这些结果表明，可以使用内部MOA来有效地计算influencereward，因此agent可以社交但独立地学习，无需centralized controller就可以优化社交reward。

图7：MOA模型的总集体reward。同样，内在influence不断提高学习效果，而强大的A3C agent基准却无法学习。

7 相关工作

为发展内在的社会reward做出了一些尝试。Sequeira等（2011年）为觅食环境开发了手工制作的reward，在这种环境中，agent因进食多于应得的食物而受到惩罚。另一种方法是根据agent在迭代囚徒困境的网络版本中对neighbour的合作感给予情感上的内在reward，但仅限于可以将每个动作直接归类为合作或不合作的场景（Yu 等人，2013年）。在具有长期策略的复杂环境中，例如在这里要研究的SSDs，这是站不住脚的。

有些方法允许agent查看彼此的reward，以便优化集体reward。Peysakhovich & Lerer（2018）的研究表明，即使一个agent人接受了优化他人reward的培训，也能显著帮助团队。Hughes et al.（2018）引入了一种不公平厌恶动机，如果agent人的reward与团队的reward相差太大，就会受到惩罚。Liu等人（2014年）训练agent人在已知群体reward的合作、multi-agent人环境中学习自己的最优reward函数。然而，假设agent可以查看和优化彼此的reward可能是不现实的。因此，最近的研究探索了培训agent人，他们学习何时仅基于自己过去的reward进行合作（Peysakhovich & Lerer，2017）。

已经探索了学习emergent communication protocols的培训agent（Foerster等，2016; Cao等，2018; Choi等，2018; Lazaridou等，2018; Bogin等，2018），其中有许多作者发现自私的agent没有学会有效地使用不扎实的廉价谈话渠道。 Crawford & Sobel（1982）发现，从理论上讲，所传达的信息与共同利益的数量成正比。因此，随着agent人利益的分歧，沟通是不可预期的。而且，尽管当agent人是亲社会（prosocial）的（Foerster等人，2016; Lazaridou等人，2018），好奇的人（Oudeyer＆amp; Kaplan，2006; Oudeyer＆amp; Smith，2016; Forestier＆amp; Oudeyer，2017）或者手工制作（Crandall等人，2017），自私的agent人不学会交流（Cao等人，2018）。我们已经表明，social influence reward可以鼓励agent在复杂的环境中学习更有效的沟通。

我们的MOA与机器心理理论的工作有关（Rabinowitz等，2018），这证明了训练以预测agent行为的模型可以为错误的信念建模。 LOLA agent对他们的策略对其他agent的参数更新的影响进行建模，并将其直接整合到agent自身的学习规则中（Foerster et al。，2018）。

Barton et al.（2018）提出因果影响作为衡量agent之间协调的一种方法，特别是使用Convergence Cross Mapping（CCM）来分析两个agent策略之间的依赖程度。CCM的局限性在于，已知因果关系的估计在存在随机效应的情况下会降低（Tajima et al.，2015）。反事实推理也被用于multi-agent环境中，将一个agent对估计集体reward的预测全局价值函数的影响边缘化，从而获得计算每个agent优势函数的改进基线（Foerster et al.，2017）。一篇类似的论文表明，反事实可以与基于潜力的reward塑造结合使用，以改善信用分配，从而在多agent RL中培训联合策略（Devlin等人，2014）。然而，这些方法再一次依赖于centralized controller。

Mutual information（MI）已被用作设计社会reward的工具。Strouse等。（2018）训练agent在他们的行动和一个分类目标之间优化MI，以此作为发信号或隐藏agent意图的一种方式。但是，此方法取决于agent要实现已知的绝对目标。 Guckelsberger等。（2018），为追求最终的视频游戏对手，开发了一种可最大化其empowerment，最小化玩家的empowerment并最大化其对下一个状态的empowerment的agent。通过最大化agent行为与玩家未来状态之间的MI，可以实现称为转移empowerment的第三个目标。尽管empowerment是一种社会形式，但作者发现接受过转移empowerment培训的agent只是倾向于留在玩家附近。此外，不对agent进行RL训练，而是在简单的网格环境中分析计算这些度量。因此，agent无法学习为其他agent或环境建模。

鉴于social influence reward可以激励agent行为之间的相互信息最大化，因此我们的工作也与empowerment相关的文献有联系，在这些文献中，agent可以使他们的行为与其未来状态之间的相互信息最大化（Klyubin等，2005; Mohamed＆amp; A. Rezende，2015年）。因此，我们提出的reward可以看作是一种赋权的新型社会形式。

8. Details on Causal Inference

Eq4中给出的因果影响reward是使用反事实推理进行评估的。与do-calculus干预（估计一个变量对另一个变量的一般预期因果效应）不同，反事实涉及对在给定情况下观察到的一组变量进行调节，并询问如果某些变量不同，结果将如何改变，以及所有其他变量保持不变（Pearl等，2016）。这种类型的查询使我们能够在特定的环境状态st下，测量agent k的行为在时间步t ，akt对agent j的行为ajt的精确因果影响，从而为agent k提供更丰富和更少的稀疏reward。计算反事实需要以观察变量的正确集合为条件，以确保没有混淆。在我们的案例中，conditioning不仅必须包括agent对环境状态sjt的部分观察到的视图，而且还必须包括agent的内部LSTM状态ujt，以消除对轨迹先前时间步长的任何依赖。因此，可以更准确地写出基本因果影响reward：

图8显示了用于计算基本案例（8a）和MOA案例（8b）中的影响reward的因果图。由于基本影响是在同一时间步长查看agent程序动作之间的影响，因此该图更加简单。但是，为了避免图中的循环依赖关系，它要求agent k在j之前选择其作用，因此k可以影响j，但是j不能影响k。如果有两个以上的agent，则我们假设influencer和influencee agent是不相交的，并且所有influencers必须首先行动。

图8：主体k’s对j’s作用的因果图。阴影节点是有条件的，我们通过用反事实代替它来干预akt（蓝色节点）。具有绿色背景的节点必须使用MOA模块建模。请注意，在MOA情况下，akt和st之间没有后门路径，因为这将需要遍历不在条件集中的对撞机。

如在communication和MOA实验中那样，计算跨时间步长的影响会使因果关系图复杂化，但要确保每个agent都可以影响其他每个agent。图8b显示了在MOA情况下的示意图，其中我们可以隔离akt对ajt + 1的因果关系，因为通过st的后门路径被st + 1和ujt + 1处的对撞机节点阻挡了（Pearl等，2016）。请注意，在这种情况下，仅以skt为条件就足以阻塞所有后门路径，但是我们将<ukt，skt和a jt>阴影显示为阴影，因为所有这些均作为MOA的输入提供给它以帮助预测ajt + 1。为了使MOA准确估计p（ajt + 1 | akt，skt），MOA必须同时建模环境转换函数T以及其他agent ujt + 1的内部LSTM状态的各个方面，如阴影所示图8b中的绿色变量。

这是一个简单的反事实推理案例，不需要使用诱因来更新任何未观测变量的概率（Pearl，2013）。这是因为我们已经建立了所有相关的模型，知道它们的所有输入，并且可以很容易地在轨迹的每一步存储这些变量的值，以便对它们进行调节，这样就不会有未观察到的变量作为混杂因素。

9. Conclusions and Future Works

所有这三个实验都表明，intrinsic的内在social influence reward始终导致更高的集体reward。尽管任务，超参数，神经网络体系结构和实验设置有所不同，但受影响reward训练的reward的学习曲线明显优于强大的reward（例如A3C）及其改进的基准线。在某些情况下，很明显，influence对于实现任何形式的学习都是必不可少的，这证明了这种想法的希望，并强调了学习通用深度神经网络multi-agent policies的复杂性。

实验一还表明，influence reward可以导致通信协议的出现。在包含显式沟通渠道的实验II中，我们看到了这种影响可以改善沟通。实验三表明，可以通过使用其他agent的内部模型来增强agent来计算影响。因此，可以在无需访问另一个agent的奖励功能或不需要集中控制器的情况下计算influence reward。尽管先前的工作依赖于agent商查看其他agent商奖励的能力，但我们能够在此处研究的SSD上达到最先进的性能。

使用反事实来使agent了解他们的行为对他人的影响是一种有很多扩展的有前途的方法。agent可以通过模拟他们的行为如何影响另一个agent的价值功能，来使用反事实来发展同理心。influence还可用于驱动试图执行协作操纵和控制任务的机器人中的协调行为。最后，如果我们将多主体网络视为单一主体，那么可以将influence用作调节器，以鼓励网络的不同模块整合来自其他网络的信息；例如，希望防止分层RL崩溃。

Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning-笔记相关推荐

论文笔记：Hierarchical Deep Reinforcement Learning:Integrating Temporal Abstraction and Intrinsic
2016 nips 1 abstract & introduction 在反馈稀疏的环境中学习目标导向的行为是强化学习算法面临的主要挑战.主要困难之一是探索不足,导致智能体无法学习稳健的策略. ...
2020_WWW_The Structure of Social Influence in Recommender Networks
[论文阅读笔记]2020_WWW_The Structure of Social Influence in Recommender Networks 论文下载地址: https://doi.org/1 ...
多智能体强化学习Multi agent，多任务强化学习Multi task以及多智能体多任务强化学习Multi agent Multi task概述
概述在我之前的工作中,我自己总结了一些多智能体强化学习的算法和通俗的理解. 首先,关于题目中提到的这三个家伙,大家首先想到的就是强化学习的五件套: 状态:s 奖励:r 动作值:Q 状态值:V 策略: ...
【兴趣阅读】DeepInf: Social Influence Prediction with Deep Learning
文章目录 1. 论文阅读 1.1. 前言 1.2. 阅读笔记 1.2.1 研究点的引出 1.2.2 相关工作 1.2.3 社交影响 1.2.3.1 r-neighbors 1.2.3.2 Social ...
#Paper reading#DeepInf: Social Influence Prediction with Deep Learning
#Paper reading# DeepInf: Social Influence Prediction with Deep Learning 设计了一个端到端的框架DeepInf,研究用户层面的社会 ...
2021_SIGIR_Social Recommendation with Implicit Social Influence
[论文阅读笔记]2021_SIGIR_Social Recommendation with Implicit Social Influence 论文下载地址: https://doi.org/10.1 ...
Social Recommendation with Implicit Social Influence
Social Recommendation with Implicit Social Influence 摘要社交影响对社交推荐至关重要.目前基于影响的社交推荐关注在对观察到的社交联系的显式影响.然 ...
Inf2vec: Latent Representation Model for Social Influence Embedding
Inf2vec: Latent Representation Model for Social Influence Embedding 2018 IEEE 34th International Con ...
【医学+深度论文：F14】2018 Joint Optic Disc and Cup Segmentation Based on Multi Label Deep Network
14 2018 T-MI (IEEE Transactions on Medical Imaging ) Joint Optic Disc and Cup Segmentation Based on ...
professor‘s great paper in multi agent system
http://people.csail.mit.edu/brooks/papers/AIM-864.pdf

Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning-笔记

Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning-笔记相关推荐

最新文章

热门文章