桌游玩的好也能发NeurIPS！当深度学习撞上阿瓦隆！

在遥远神秘的阿瓦隆，正义与邪恶展开激烈的争斗。

亚瑟王手下的圆桌骑士派西维尔率队完成三次艰巨的任务，然而在众多的人选中隐藏着邪恶的力量，为了避免失败，他需要挑选出绝对忠诚的伙伴帮助他尽快完成任务。

梅林：阿瓦隆永远的智者。他能分辨出邪恶阵营每位成员的真实身份，唯一的视野盲点就是——黑老大莫德雷德。虽然梅林能够看到种种危机，但他只能透过隐晦的暗示将信息传递给圆桌骑士派西维尔，因为这位智者的安危关乎着正义的存亡延续。

在月之暗面，莫甘娜、黑老大、奥伯伦、刺客和爪牙们已经忍不住要露出嗜血的笑容……邪恶力量正在阴暗的角落伺机待发！

正义与邪恶的对决，就在此刻！

输赢规则
好人方的目标：赢得三局任务的胜利，并隐藏真正的梅林。
坏人方的目标：让三局任务失败，或者找到真正的梅林进行刺杀，刺杀成功则赢得游戏…

进入正题

继在CVPR 2019上用GAN烤披萨之后，麻省理工再次祭出大杀器，联合哈佛大学将深度学习用在了推理游戏“阿瓦隆”上，并被正在进行的NeurIPS 2019收录，在本周三以Spotlights的形式进行了演讲！可以说在逗逼之路上一去不复返。

文章概述

Finding Friend and Foe in Multi-Agent Games

Jack Serrino、Max Kleiman-Weiner、David C. Parkes、Joshua B. Tenenbaum

论文下载地址：
https://arxiv.org/pdf/1906.02330v1.pdf
演讲ppt地址：
https://neurips.cc/media/Slides/nips/2019/westballc(11-15-50)-11-16-05-15760-finding_friend_.pdf

近年来，Go，Poker和Dota等游戏代理商在AI方面都取得了突破性进展。但是目前的算法都无法应用于”狼人杀”，“阿瓦隆”这种隐藏角色的游戏。于是乎，DeepRole算法便应运而生，这是一种多主体强化学习代理，针对“抵抗者：阿瓦隆”桌游，将反事实后悔最小化（counterfactual regret minimization，CFR）与通过游戏自身训练的深层价值网络结合在一起。将演绎推理集成到向量形式的CFR中，以对联合信念进行推理，并推断出部分可观测到的行为。研究人员通过产生可解释的获胜概率表示形式的约束来增强深层价值网络。结果表明：DeepRole不管是作为合作伙伴还是竞争对手方面都胜过人类玩家。

研究背景

没有社会价值的研究不是好研究！研究者们苦口婆心的表示：合作使人共同进步！但是，合作具有挑战性，因为它根植于竞争激烈的世界中，多方利益交织，大家往往会互相猜忌：谁将与我合作，我需要提防谁？无论是您上幼儿园的第一天还是您在证券交易所的第一天。弄清楚与谁合作和保护自己免受攻击是一个根本的挑战。这项挑战的核心在于，有关与谁合作的信息通常嘈杂且含糊。因为我们一般仅仅是通过他人的行动来间接获得此信息。而一些具有高智商和带有欺骗意图的老手的可以故意隐瞒他们的不合作意图，并为自己的利益而显得合作。这样的对手使沟通变得充满挑战！！

多主体强化学习（multi-agent reinforcement learning，RL）尚未解决这一挑战。尤其是，信息不完善的两人零和游戏（例如扑克）中令人印象深刻的结果并非直接适用于合作不明确的问题。在扑克solo中，由于整个游戏过程是严格对抗性的，因此没有机会与他人进行实际协调或合作。而诸如Dota推塔之类的游戏，则采用的是相反的模式：团队成员完全地相互协作以与其他团队竞争。但是这两种模式都没有关注到团队成员间的猜忌。DeepRole也是一种多主体强化学习算法，它可以解决学习与谁合作以及如何合作的问题。

抵抗者：阿瓦隆是一种流行的隐藏角色游戏，号称“不会死人的狼人杀”！其中甄别与谁合作的挑战是本游戏的重点。所谓的隐藏游戏指的是玩家不知道所在team的角色是敌是友。在游戏过程中，玩家需要推断出同伴的角色，而其他玩家则要尝试阻止其角色被发现。除了一些能力者（如阿瓦隆的梅林，狼人杀的预言家）可以获得额外的角色信息之外，大部分玩家得到的初始信息仅仅是自己的角色牌！

图1：《抵抗：阿瓦隆》中的公共游戏动态描述。（左）每个回合（矩形）最多包含5个提案（白色圆圈），并导致失败或成功的任务。（右）每个回合中的动态示例。玩家（彩色圆圈）交替提议玩家的子集（2或3）执行任务，然后由所有5位玩家投票。如果多数批准，这些参与者（在此示例中为1和5）私下且独立决定是成功完成任务还是失败任务。如果多数人不同意，则下一个参与者提出一个子集。

尽管阿瓦隆是一个简单的游戏，但它具有很大的状态空间。在5人场的游戏中，作者计算了1056个不同信息集的下限，这大于国际象棋（1047）和solo扑克（1014）中的信息集数量。

算法描述

DeepRole由两部分组成：（1）演绎增强的CFR规划算法推理; （2）用于减少游戏树大小的价值神经网络。

CFR算法

每个游戏都有一个游戏树，其中的节点对应于不同的动作历史，元素h属于集和H,集和Z含于集和H（最终的历史集）。对于每一个属于Z的元素h，设ui（h）为最终历史h中玩家i的效用。在大型游戏中，只有一个玩家P(h)可以在任何历史h中移动，但是因为阿瓦隆的机制同时与场景动作相关。作者扩展了这个定义，设P0(h)为同时在h移动的一组玩家。历史被设为信息集（元素I属于Ii）：表示玩家i不能识别游戏状态。例如，抵抗者玩家不知道谁是间谍，因此仅仅在角色分配上与其他角色不同的h都在一个相同数据集合中。在所给信息集合中可用的动作是元素a属于A(I)。对于玩家i的策略σi是每个I属Ii映射到A(I)的概率分布。让σ = (σ1, . . . , σp)作为所有玩家p的参与策略。然后，设置π σ (h) 为所有玩家都根据σ行动时到达h的概率。设置πσi（h）为玩家i对联合概率的贡献，联合概率表达式为：

最后，设πσ-i（h）为除i以外所有玩家的策略乘积，设πσ（h，h 0）为在发生h的情况下在策略σ下达到历史h 0的概率。具体而言，在CFR +中，在迭代T处，累积反事实后悔表达式为：

玩家i的反事实值定义为：

CFR通过增加可能对每个参与者都有利的行动概率来迭代地提高σ。在两人零和游戏中，CFR可证明收敛到纳什均衡。然而，在拥有两个以上玩家的游戏中，它不一定会收敛到均衡。这时就需要调查CFR是否可以在像Avalon这样的多玩家隐藏角色游戏中产生强大的策略。

DeepRole的CFR组件是基于CFR的矢量形式公共机会抽样（PCS）版本，以及CFR +后悔匹配引入的。向量形式的CFR可以加快收敛速度并利用SIMD指令，但需要使用公共游戏树。在类似扑克的游戏中，由于除了初始机会动作（给玩家纸牌）以外的所有动作（例如，下注，显示新的纸牌）都是公开的，因此可以根据玩家的动作来构建公共游戏树。但是，在隐藏角色游戏中，初始动作之后的关键动作都是私下进行的，这打破了标准构造。

为了支持隐藏角色游戏，作者将公共游戏树扩展为第三人称观察的历史o∈O（h），而不仅仅是动作。这既包括公共行动，也包括私人行动的可观察到的结果。当这些观察的演绎推理揭示了潜在的个人行为时，扩展就起作用了。例如，如果一项任务失败，并且其中一名玩家被称为间谍，则可以推断出间谍失败了。

deduceActions（h，o）进行这种演绎推理，并返回每个玩家在每个信息集，通过观测使用的数据集和玩家的策略，玩家针对公共游戏状态的触及概率被更新。

使用公共游戏树，作者在角色ρ的初始分配上维持了人类可理解的联合后验信念b（ρ| h）。ρ代表角色完全分配给玩家（初始结果机会动作）–因此，信念b（ρ| h）表示给定公共游戏树中观察到的动作，每个玩家具有ρ中指定角色的联合概率。有关示例b和赋值ρ，请参见图2。这个联合后验b（ρ| h）可以通过使用单个参与者的策略来近似，如贝叶斯规则：

其中b（ρ）是优先分配（在60个可能的分配中是均匀的），I i（h，ρ）是公共历史h和分配ρ所隐含的信息集，乘积是给定每个玩家的隐含信息集，进行游戏。一个问题是，这种可能性会给历史上不可能的任务带来积极的影响。这是因为矢量形式CFR算法只能独立（而不是联合）计算每个玩家的可能性。例如，考虑两个执行失败任务的玩家。在ρ隐含的信息集中在他们都抵抗的情况下，假定每个玩家都已通过任务。但是，从逻辑上讲，这与历史不一致，因为其中之一必定失败了。为了解决这个问题，指标项（1 − 1 {h’¬ρ}）将逻辑上与公共游戏树h不一致的任何ρ的概率归零。归零消除了这些不可能的结果会对价值产生的影响，并对CFR中的计算感到后悔。

价值神经网络

增强的矢量格式CFR不能在阿瓦隆的完整公共游戏树上运行（或任何真正的隐藏角色游戏）。像扑克之类的游戏也是如此，因此基于CFR的扑克系统依靠动作抽象和状态抽象来减小游戏树的大小。但是，阿瓦隆中的动作显然没有相互关联。从策略上讲，在扑克中下注105筹码与在下注104筹码相似，但是对阿瓦隆中的任务进行投票与否决不同。阿瓦隆游戏树的大小不是来自可用动作的数量，而是来自玩家的数量。作者采用了一般方法，使用深度神经网络来限制遍历的游戏树的大小。

研究者首先将阿瓦隆的公共游戏树划分为可单独解决的不同部分，然后按成功和失败的任务的数量进行细分（图1左侧的白色圆圈）。这产生了45个神经网络。对应于提案的每个h映射到这45个网络之一。这些网络采用元组θ∈Θ，θ=（i，b），其中i是提议的参与者，b是游戏树中该位置的后验置信度。Θ是所有可能的游戏情况的集合，通过对价值网络进行了训练，以预测每个信息集的概率加权值（图2）。

图2：DeepRole神经网络体系结构用于限制游戏树的深度。表（黑色标题）显示了示例输入。大写字母字符代表不同的角色：（R）ististance，（S）py，（M）erlin和（A）ssassin。输出是每个参与者在其每个信息集中的概率加权值。虽然针对“抵抗”仅设置了一个信息（因为他们只知道自己的抵抗力自己的角色），其他每个角色类型都有多个。“ M（2,3）”应理解为梅林，将玩家2和3视为间谍，而“ S（4）”应理解为间谍，将玩家4视为刺客。

与DeepStack不同，该网络会为每个玩家计算每个信息集I的非真实值（即正常值）。这是因为共同的信念代表失去了个人每个玩家可能性的贡献，因此无法计算出反事实。玩家i的私人信息I的值V i（I）可以写成：

玩家根据策略σ进行游戏。由于作者在规划过程中保持πσi（I），因此可以将网络产生的值转换为CFR所需的反事实值。

价值网络架构尽管可以使用通用前馈架构估算这些值，但它可能会导致采样效率降低，需要更长的训练时间或无法实现低损失。作者设计了一种可解释的自定义神经网络架构，该架构利用了许多隐藏角色游戏的结构所施加的限制。网络将提议者播放器i的一个热编码矢量和信念矢量b馈入两个完全连接的80个ReLU单元的隐藏层。这些通过S型激活反馈完全连接的获胜概率层旨在考虑V的特定结构，并考虑二进制阿瓦隆收益的性质（玩家只能赢或输）。它明确表示每个分配ρ的抵抗胜利概率：

然后，利用这些概率，作者为每个播放器和信息集计算V i（I），从而将网络的输出约束为声音值。为了进行此计算，对于每个玩家i，首先将获胜概率转换为期望值：

期望值代表i在每个ρ中的回报（如果抵抗获胜）。然后将其转换为CFR使用和产生的每个信息集的概率加权值：

其中M i是一个（15×60）矩阵，将每个ρ映射到玩家i的信息集，而b是对传递给网络的角色的信任。这种架构是完全可区分的，并通过反向传播进行了训练。完整网络的示意图和说明如图2所示。有关网络训练算法，过程，参数和计算细节的详细信息，请参见图3。获胜概率层可以使用更少的训练数据和更好的概括性进行训练。与用零和层（如DeepStack）替换获胜概率层的病变神经网络相比，每个网络的平均保留损失更高，并且需要更多的训练数据（图3）。

图3：DeepRole概括和样本效率。（左）在45个神经网络中平均保留的样本的泛化误差。（右）泛化误差与第一个深层价值网络的训练数据的函数（N = 5次运行的平均值，间隔为SE）。

博弈分析

在两人零和游戏中，所有Nash均衡都是可利用的，因此，证明Nash收敛的算法在这种意义上是最优的。但是，评估3个以上的成员互动需要考虑与团队成员协调的多个平衡和指标。此外，Elo及其TrueSkill之类的变体仅在相对技能不具传递性时才是性能的良好度量，而在传递性游戏中则没有预测能力。

因此，作者转向实证博弈论分析的方法，将DeepRole与5种替代基准代理的性能进行了比较：CFR–在MCCFR方面接受过手工制作的游戏抽象训练的代理商；LogicBot –使用逻辑推论的手工策略；RandomBot-随机播放；ISMCTS-在以下位置发现的单观察者ISMCTS算法；MOISMCTS-ISMCTS的多观察者变体。

我们首先调查了每个与DeepRole对抗的基线代理的条件胜率。将DeepRole作为第5个角色的获胜率与其他代理作为该第5个角色的胜率进行比较。对于每个预设组，作者模拟了> 2w次游戏。

图4显示了使用DeepRole时，每个机器人的获胜概率。在大多数情况下，高于其他四个代理。

图4：将DeepRole与其他代理的预期获胜率进行比较。x轴显示前四个代理中有多少个是DeepRole。y轴显示第五个角色的预期胜率。（上）综合预期胜率。（中）间谍获胜率。（下）抵抗者赢得率。

作者构建了一个元游戏，在该游戏中，玩家根据代理类型而非行动选择策略。图5显示了在这些元游戏中动态复制器的梯度。首先，作者将DeepRole与其他两种代理（LogicBot和CFR）进行了比较，并证明了DeepRole具有最大的吸引力。

图5：实证博弈论评估。箭头大小和暗度与渐变大小成正比。（左）针对手工编码代理的DeepRole。（中心）与系统相比的DeepRole没有我们的算法改进。（右）DeepRole自身，但CFR迭代次数等于游戏旁边的数字。

为了更近一步测试作者的创新是否能使DeepRole成为更强大的代理。作者将DeepRole与两个变体方案进行了比较。第一个是DeepRole（无获胜层），它使用零和总和层而不是神经网络中的获胜概率层。否则，它与DeepRole相同。在图3中可以看到这种神经网络体系结构也没有得到概括。同时研究人员还比较了DeepRole的另一个版本，该版本不包含逻辑推导步骤，并且还使用了零和层而不是概率获胜层（无获胜层，无推论）。没有逻辑推导的代理最弱，而完整的DeepRole代理则最强，这表明作者的创新可以提高性能。

最后，作者研究了游戏中CFR对解决迭代的影响（思考时间）。更多的迭代会使动作变慢，但可能会产生更好的策略。当进行10、30和100次迭代的DeepRole变体进行测试时，使用的迭代次数越多，吸引力就越大。

来自人类玩家的终极考验

阿瓦隆毕竟是桌游，最终的考验终究是和人类的对抗！由于人类可能会采取一系列多样的策略，这对于DeepRole的响应将具有挑战性。在训练期间，它永远不会从任何人类数据中学习，因此其与人一起玩耍的能力必须是采取一种普遍适用于人类游戏的策略的结果。重要的是，即便人类玩家使用了超出神经网络的策略，在线CFR迭代仍然能够继续智能地运行（例如AlphaGo）。

人类玩家在流行的在线平台ProAvalon.com上与DeepRole一起玩耍。在作者收集的2189种混合人/代理游戏中，所有人都知道哪些玩家是人类，哪些是DeepRole。对于人类玩家来说，聊天使用没有限制，但是DeepRole没有说什么，也没有处理发送的消息。

表1显示了DeepRole与人类相比的获胜率。我们可以看到DeepRole非常强大。四个人类与一个DeepRole的配合要比其他全是人类的team表现要好的多。

表1：与DeepRole代理进行对抗的人类的获胜率。当人类在5个DeepRole代理中替换一个DeepRole代理时，团队的获胜率会下降。而当DeepRole代理替换某个人类时，团队的获胜率会上升。

尽管参与游戏的人的水平不一，但对于众多阿瓦隆爱好者来说，DeepRole既是出色的合作伙伴，也是游戏竞争对手。

最后，DeepRole的信念状态也可以用来获得可描述性的解释。在图6中显示了DeepRole在作为抵抗者玩家时对抗间谍组的后验概率估计。当DeepRole在四个人中充当唯一代理时（左图），在三个任务都通过的情况下，信仰状态迅速收敛到了地面真理。如果三个任务失败，通常是因为它无法正确学习。接下来，作者从人类抵抗者玩家与他人对战的过程中观察信念状态。如图6所示，信念估计随着游戏的进行而增加，这表明DeepRole即使在观察游戏的同时也可以做出正确的推断。在三遍游戏中，信念估计会更快地收敛到正确状态，这大概是因为这些游戏中的数据对所有玩家而言都是更有益的。

好啦！今天的介绍就到这里了！为了在学术上有所突破，小编要去加入战斗了！