《强化学习周刊》第7期：强化学习应用之游戏

No.07

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，它在游戏领域中的应用的研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第7期《强化学习周刊》。本期周刊整理了近期强化学习在游戏方面相关的最新论文推荐、研究综述、研究动态、新工具等，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（任黎明，刘延龙，陈斌，赟瑾）

论文推荐

强化学习近年来取得了令人瞩目的成就，将其应用于游戏领域也正取得较大的进步。通过将游戏中的环境状态、玩家动作视为强化学习中代理（agent）和环境（environment）的交互学习和相互影响。强化学习可以在游戏中根据不同玩家的动作验证某策略的准确性，整个过程可以用马尔可夫决策过程来描述。而游戏中最重要的动作为玩家的策略决策，强化学习可以极大地在较复杂的游戏环境中避免人为经验的不足，为玩家提供较高reward的策略，故强化学习在游戏领域具有较大的优势。

强化学习在游戏领域中的应用越来越多，其在游戏开发中训练不同的策略、复杂多智能体局限性、游戏测试等方面都有了深入的应用。本次推荐了8篇强化学习在游戏领域应用的相关论文，主要涉及到解决复杂多agent决策问题、复杂环境中的策略训练、游戏测试框架建立及提出通用策略解耦transformer等。

标题：A coevolutionary approach to deep multi-agent reinforcement learning(深度多智能体强化学习的协同进化方法)了解详情

简介：本文介绍了一种深度协同进化方法，其将神经进化与进化计算领域的更传统的范式相结合，以解决复杂的多智能体问题。为验证该的方法，本文在一系列多智能体Atari游戏中对两种深度协同进化算法进行了基准测试，并将该方法的结果与Ape-X DQN的结果进行了比较。研究结果表明，深度协同进化算法可以成功地训练以玩各种游戏，且在某些方面优于Ape-X DQN，故表明协同进化可以作为复杂多agent决策问题的可行方法。

论文链接：https://arxiv.org/pdf/2104.05610.pdf

标题：Policy Fusion for Adaptive and Customizable Reinforcement Learning Agents(基于自适应和可定制强化学习代理的策略融合)了解详情

简介：本文研究了以游戏开发为目的，使用强化学习训练智能主体的问题。使用深度强化学习在复杂环境中训练智能代理既困难又耗时，而且需要领域和最先进的深度学习技术的专门知识。本文提出了四种不同的策略融合方法来组合预先训练好的策略，以适应或修改游戏设计变化时的行为–所有这些都不需要重新训练代理来应对这些变化；并进一步显示了如何将这些融合方法与反向强化学习相结合，在不定义新的奖励函数的情况下创建各种复杂的行为。实验表明，熵加权融合（EW）策略的性能明显优于其他策略，并说明了这些方法对于视频游戏的制作和设计者是的确有用。

论文链接：https://arxiv.org/pdf/2104.10610.pdf

标题：On Passivity, Reinforcement Learning and Higher-Order Learning in Multi-Agent Finite Games多智能体有限游戏中的被动性，强化学习和高阶学习了解详情

简介：文章提出了一种基于被动性的方法来分析和设计多智能体有限博弈中的强化学习动力学算法。从已知的一阶强化学习方案开始，文章证明，与以前文献中所考虑的相比，在更广泛的游戏类别中可以达到Nash分布的收敛，即以（负）单调性为特征的游戏回报向量。文章进一步利用无源技术来设计一类高阶学习方案，以保留其一阶对应项的收敛性。此外，文章表明，高阶方案可以提高收敛速度，甚至可以在一阶方案失败的情况下实现收敛。

论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9022871

标题：Augmenting Automated Game Testing with Deep Reinforcement Learning通过深度强化学习增强自动游戏测试

了解详情

简介：常规游戏测试依赖于使用人类游戏测试人员，游戏测试脚本以及对感兴趣区域的先验知识来产生相关的测试数据。使用深度强化学习（DRL），文章将自学习机制引入了游戏测试框架。使用DRL，该框架能够基于用户定义的强化奖励信号来探索和利用游戏机制。结果，测试覆盖面增加了，并且在多种游戏类型中发现了意外的游戏机制，漏洞利用和错误。在本文中，其证明了DRL可用于增加测试范围，发现漏洞，测试地图难度以及检测在第一人称射击游戏（FPS）游戏中出现的常见问题。

论文链接：https://arxiv.org/pdf/2103.15819.pdf

标题：Creating Pro-Level AI for a Real-Time Fighting Game Using Deep Reinforcement Learning(使用深度强化学习为实时搏斗游戏创造出专业水平的AI智能体)了解详情

简介：实时搏斗游戏具有以下难点：过大的动作空间、动作依赖以及不完全信息。本文克服了上述挑战，并提出了一个包括了自动对战特性和数据略过技术的RL方法。通过自我对战经验，可得出三种不同形式的智能体并与对方对战。本文通过多样化对手池来改善自我对战算法，并且提出的数据略过技术可增加数据效率并帮助过大空间中的探索。经过与2018年B&S世界冠军赛中最好的职业选手对战，实验表明，本文的AI智能体赢得了7场比赛中的3场。并且，本文提出的训练算法可应用于其他搏斗游戏中。

论文链接：https://ieeexplore.ieee.org/abstract/document/9314886

标题：First-Order Problem Solving through Neural MCTS based Reinforcement Learning(通过基于强化学习的神经蒙特卡洛树搜索来解决一阶问题)了解详情

简介：游戏语义可将描述和其一阶逻辑（FOL）解释映射为一个二玩家的语义游戏，其组合问题（combinatorial problem）又可使用FOL描述并映射为语义游戏。本文提出了一个通用框架Persephone来将组合问题的FOL描述映射为语义游戏，使其可通过基于RL算法的神经蒙特卡洛树搜索（MCTS）来解决。本文还研究了本文提出的网络中的不对称性，并通过热态启动MCTS、不同的策略学习方法以及不对称的神经网络来提升Peresphone的性能。实验表明，带有热态启动的MCTS的KL-差异正则化PPO学习策略以及不对称神经网络的效果最好。

论文链接：https://arxiv.org/pdf/2101.04167.pdf

标题：Reinforcement Learning for Unified Allocation and Patrolling in Signaling Games with Uncertainty(基于强化学习的统一分配和巡逻在不确定的信号游戏中的应用)了解详情

简介：本文收录于多智能体顶会AAMAS 2021。此文介绍了一种基于强化学习的新型解决方案，用于计算两阶段GSG中的防御者策略。此文从数量和质量上表明，在模拟绿色安全领域的不同类型的环境中优于同类方法。此文中的模型还学会了战略行为，如在一个团队中组建在无人机和护林员团队中组成小分队，协调巡逻队形，以及战略性的和非强制性的行为。以及在存在不确定性的情况下发出战略性甚至是欺骗性的信号，以抵御不确定性。在不确定的情况下，发出战略性甚至欺骗性的信号，以抵御和/或逮捕偷猎者。

论文链接：https://arxiv.org/pdf/2012.10389.pdf

标题：UPDET: UNIVERSAL MULTI-AGENT REINFORCEMENT LEARNING VIA POLICY DECOUPLING WITH TRANSFORMERS(通过transformer策略解耦的通用多智能体强化学习)了解详情

简介：本文收录于ICLR2021，作者结合transformer提出了一种通用的策略解耦变压器模型UPDeT，它将多智能体强化学习算法扩展到一个更广泛的游戏运用场景。UPDeT具有足够的通用性，可以插入到任何现有的多智能体学习方法。此外，实验结果表明，当与UPDET结合时，现有的最先进的MARL方法可以在相同的训练流程中实现进一步的重大改进。在迁移学习任务上，我们的模型比从头开始训练快100倍，比使用基于RNN的模型训练快10倍。

论文链接：https://openreview.net/pdf/1f24b0b3a09ad8484d3887053d6c4c6a87d96ba1.pdf

研究综述

标题：Reinforcement learning applied to games强化学习应用于游戏了解详情

简介：随着计算能力的不断发展，特别是在计算机图形学领域，随着许多新颖方法的产生和旧方法的改进，强化学习在社区中越来越受到关注。其中许多采用人工神经网络，但仍将其视为黑匣子系统。文章首先介绍机器学习领域的经典和最新发展，然后概述将深度神经网络应用于游戏的最相关工作。文章为读者提供了有关神经网络如何学习和阐明现代系统开发中的决策的见解。

论文链接：https://link.springer.com/content/pdf/10.1007/s42452-020-2560-3.pdf

研究动态

谷歌实现2种新的强化学习算法，“比肩”DQN，泛化性能更佳！｜ICLR 2021了解详情

简介：AI强化学习（RL）算法持续“进化”中……，来自Google Research的研究人员，证明可以使用图表示（graph representation）和AutoML的优化技术，来学习新的、可解析和可推广的RL算法！他们发现的其中两种算法可以推广到更复杂的环境中，比如具有视觉观察的Atari游戏。这一成就使得RL算法越来越优秀！

DeepMind | 强化学习新研究：更快的知识学习，更强的环境适应了解详情

简介：人类处理一些新任务时候，例如做菜，往往能够利用之前学过的知识、技能。而强化学习中的智能体往往需要从头学习。针对上述挑战，DeepMind的研究员们采用了一种名为“后继特征”特征的方案，其效果是：智能体可以将一个问题分解为更小的、更易于管理的子任务，而不是将其作为一个单一的、整体的任务来处理。研究员在博客中表示，其能够提供了一种学习灵活解决问题的新方法，能够赋予 RL 智能体利用从之前的任务中学到的知识的能力。

新工具

OpenSpiel: 对于游戏应用的强化学习框架了解详情

简介: OpenSpiel是为在游戏中进行强化学习的规划/搜索的多环境和算法的集合。OpenSpiel为在许多基准游戏上进行写入并测试游戏算法提供了框架。它包含了不同种类的超过20种游戏实现，可使用C++和Python中的封装来使用，游戏实现和支持的算法可在文档中查看。OpenSpiel支持n玩家的零和，协作和general-sum，one-shot和序列，严格turn-taking和同步行动，完美和不完美信息的游戏，也支持传统多智能体环境如grid worlds和社交困境。同时，它还支持分析训练过程中的动态量以及其他评估指标。

论文链接：https://arxiv.org/pdf/1908.09453v6.pdf

RLCard: 对于卡牌游戏的强化学习工具包了解详情

简介: RLCard支持多种卡牌游戏环境，如Black-jack，Leduc Hold'em，UNO等等。RLCard的提出是为了使强化学习更好的应用在不完全信息游戏中，并推动强化学习在多智能体、大的状态和动作空间以及稀疏奖励领域中的发展。其界面易于上手，尤其是对于那些没有game theory知识的人来说。同时作者还提供了单智能体的环境，其他玩家被设定为使用了预训练好的模型。

论文链接：https://arxiv.org/pdf/1910.04376v2.pdf

经验

强化学习-你在游戏中对战的人机是如何对付你的！了解详情

简介：想必大家或多或少都玩过游戏，强化学习现在在游戏领域应用很多。一个游戏中应该有一个操作对象，这个对象就是一个智能体，这个智能体的每一步行动都会得到一个奖励（你比如说你往前一步捡到一个血包，那你的血量会增加，你放了一个技能，你的能量会减少，但被你砍到的敌人的血量会减少等等）。一个游戏有一个终止状态吧，你比如王者荣耀，一方水晶破了，就代表游戏结束了，再比如今年过年很火的合成大西瓜，屏幕满了就表示游戏结束了。那么一局游戏从开始到结束，一个智能体是不是会存在很多很多种状态，也会发出很多很多次动作，一直到游戏结束。这整个过程的状态走向以及动作序列正是强化学习需要研究的内容。这整个过程的状态走向以及动作序列正是强化学习需要研究的内容。

强化学习助力AI游戏选择最佳策略了解详情

简介：在游戏业AI一般包含了有限状态设计及模糊状态设计两个部分，可以看作为一个包括学习的环境、与环境交互的对象agent、动作以及反馈的决策模型。强化学习在游戏AI中的应用更多时候是为了验证和调试算法模型的准确性，通过传统的简单游戏已经验证了部分强化学习算法。这一类型的游戏我们可以看做是一个由游戏环境画面状态、玩家行为动作和游戏反馈建立的决策模型。故RL 本质为在一个连续决策的过程中，选择一个最佳策略，使得遵循这种策略进行的决策过程，得到的全局回报最大。

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

《强化学习周刊》第7期：强化学习应用之游戏相关推荐

深度学习算法(第5期)----深度学习中的优化器选择
欢迎关注微信公众号"智能算法" – 原文链接(阅读体验更佳): 深度学习算法(第5期)----深度学习中的优化器选择上一期,我们一起学习了TensorFlow在训练深度网络的时候 ...
深度学习三人行(第5期)----深度学习中的优化器选择
上一期,我们一起学习了TensorFlow在训练深度网络的时候怎么解决梯度消失或梯度爆炸的问题,以及怎么尽可能的减少训练时间. 深度学习三人行(第4期)---- TF训练DNN之进阶这期我们继续学习 ...
深度学习算法(第37期)----如何用强化学习玩游戏？
上期我们一起学习了强化学习中的时间差分学习和近似Q学习的相关知识, 今天我们一起用毕生所学来训练一个玩游戏的AI智能体. 由于我们将使用 Atari 环境,我们必须首先安装 OpenAI gym 的 ...
《因果学习周刊》第9期：因果学习中的工具变量
No.09 智源社区因果学习组因果学习研究观点资源活动关于周刊因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
深度学习三人行(第8期)----卷积神经网络通俗原理
上一期,我们一起学习了深度学习中如何避免过拟合, 深度学习三人行(第7期)----深度学习之避免过拟合(正则化) 接下来我们一起学习下网红网络之卷积神经网络(CNN),我们多多交流,共同进步.本期主要 ...
深度学习三人行(第10期)----CNN经典网络之LeNet-5和AlexNet
上一期,我们一起学习了深度学习卷积神经网络中的代码实现,内存计算以及池化层的原理等, 深度学习三人行(第9期)----卷积神经网络实战进阶(附代码) 接下来我们一起学习下关于CNN中比较经典的网络Le ...
《强化学习周刊》第40期：PMIC多智能体强化学习、Lazy-MDPs、CTDS
No.40 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
《强化学习周刊》第39期：近似最优深度、多智能体广义、角色动画强化学习...
No.39 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
《强化学习周刊》第38期：DreamingV2、Shadow-price DRL、离线强化学习
No.38 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
《强化学习周刊》第37期：视觉深层框架、Transformer World模型、注意力增强强化学习...
No.37 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

《强化学习周刊》第7期：强化学习应用之游戏

《强化学习周刊》第7期：强化学习应用之游戏相关推荐

最新文章

热门文章