不久前 DeepMind 强化学习团队负责人、AlphaGo 项目负责人现身 Reddit 问答,其中一个问题是「围棋和星际争霸 2 哪个更难?潜在技术障碍是什么?」近日,DeepMind 发表论文,提出了多智能体强化学习方法,有望为星际争霸等游戏的 AI 技术的开发提供帮助。该论文也将出现在 12 月美国长滩举行的 NIPS 2017 大会上。

深度强化学习结合深度学习 [57] 和强化学习 [92, 62] 来计算决策策略 [71, 70]。传统来说,单个智能体与所处环境进行重复互动,从观察结果中学习,进而迭代地改善自己的策略。受近期深度强化学习成就的启发,DeepMind 的研究人员对多智能体强化学习(multiagent reinforcement learning,MARL)重新燃起了兴趣 [88, 16, 97]。在 MARL 中,多个智能体在一个环境中同时互动和学习,可能是围棋和扑克中的竞争模式,学习如何交流的合作模式,也可能是二者皆有。

MARL 最简单的形式是独立强化学习(independent RL,InRL),每个学习器不理会其他智能体,将所有互动作为自己(「局部」)环境的一部分。这些局部环境是非稳态和非马尔可夫的 [55],导致在很多算法中缺乏收敛保证,除此之外,研究者还发现这些策略会与其他智能体的策略产生过拟合,从而无法实现很好的泛化效果。强化学习社区对环境过拟合的研究还很少 [100, 67],但是 DeepMind 的研究人员认为这在多智能体设置中尤其重要,该设置中一个智能体必须根据观察到的其他智能体的行为动态地作出反应。经典的技术是收集或逼近额外信息如联合值(joint value)[60, 18, 28, 54]、使用适应性学习率 [12]、调整更新频率 [47, 79],或对其他智能体的动作进行在线动态回应 [61, 49]。但是,近期研究中出现了一些特例 [21, 78],他们关注(重复)矩阵博弈(matrix game)和/或完全可观察的环境。

有多个建议能够在多智能体设置中处理部分可观测环境。当模型完全可知,且设定是与两名玩家完全对抗时,可以使用策略迭代方法,该方法基于使用专家级抽象(expert abstraction)可以进行很好扩展的遗憾最小化(regret minimization)[26, 14, 45, 46]。近日,研究者将这些方法和深度学习结合起来,创建了无限下注德州扑克专家级 AI 系统 DeepStack [72]。大量研究在通用设置下,通过扩展信念状态和来自 POMDP 的贝叶斯更新 [27],处理去中心化合作问题 [74, 77]。这些模型具备较强的表达能力,得出的算法也比较复杂。在实践中,由于难解性,研究者通常使用近似式(approximate form),通过采样或利用结构来确保模型保持优秀性能 [40, 2, 66]。

在这篇论文中,DeepMind 的研究者介绍了一种新的指标,用于量化独立学习器学得策略的关联效果,并展示了过拟合问题的严重性。这些协调问题在完全可观测的环境中已经得到充分研究 [68]:DeepMind 的研究者在部分可观测的混合合作/竞争设置中观察到了类似问题,并证明其严重性随着环境可观测的程度降低而增加。DeepMind 的研究者提出一种基于经济推理(economic reasoning)的新型算法 [80],该算法使用(i)深度强化学习来计算对策略分布的最佳回应,(ii)博弈论实证分析(empirical game-theoretic analysis)来计算新的元策略分布。研究者为去中心化执行进行中心化训练:策略以分离的神经网络的形式呈现,智能体之间没有梯度共享或架构共享。基本形式使用中心化支付矩阵(payoff table),但在需要更少空间的分布式、非中心化形式中该矩阵被移除。

图 1:Double Oracle 算法。

DeepMind 的研究人员展示了他们的主要概念性算法:策略空间回应 oracle(policy-space response oracles,PSRO)。该算法是 Double Oracle 算法的自然泛化,其中元博弈是策略而非动作。它还是 Fictitious Self-Play 的泛化 [38, 39]。与之前的研究不同,该算法可以插入任何元求解器以计算新的元策略。在实践中,无需任何域知识,使用参数化策略(函数逼近器,function approximator)泛化至状态空间。

算法

图 4:(a)两玩家 Leduc 扑克中 DCH 参数在 NashConv 上的效果。左:解耦 PRD;中:解耦 RM;右:Exp3。(b)MAUC 对抗 cfr500 的渗透图。

DeepMind 也展望了新方法的未来应用方向,研究人员正在考虑保持基于策略差异损失惩罚的差异性,一般响应图拓扑,实时语言游戏和 RTS 游戏等环境,以及其他需要进行预测的架构,如对立建模、在辅助任务中进行未来状态估测。DeepMind 还希望研究快速在线适应及其与计算心智理论的关系,以及对使用继任者特征的类似策略进行泛化(迁移)的 oracle。

论文:A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning

论文链接:https://arxiv.org/abs/1711.00832

要想实现通用智能,智能体必须学习如何在共享环境中与他人进行互动:这就是多智能体强化学习(multiagent reinforcement learning,MARL)遇到的挑战。最简单的形式是独立强化学习(independent reinforcement learning,InRL),每个智能体将自己的经验作为(非稳态)环境的一部分。这篇论文中,我们首先观察到,使用 InRL 学得的策略能够在训练过程中与其他智能体的策略产生过拟合,但在执行过程中无法实现充分的泛化。我们引入了一种新的指标:共策略关联(joint-policy correlation),对该效果进行量化。我们介绍了一种用于通用 MARL 的算法,该算法基于深度强化学习生成的多种策略的几乎最佳回应,还进行博弈论实证分析来计算策略选择的元策略。该算法是之前算法的泛化,如 InRL、iterated best response、double oracle 和 fictitious play(虚拟对局)。之后,我们展示了一种可扩展的实现,使用解耦元求解器(meta-solver)减少内存需求。最后,我们在两种部分可观测的设置(gridworld coordination games 和扑克)种展示了该策略的通用性。

面向星际争霸:DeepMind 提出多智能体强化学习新方法相关推荐

  1. 《强化学习周刊》第16期:多智能体强化学习的最新研究与应用

    No.16 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...

  2. 读书笔记 - 多智能体强化学习在城市交通网络信号的综述2018

    多智能体强化学习在城市交通网络信号 控制方法中的应用综述 交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境, 将每个路口的交通信号控制器看做一个异质的智能体, 非常适合采用无模型.自 ...

  3. 多智能体强化学习_基于多智能体强化学习主宰星际争霸游戏

    大家好,今天我们来介绍基于多智能体强化学习主宰星际争霸游戏这篇论文 Grandmaster level in StarCraft II using multi-agent reinforcement ...

  4. 多智能体强化学习环境【星际争霸II】SMAC环境配置

    多智能体强化学习这个领域中,很多Paper都使用的一个环境是--星际争多智能体挑战(StarCraft Multi-Agent Challenge, SMAC).最近也配置了这个环境,把中间一些步骤记 ...

  5. 上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练

    机器之心专栏 作者:上海交大和UCL多智能体强化学习研究团队 基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸.王者荣耀等游戏AI上已经得到成功验证,MALib 则是首个专门面向 PB- ...

  6. 2020ICML多智能体强化学习论文简介

    强化学习最新论文汇总 如有错误,欢迎指正 所引用内容链接 Multi-Agent RL 1. Kernel Methods for Cooperative Multi-Agent Learning w ...

  7. DeepMind提出强化学习新方法,可实现人机合作

    来源:AI前线 作者:Ben Dickson 译者:盖 策划:凌敏 本文来自 BDTechTalks 网站的"AI 研究论文评论"专栏.该专栏提供人工智能最新发现的系列解读文章. ...

  8. 多智能体强化学习思路整理

    多智能体强化学习算法思路整理 目录 摘要 背景和意义 研究背景 强化学习 多智能体强化学习与博弈论基础 研究意义 问题与挑战 问题分类 问题分析 环境的不稳定性与可扩展性的平衡 部分可观测的马尔可夫决 ...

  9. 多智能体强化学习及其在游戏AI上的应用与展望

    近年来,人工智能技术在很多领域都取得了亮眼成就,并逐步从感知智能向决策智能迈进.强化学习是实现决策智能的重要路径,而现实世界中往往存在着多智能体的交互,也催生了多智能体强化学习的发展.这篇文章主要对多 ...

最新文章

  1. 参加Java培训需要注意哪些
  2. 《Photoshop Lab修色圣典(修订版)》—第1课1.7节言归正传
  3. Android PackageManager packages.xml文件格式
  4. java jpanel 间距_Java的 . 调整JPanel上的问题大小
  5. nginx长连接出现504的解决办法
  6. iOS input被键盘遮挡
  7. Linux Socket C语言网络编程:TCP Socket
  8. C语言必背18个经典程序,2022年C语言必背100代码大全
  9. 苹果x屏幕多少钱_xsmax闪屏,苹果xsmax换屏幕多少钱
  10. sumif单列求和_EXCEL条件求和函数SUMIF的几种常见用法
  11. Mac没声音解决办法记录
  12. HTML 管理员登陆小功能 连接数据库
  13. 中国第一代***骄傲
  14. 名帖204 蔡襄 行书《行书帖选》
  15. ceph web监控管理平台calamari
  16. 使用鲁大师检测硬盘健康状态
  17. 系统优化与lvs详解配置、haproxy
  18. 幸运数 c++程序(详解,附完整代码)
  19. 用matlab求解工作时间调度问题,置换流水车间调度问题的MATLAB求解
  20. Chapter7 循环神经网络-2

热门文章

  1. 法大大老板上榜“2019人力资源服务100人”的背后,是……
  2. php 中的curl和fiel_get_contents
  3. 应用在飞机的导航系统上的计算机,惯性导航在飞机上的应用
  4. jxl.read.biff.BiffException: Unable to recognize OLE stream:
  5. Neural Ordinary Differential Equation 神经常微分方程(Neural ODEs)
  6. 多速率信号处理专题研讨 matlab,数字信号处理》课程研究性学习报告多速率信号处理专题研讨...
  7. linux系统gromacs使用教程,GROMACS教程:Xmgrace学习笔记
  8. 关于外包公司和自营产品公司的区别
  9. 游戏史上被迫修改服务器玩家,直接改变游戏的四次更新,为了挽回败局,炸掉整个服务器...
  10. adb命令删除手机密码设置