多智能体强化学习(五)MARL的挑战

  • 1.组合中的复杂性
  • 2. 多维的学习目标
  • 3. 非平稳性问题
  • 4. 当出现N>>2时的可伸缩性问题

与单智能体RL相比,多智能体RL是一个更好地匹配现实世界人工智能应用的广泛范围的通用框架。然而,由于存在多个同时学习的代理,除了在单代理RL中已经存在的智能体外,MARL方法还提出了更多的理论挑战。与通常有两个智能体的经典地图设置相比,解决一个多智能体RL问题更具挑战性。事实上,①组合的复杂性,②多维度学习对象,③非平稳性的问题都导致了大多数MARL算法能够解决④只有两个玩家的游戏,特别是双人零和游戏。在本部分中,我将详细阐述多智能体RL中的每一个重大挑战

1.组合中的复杂性

在多智能体学习的背景下,每个智能体在确定最佳响应时必须考虑其他对手的动作;这一特征深深植根于每个智能体的奖励函数。联合作用空间的大小|A|N随着代理的数量呈指数级增长,因此在很大程度上限制了MARL方法的可伸缩性。此外,由于在博弈论中求解一个NE是很难的,即使是对于两人的博弈,也加剧了组合复杂度的复杂性。因此,对于多人一般和游戏(既不是团队游戏,也不是零和游戏),找到一个适用的解决方案概念是不容易的。

解决这个问题的一个常见方法是假设动作依赖性的特定分解结构,这样奖励函数或q函数就可以显著简化。例如,图形游戏假设智能体的奖励只受其邻近智能体的影响,如图(Kearns,2007)所定义。这一假设直接导致了在特定树状图中计算NE的多项式时间解(Kearns等人,2013),尽管应用的范围在这个特定场景之外有所限制。

最近在利用特定的神经网络架构进行Q-函数分解方面也取得了进展(Rashid等人,2018;Sunehag等人,2018;Yang等人,2020)。除了这些方法只适用于团队游戏的设置之外,其中大多数都缺乏理论支持。还有一些有待解决的问题需要回答,比如理解多智能体任务中分解q函数的表示能力(近似误差),以及如何从零开始学习分解本身。

2. 多维的学习目标

与单智能体RL相比,唯一的目标是最大化学习智能体的长期回报,MARL中的学习目标自然是多维的,因为所有主体的目标不一定是由一个度量对齐的。保龄球和维洛索(2001,2002)提出将学习任务的目标分为两类:合理性和收敛性。理性确保了智能体在对手静止时对他们做出最好的反应,收敛确保了学习动态最终导致对给定类别对手的稳定策略。达到理性和收敛性会导致到达NE。

在理性方面,NE描述了一个联合最优策略轮廓的不动点,只要智能体都是完全理性的,就不会被动机偏离。然而,在实践中,主体的理性很容易受到认知限制和/或决策问题的可处理性的约束。在这些情况下,理性假设可以放宽到包括其他类型的解决方案概念,如递归推理均衡,它源于在具有有限层次思维水平的智能体之间递归建模推理过程(例如,智能体可以通过如下方式推理: I believe that you believe that I believe ……)(Wen等人,2019,2018);对目标类型对手的最佳反应(鲍尔斯和Shoham,2005b);平均场博弈平衡,将多个体相互作用描述为每个个体本身与群体平均值之间的双主体相互作用(Guo等人,2019;Yang等人,2018a、b);进化稳定策略,描述了基于罕见突变策略的进化优势的平衡策略(布隆伯尔根等,2015;梅纳德·史密斯,1972;图yls和Now´,2005;图尔斯和帕森斯,2007);斯塔克尔伯格平衡(张等,2019a),当智能体做出决定时假设特定的顺序;以及稳健平衡(博弈论中的颤抖完美平衡),对对抗性干扰稳定(古德费罗等人,2014b;Li等人,2019b;Yabu等人,2007)。

在收敛方面,尽管大多数MARL算法设法收敛到NE,但大多数要么缺乏严格的收敛保证(Zhang等人,2019b),只有在唯一NE存在的强假设下才可能收敛(胡和韦尔曼,2003;利特曼,2001b),或者在所有情况下都证明不能收敛(Mazumdar等人,2019a)。津克维奇等人。(2006)确定了值迭代方法在一般和SGs中的非收敛行为,并提出了另一种求解方法-基于值的方法收敛于NE循环平衡的概念。regret的概念(在博弈论中也称为Hanna一致性(Hannen等人,2003)),通过与事后可能的最佳策略进行比较来衡量收敛性。这也被提出作为评估零和自发挥收敛的新标准(保龄球,2005;哈特和马斯-科尔尔,2001;Zinke维奇等人,2008)。在具有非凸非凹损失景观的双玩家零和游戏中(训练加纳斯(Goodfell等人,2014a)),发现梯度下降上升方法达到斯塔克尔伯格平衡(Fiez等人,2019;林等人,2019)或局部微分NE(Mazumdar等人,2019b),而不是一般NE。

最后,尽管上述解决方案的概念解释了收敛性,但为使用DNNs的MARL方法构建一个收敛目标仍然是一个未知的区域。这部分是因为单智能体深度RL算法的全局收敛结果,例如神经策略梯度方法(刘等,2019;Wang等,2019)和神经TD学习算法(Cai等,2019b)尚未得到广泛的研究。

3. 非平稳性问题

多智能体学习与单智能体学习中最著名的挑战可能是非平稳性问题。由于多个智能体同时根据自己的利益改进他们的政策,从每个智能体的角度来看,环境动态变得是不平稳的,并且在学习时具有挑战性的解释。出现这个问题的原因是,智能体本身无法判断状态过渡——还是奖励的变化——是由于其自己的行动,还是由于其对手的探索。虽然通过完全忽略其他主体独立学习有时会产生惊人强大的经验性能(Matignon等人,2012;Papoudakis等人,2020),但这种方法本质上损害了支持单一主体学习方法理论收敛保证的平稳性假设(Tan,1993)。结果,环境的马尔可夫性质消失,等式平稳政策的状态占用测量(5)已不再存在。例如,MARL中单代理策略梯度方法的收敛结果在简单线性二次对策中证明不收敛(Mazumdar等人,2019b)。

TD学习可以进一步加剧非平稳性问题,目前大多数深度RL方法都采用的重放缓冲区(Foerster等人,2017b)。在单智能体TD学习),智能体引导当前估计的TD误差,将其保存在重播缓冲区中,并对重播缓冲区中的数据进行采样,以更新值函数。在多主体学习的背景下,由于一个智能体的值函数也取决于其他智能体的行为,因此TD学习中的引导过程也需要对其他智能体的行为进行采样,从而导致两个问题。**首先,采样的操作几乎不能代表其他智能体底层策略的完整行为。其次,智能体的策略可以在培训期间进行更改,因此重放缓冲区中的样本可能会很快过时。**因此,在智能体的重放缓冲区中生成数据的动态必须不断更新,以反映它正在学习的当前动态。这一过程进一步加剧了非平稳性问题。

一般来说,非平稳性问题禁止重用相同的数学工具来在多智能体上下文中分析单智能体算法。然而,存在一个例外:定义4中的相同兴趣游戏。在这种情况下,每个智能体都可以安全地执行自私的行为,而不考虑其他智能体的策略,因为该智能体知道其他智能体也会为他们自己的利益行事。因此保持了平稳性,因此仍然可以应用单智能体RL算法。

4. 当出现N>>2时的可伸缩性问题

组合复杂度、多维学习目标和非平稳性问题都导致大多数MARL算法能够解决只有两个玩家的博弈,特别是两人零和博弈(Zhang等人,2019b)。因此,具有两个以上智能体(例如,多智能体问题)的一般和设置的解决方案仍然是一个开放的挑战。这一挑战必须从多主体智能的所有三个角度来解决:博弈论,它提供了现实和可处理的解决方案概念来描述多主体系统的学习结果;RL算法,提供了可证明的收敛学习算法,可以在顺序决策过程中达到稳定和合理的均衡;最后是深度学习技术,它提供了学习算法表达函数逼近器。

多智能体强化学习(五)MARL的挑战相关推荐

  1. 【四】多智能体强化学习(MARL)近年研究概览 {Learning cooperation(协作学习)、Agents modeling agents(智能体建模)}

    相关文章: [一]最新多智能体强化学习方法[总结] [二]最新多智能体强化学习文章如何查阅{顶会:AAAI. ICML } [三]多智能体强化学习(MARL)近年研究概览 {Analysis of e ...

  2. 《强化学习周刊》第2期:多智能体强化学习(MARL)赋能“AI智能时代”

    No.02 智源社区 强化学习组 R L 学  习 研究 观点 资源 活动 关于周刊 随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...

  3. UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

    2017 年 7 月 7 日,由中国计算机学会(CCF)主办,雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的 CCF - GAIR 大会,在深圳大中华喜来登酒店开幕.在 AI 学术前沿专场的第三 ...

  4. 多智能体强化学习:鼓励共享多智能体强化学习中的多样性

    题目:Celebrating Diversity in Shared Multi-Agent Reinforcement Learning 出处:Neural Information Processi ...

  5. 一文搞定!!!多智能体强化学习的前世今生

    最近在学习多智能体的强化学习,看了几篇高质量基础论文,发现还是很有必要将强化学习的体系简单过一遍,然后再有针对性地练习代码. 推进文章:多智能体强化学习路线图 (MARL Roadmap) 转载总结链 ...

  6. 《强化学习周刊》第40期:PMIC多智能体强化学习、Lazy-MDPs、CTDS

    No.40 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

  7. 《强化学习周刊》第16期:多智能体强化学习的最新研究与应用

    No.16 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...

  8. 多智能体强化学习入门

    参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...

  9. 多智能体通信:基于通信的多智能体强化学习研究综述

    题目:A Survey of Multi-Agent Reinforcement Learning with Communication 出处:arXiv 2022 摘要:通信是协调多个智能体行为的有 ...

  10. 多智能体强化学习综述-Lucian Busoniu

    Multi-Agent Reinforcement Learning: A Survey Lucian Busoniu Robert Babuska Bart De Schutter,2006 文章目 ...

最新文章

  1. 霸榜 GitHub:去你丫的算法!
  2. 案例_文件下载_代码实现
  3. git 常用命令(含删除文件)
  4. 下一个互联网平台还有多远?
  5. boost::variantT1, T2类型变量的适配
  6. 浅谈内联元素inline
  7. SpringMVC自定义拦截器拦截请求后返回中文时乱码
  8. MATLAB 如何使用pascal函数创建Pascal(帕斯卡)矩阵
  9. STC51入门笔记(郭天祥C语言)---第九节:常见芯片和运放电路介绍
  10. Ilasm.exe和Ildasm.exe的简单使用
  11. 3个方法解决百度网盘限速问题
  12. 怎样把IPv4转换成IPv6?
  13. 2021-2024年中国两轮电动车企业经营情况对比
  14. 微信6.6.7版本摇塞子破解思路(居多图)
  15. 开源项目与J2EE架构介绍
  16. 36Kr常锋无人机-项目分析和投资决策要点
  17. 软考和计算机等级考试哪个更有用?
  18. 定时任务Schedule的使用
  19. 【Grub2】常见命令
  20. Android 权限大全,android高级面试题库

热门文章

  1. 利用IPHONE自带播放器播放视频
  2. 检查计算机的更新红叉,快速解决win10更新后没有声音小喇叭有个红叉解决教程...
  3. 真机测试无法验证应用
  4. ios 打包 验证应用失败原因汇总
  5. HC-SR501人体红外感应模块程序
  6. NLP初学-简易聊天机器人
  7. 简要分析网络三层架构(核心层、汇聚层、接入层)
  8. Ibus和Fcitx安装
  9. uva 10285 - Longest Run on a Snowboard(dp+记忆化搜索)
  10. 带SN切换流程_专访SN教练叉烧:“重新做教练就是一定要打出成绩让大家看到”...