多智能体强化学习与博弈论-博弈论基础2

Repeated Games(重复博弈)

之前我们介绍了一些单次博弈的例子,除了单次博弈外,重复博弈也是经常在我们生活中出现的。在重复博弈中智能体有机会在单次的博弈中占到对手的便宜,但是由于考虑到后来还有博弈,可能其它的智能体会采取对自己更为不利的策略,智能体为了有更好的长期收益,所以决定智能体策略的选择会更加复杂。

在重复博弈的过程中不仅要考虑当前这次的博弈,还需要考虑以后的博弈收益。对于以后的博弈,需要给定一个折扣,距离现在的时间越长,折扣越大。折扣可以使用δt\delta^tδt来表示。

在重复博弈中有很多的策略,其中的一种策略为grim trigger strategy。以重复的囚徒困境为例。当另一个人选择C的时候,这个囚徒也选择C。一旦另一个人选择一次D,这个囚徒就在接下来的博弈中每次都选择D(C代表合作,D代表不合作)。

假设两个player中player1采取的是grim trigger strategy.

若player2一直选择C,则他的收益为:

u2(h)=∑t=0∞δtu(a2t)=∑t=0∞δt2=2/(1−δ)u_{2}(h)=\sum_{t=0}^{\infty} \delta^{t} u\left(a_{2}^{t}\right)=\sum_{t=0}^{\infty} \delta^{t} 2=2 /(1-\delta) u2​(h)=t=0∑∞​δtu(a2t​)=t=0∑∞​δt2=2/(1−δ)

若player2在某一回合选择了D,然后就一直继续选D(Starting D earlier would have a better utility),则他的收益为:

u2(h)′=∑t=0∞δtu(a2t)=3+δ+δ2…=2+11−δ=3−2δ1−δu_{2}(h)^{\prime}=\sum_{t=0}^{\infty} \delta^{t} u\left(a_{2}^{t}\right)=3+\delta+\delta^{2} \ldots=2+\frac{1}{1-\delta}=\frac{3-2 \delta}{1-\delta} u2​(h)′=t=0∑∞​δtu(a2t​)=3+δ+δ2…=2+1−δ1​=1−δ3−2δ​

当3−2δ1−δ<=2/(1−δ)\frac{3-2 \delta}{1-\delta}<=2 /(1-\delta)1−δ3−2δ​<=2/(1−δ)时,Grim trigger strategy是一个纳什均衡。

另一个重复博弈中的策略为limited punishment。当另一个人选择了D之后,这个人选择几次D之后继续变回C。

另一个重复博弈中的策略为Tit-for-tat strategy(以牙还牙策略)。另一个人选C这个人就选C,另一个人选D这个人就选D。

Extensive Form Games

  • Strategic form games -> model one-shot games in which each player chooses his action once and for all simultaneously.

  • Extensive form games -> multi-agent sequential decision making.

假设有这么一个博弈

从表格中我们可以看到两个纳什均衡(In, A)和(Out, F)。但是实际上(1,2)这个纳什均衡的存在不合理,因为Entrant先做决策,他选择In后,Incumbent肯定会选择A因为选A比F的收益大。(1,2)这个纳什均衡存在是由于Entrant不合理的惧怕选择了In之后别人选择F。

在Extensive Form Games中需要保证子博弈完美纳什均衡,对于有限的博弈,可以使用逆向归纳法来寻找纳什均衡。

以上面这个博弈为例,首先我们从最后面往上推,player1会选择左边的策略,接着player2(player1上面那个)会选择左边的策略。另一个player2反推的话会选择左边的策略。最上面的player1会选择右边的那个策略,因此我们可以得到唯一的纳什均衡(3,2)这个点。

Potential Games(势博弈)

定义:A strategic form game is a potential game (such as ordinal potential game or exact potential game) if there exists a function Φ : S→ R such that$ Φ(s_i,s_{−i})$ gives information about$ u_i(s_i,s_{−i})$ for each i ∈ I.Φ is referred to as the potential function.

Theorem: 每个有限序数势博弈至少有一个纯策略纳什均衡。

Theorem:A game G is an exact potential game if and only if for all finite simple closed paths, γ, I (γ) = 0. Moreover, it is sufficient to check simple closed paths of length 4.

在这三个中Matching pennies就不是势博弈,其它两个都是。

举一个简单的势博弈的例子:

参考:

  • 汪军老师UCL多智能体强化学习网课

  • Potential game - Wikipedia

多智能体强化学习与博弈论-博弈论基础2相关推荐

  1. 张海峰-从博弈论到多智能体强化学习

    文章目录 内容摘要 群体决策智能研究背景 博弈论 多智能体强化学习 研究展望 内容摘要 ·随着以图像识别为代表的"感知智能"日趋成熟,越来越多的人工智能研究者开始关注以AlphaG ...

  2. 现代博弈论与多智能体强化学习系统

    如今,大多数人工智能(AI)系统都是基于处理任务的单个代理,或者在对抗模型的情况下,是一些相互竞争以改善系统整体行为的代理.然而,现实世界中的许多认知问题是大群人建立的知识的结果.以自动驾驶汽车场景为 ...

  3. 多智能体强化学习与博弈论-博弈论基础

    多智能体强化学习与博弈论-博弈论基础 最近开始学习一些多智能体强化学习相关的内容,因此我打算写一些多智能体强化学习和博弈论相关的学习记录

  4. 多智能体强化学习与博弈论-博弈论基础4

    多智能体强化学习与博弈论-博弈论基础4 本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论.不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价 ...

  5. 博弈论-多智能体强化学习基础

    博弈是多智能体强化学习中的常用理论.本文介绍几种基本的博弈游戏. 1 囚徒困境 在囚徒困境博弈中,两名犯罪的囚犯一起被警察盘问,每个罪犯都有两种选择:一种是与警察合作来对付同伙:另一种是与同伙串通而对 ...

  6. 《强化学习周刊》第16期:多智能体强化学习的最新研究与应用

    No.16 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...

  7. 《强化学习周刊》第2期:多智能体强化学习(MARL)赋能“AI智能时代”

    No.02 智源社区 强化学习组 R L 学  习 研究 观点 资源 活动 关于周刊 随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...

  8. 上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练

    机器之心专栏 作者:上海交大和UCL多智能体强化学习研究团队 基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸.王者荣耀等游戏AI上已经得到成功验证,MALib 则是首个专门面向 PB- ...

  9. 多智能体强化学习入门

    参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...

最新文章

  1. 简单mysql 查询_简单的mysql查询
  2. 帝国cms会员充值交易推广分润系统的界面实现与开发记录
  3. 设置cookie存活时间_Django之cookie、session、token
  4. Maven属性(properties)标签的使用
  5. 内部设计师揭秘!王者峡谷中竟有隐藏的c++代码??!!腾讯已经炸了!!!
  6. mvc.net分页查询案例——实体层(HouseModel.cs)
  7. 20170831_安装软件
  8. mysql 表格入门_MySQL-快速入门(1)基本数据库、表操作语句
  9. 文字处理技术:布局绘制的方向有哪些?
  10. vis.js绘图库的一个BUG以及源码修正
  11. 笔记本电脑触摸板的使用
  12. 大疆rm专属通道算法类投递总结(2022.08)
  13. 人事管理系统实现(一)
  14. 【Unity ASE学习笔记】
  15. ST M24C01-WDW6TP EEPROM存储器芯片
  16. 有哪些好用的微信群管理工具?
  17. FinalCutPro快捷键
  18. php计算股票均线,均线怎么算?均线的计算方法详解
  19. 锚点链接点击锚点后不改变url的方法
  20. [Unity学习笔记:FPS游戏制作(1)]角色的移动,旋转与推进上升————(2021.6.13学习笔记)

热门文章

  1. java学习第十一天笔记-字符串217-根据id查找用户信息
  2. 网页嵌入Bilibili HTML5视频播放
  3. linux的vnc远程桌面很慢,打造linux的远程桌面-vnc服务
  4. 单位系统被黑客入侵,怎么应对?
  5. Linux系统入侵痕迹分析取证
  6. 都2022年了,还不用Jenkins自动化部署?
  7. SpringBoot实现基础的sso单点登录
  8. JAVA相关的深度技术博客链接
  9. 用canvas在vue实现流星雨效果(移动端)
  10. OpenWrt 快速入门(源码目录)