多智能体强化学习与博弈论-博弈论基础4

本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论。不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价等等。

贝叶斯博弈

首先举一个贝叶斯博弈的简单例子

假设两个人在决定接下来要做什么,B代表Ballet,F代表Football。player1不知道player2希望和他选择做一样的事情,还是希望避免和他做一样的事情,假设这两种情况的概率都是1/2。这时博弈就是一个不完全信息博弈。

我们使用(B,(B,F))来表示这意味着玩家 1会选择B,当处于状态1时,参与人2也会选择B(当她想要遇到参与人1时),而在状态2时,参与人2会选择F (当她想要避开玩家1时)。

假如player1选择了B,那么他的平均收益为:1/2 * 2 + 1/2 * 0 = 1

假如player1选择了F,那么他的平均收益为:1/2 * 0 + 1/2 * 1 = 1/2

说明(B,(B,F))这个策略达到了纳什均衡。

一个贝叶斯博弈包含了:

  • A set of players I;

  • A set of actions (pure strategies) for each player $ i: S_i$ ;

  • A set of types for each player i:ϑi∈Θi\mathrm{i}: \vartheta_{\mathrm{i}} \in \Theta_{\mathrm{i}}i:ϑi​∈Θi​;

  • A payoff function for each player i:ui(s1,…,s1,ϑ1,…,ϑ1)\mathrm{i}: \mathrm{u}_{\mathrm{i}}\left(\mathrm{s}_{1}, \ldots, \mathrm{s}_{1}, \vartheta_{1}, \ldots, \vartheta_{1}\right)i:ui​(s1​,…,s1​,ϑ1​,…,ϑ1​);

  • A (joint) probability distribution p(ϑ1,…,ϑ1)p\left(\vartheta_{1}, \ldots, \vartheta_{1}\right)p(ϑ1​,…,ϑ1​)over types.

在贝叶斯博弈中,决策空间,收益函数,智能体可能的类型和概率分布都是common knowledge(所有智能体都知道)。

双寡头贝叶斯博弈

假设player1的出货量为q1,player2的出货量为q2,Q=q1+q2。市场价格为P,P=a-Q。单位商品消耗为c1,c2。player2的类型有p的概率是low,(1-p)的概率是high。即c2为cLc^LcL的概率为p,为cHc^HcH的概率为(1-p)。

我们可以计算出player2的收益为

π2=[a−(q1+q2)]q2−c2q2\pi_2=[a-(q1+q2)]q2-c2q2 π2​=[a−(q1+q2)]q2−c2q2

对其求一阶导我们可以知道q2=(a−c2−q1)/2q2=(a-c_2-q_1)/2q2=(a−c2​−q1​)/2时,player2有最优解。

当player2的类型为high的时候q2H=(a−cH−q1)/2−①q_2^H=(a-c^H-q_1)/2-①q2H​=(a−cH−q1​)/2−①,

当player2的类型为low的时候q2L=(a−cL−q1)/2−②q_2^L=(a-c^L-q_1)/2-②q2L​=(a−cL−q1​)/2−②。

我们可以进一步算出player1的收益为

π=p[a−(q1+q2H)]q1+(1−p)[a−(q1+q2L)]q1−c1q1\pi=p[a-(q_1+q^H_2)]q_1+(1-p)[a-(q_1+q_2^L)]q_1-c_1q_1 π=p[a−(q1​+q2H​)]q1​+(1−p)[a−(q1​+q2L​)]q1​−c1​q1​

令其一阶导=0可以得到

q1=p(a−c1−q2H)/2+(1−p)(a−c1−q2L)/2−③q_1=p(a-c_1-q^H_2)/2+(1-p)(a-c_1-q^L_2)/2-③ q1​=p(a−c1​−q2H​)/2+(1−p)(a−c1​−q2L​)/2−③

结合①②③我们可以算出

q1=(a−2c1+pcH+(1−p)cL)/3q2H=(a−2cH+c1)/3+(1−p)(cH−cL)/6q2L=(a−2cL+c1)/3−p(cH−cL)/6\begin{array}{l} \mathrm{q}_{1}=\left(\mathrm{a}-2 \mathrm{c}_{1}+\mathrm{p} \mathrm{c}^{\mathrm{H}}+(1-\mathrm{p}) \mathrm{c}^{\mathrm{L}}\right) / 3 \\ \mathrm{q}_{2}^{\mathrm{H}}=\left(\mathrm{a}-2 \mathrm{c}^{\mathrm{H}}+\mathrm{c}_{1}\right) / 3+(1-\mathrm{p})\left(\mathrm{c}^{\mathrm{H}}-\mathrm{c}^{\mathrm{L}}\right) / 6 \\ \mathrm{q}_{2}^{\mathrm{L}}=\left(\mathrm{a}-2 \mathrm{c}^{\mathrm{L}}+\mathrm{c}_{1}\right) / 3-\mathrm{p}\left(\mathrm{c}^{\mathrm{H}}-\mathrm{c}^{\mathrm{L}}\right) / 6 \end{array} q1​=(a−2c1​+pcH+(1−p)cL)/3q2H​=(a−2cH+c1​)/3+(1−p)(cH−cL)/6q2L​=(a−2cL+c1​)/3−p(cH−cL)/6​

拍卖(Auction)理论

English auctions

这种拍卖是一种拍卖价格逐渐上升的拍卖,所有人都知道其他人的出价,最终出价最高的人得到物品

Dutch Auctions

这种拍卖是一种拍卖价格逐渐降低的拍卖,一开始有一个起始价,然后逐渐降低,直到有人选择把物品买下来。

1st -price auctions

在这种拍卖中,拍卖者互相不知道对方的出价,拍卖者将自己的出价放到信封里面,出价最高的能够得到物品。

2nd -price auctions

又称作Vickrey actions。在这种拍卖中,拍卖者互相不知道对方的出价,拍卖者将自己的出价放到信封里面,出价最高的能够得到物品。购买方出的价格为在拍卖中第二高的价格。

在2nd -price auctions中存在着dominant strategy。将自己的出价设为自己能接受的最大价格就是dominant strategy。分析比较简单,只需要分类讨论不同的情况即可。

当拍卖为1st -price auctions的时候,假设有n个player,bid的策略为

bi(vi)=n−1nvib_i(v_i)=\frac{n-1}{n}v_i bi​(vi​)=nn−1​vi​

时,达到纳什均衡。

参考:

汪军老师UCL多智能体强化学习网课

多智能体强化学习与博弈论-博弈论基础4相关推荐

  1. 张海峰-从博弈论到多智能体强化学习

    文章目录 内容摘要 群体决策智能研究背景 博弈论 多智能体强化学习 研究展望 内容摘要 ·随着以图像识别为代表的"感知智能"日趋成熟,越来越多的人工智能研究者开始关注以AlphaG ...

  2. 现代博弈论与多智能体强化学习系统

    如今,大多数人工智能(AI)系统都是基于处理任务的单个代理,或者在对抗模型的情况下,是一些相互竞争以改善系统整体行为的代理.然而,现实世界中的许多认知问题是大群人建立的知识的结果.以自动驾驶汽车场景为 ...

  3. 多智能体强化学习与博弈论-博弈论基础

    多智能体强化学习与博弈论-博弈论基础 最近开始学习一些多智能体强化学习相关的内容,因此我打算写一些多智能体强化学习和博弈论相关的学习记录

  4. 多智能体强化学习与博弈论-博弈论基础2

    多智能体强化学习与博弈论-博弈论基础2 Repeated Games(重复博弈) 之前我们介绍了一些单次博弈的例子,除了单次博弈外,重复博弈也是经常在我们生活中出现的.在重复博弈中智能体有机会在单次的 ...

  5. 博弈论-多智能体强化学习基础

    博弈是多智能体强化学习中的常用理论.本文介绍几种基本的博弈游戏. 1 囚徒困境 在囚徒困境博弈中,两名犯罪的囚犯一起被警察盘问,每个罪犯都有两种选择:一种是与警察合作来对付同伙:另一种是与同伙串通而对 ...

  6. 《强化学习周刊》第16期:多智能体强化学习的最新研究与应用

    No.16 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...

  7. 《强化学习周刊》第2期:多智能体强化学习(MARL)赋能“AI智能时代”

    No.02 智源社区 强化学习组 R L 学  习 研究 观点 资源 活动 关于周刊 随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...

  8. 上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练

    机器之心专栏 作者:上海交大和UCL多智能体强化学习研究团队 基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸.王者荣耀等游戏AI上已经得到成功验证,MALib 则是首个专门面向 PB- ...

  9. 多智能体强化学习入门

    参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...

最新文章

  1. 打印两个有序链表的公共部分
  2. python 标准差Std() 参数决定有偏或无偏
  3. 解复用FLV文件(基于FFMPEG解析FLV(h264+aac))
  4. Android Studio 从入门到精通
  5. Spring boot应用如何支持https
  6. 针对access数据库的增删改查
  7. 查询没有走索引_MySQL 如何正确的使用索引
  8. asp.net gridview 模板列 弹出窗口编辑_【线上课堂】中国(辽宁)国际贸易单一窗口企业资质系统业务操作...
  9. 几何元素网页设计的力量,让人眼前一亮
  10. 【100题】第十二题(特殊的递加)
  11. redis的基础配置
  12. 安装Python readline模块
  13. POJ 2135Farm Tour--MCMF
  14. 程矢Axure夜话:Axure手机原型视频教程之图形解锁
  15. Java IO流学习总结一:输入输出流
  16. unity webgl获取页面Token信息,及加载StreamingAssets下.txt
  17. #linux# gcc编译优化-O0 -O1 -O2 -O3 -OS说明
  18. android编译找不到系统so,Android找不到so库解决方法
  19. 我的U盘终于中招啦:U盘快捷方式病毒
  20. 免费英文在线翻译-英文自动翻译

热门文章

  1. go是面向对象语言吗?
  2. 2021年腾讯最新面试题,一个小时帮你掌握面试精髓!看过百分之99能拿到腾讯offer~
  3. PhantomJS简介
  4. jquery mobile java_jQuery Mobile 安装
  5. 反掩码有什么作用?通配符掩码有什么作用?
  6. 各种存储容量的标识说明:1TB等于多少GB?1PB等于多少TB?1EB等于多少PB?
  7. 深度长文|详解现象级ChatGPT发展历程、原理、技术架构详解和产业未来
  8. hdu 3790(最短路径问题 SPFA算法)
  9. BES的ANC之FF,FB,MC功能
  10. mysql忘记密码的三种解决方案