多智能体强化学习与博弈论-博弈论基础4
多智能体强化学习与博弈论-博弈论基础4
本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论。不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价等等。
贝叶斯博弈
首先举一个贝叶斯博弈的简单例子
假设两个人在决定接下来要做什么,B代表Ballet,F代表Football。player1不知道player2希望和他选择做一样的事情,还是希望避免和他做一样的事情,假设这两种情况的概率都是1/2。这时博弈就是一个不完全信息博弈。
我们使用(B,(B,F))来表示这意味着玩家 1会选择B,当处于状态1时,参与人2也会选择B(当她想要遇到参与人1时),而在状态2时,参与人2会选择F (当她想要避开玩家1时)。
假如player1选择了B,那么他的平均收益为:1/2 * 2 + 1/2 * 0 = 1
假如player1选择了F,那么他的平均收益为:1/2 * 0 + 1/2 * 1 = 1/2
说明(B,(B,F))这个策略达到了纳什均衡。
一个贝叶斯博弈包含了:
A set of players I;
A set of actions (pure strategies) for each player $ i: S_i$ ;
A set of types for each player i:ϑi∈Θi\mathrm{i}: \vartheta_{\mathrm{i}} \in \Theta_{\mathrm{i}}i:ϑi∈Θi;
A payoff function for each player i:ui(s1,…,s1,ϑ1,…,ϑ1)\mathrm{i}: \mathrm{u}_{\mathrm{i}}\left(\mathrm{s}_{1}, \ldots, \mathrm{s}_{1}, \vartheta_{1}, \ldots, \vartheta_{1}\right)i:ui(s1,…,s1,ϑ1,…,ϑ1);
A (joint) probability distribution p(ϑ1,…,ϑ1)p\left(\vartheta_{1}, \ldots, \vartheta_{1}\right)p(ϑ1,…,ϑ1)over types.
在贝叶斯博弈中,决策空间,收益函数,智能体可能的类型和概率分布都是common knowledge(所有智能体都知道)。
双寡头贝叶斯博弈
假设player1的出货量为q1,player2的出货量为q2,Q=q1+q2。市场价格为P,P=a-Q。单位商品消耗为c1,c2。player2的类型有p的概率是low,(1-p)的概率是high。即c2为cLc^LcL的概率为p,为cHc^HcH的概率为(1-p)。
我们可以计算出player2的收益为
π2=[a−(q1+q2)]q2−c2q2\pi_2=[a-(q1+q2)]q2-c2q2 π2=[a−(q1+q2)]q2−c2q2
对其求一阶导我们可以知道q2=(a−c2−q1)/2q2=(a-c_2-q_1)/2q2=(a−c2−q1)/2时,player2有最优解。
当player2的类型为high的时候q2H=(a−cH−q1)/2−①q_2^H=(a-c^H-q_1)/2-①q2H=(a−cH−q1)/2−①,
当player2的类型为low的时候q2L=(a−cL−q1)/2−②q_2^L=(a-c^L-q_1)/2-②q2L=(a−cL−q1)/2−②。
我们可以进一步算出player1的收益为
π=p[a−(q1+q2H)]q1+(1−p)[a−(q1+q2L)]q1−c1q1\pi=p[a-(q_1+q^H_2)]q_1+(1-p)[a-(q_1+q_2^L)]q_1-c_1q_1 π=p[a−(q1+q2H)]q1+(1−p)[a−(q1+q2L)]q1−c1q1
令其一阶导=0可以得到
q1=p(a−c1−q2H)/2+(1−p)(a−c1−q2L)/2−③q_1=p(a-c_1-q^H_2)/2+(1-p)(a-c_1-q^L_2)/2-③ q1=p(a−c1−q2H)/2+(1−p)(a−c1−q2L)/2−③
结合①②③我们可以算出
q1=(a−2c1+pcH+(1−p)cL)/3q2H=(a−2cH+c1)/3+(1−p)(cH−cL)/6q2L=(a−2cL+c1)/3−p(cH−cL)/6\begin{array}{l} \mathrm{q}_{1}=\left(\mathrm{a}-2 \mathrm{c}_{1}+\mathrm{p} \mathrm{c}^{\mathrm{H}}+(1-\mathrm{p}) \mathrm{c}^{\mathrm{L}}\right) / 3 \\ \mathrm{q}_{2}^{\mathrm{H}}=\left(\mathrm{a}-2 \mathrm{c}^{\mathrm{H}}+\mathrm{c}_{1}\right) / 3+(1-\mathrm{p})\left(\mathrm{c}^{\mathrm{H}}-\mathrm{c}^{\mathrm{L}}\right) / 6 \\ \mathrm{q}_{2}^{\mathrm{L}}=\left(\mathrm{a}-2 \mathrm{c}^{\mathrm{L}}+\mathrm{c}_{1}\right) / 3-\mathrm{p}\left(\mathrm{c}^{\mathrm{H}}-\mathrm{c}^{\mathrm{L}}\right) / 6 \end{array} q1=(a−2c1+pcH+(1−p)cL)/3q2H=(a−2cH+c1)/3+(1−p)(cH−cL)/6q2L=(a−2cL+c1)/3−p(cH−cL)/6
拍卖(Auction)理论
English auctions
这种拍卖是一种拍卖价格逐渐上升的拍卖,所有人都知道其他人的出价,最终出价最高的人得到物品
Dutch Auctions
这种拍卖是一种拍卖价格逐渐降低的拍卖,一开始有一个起始价,然后逐渐降低,直到有人选择把物品买下来。
1st -price auctions
在这种拍卖中,拍卖者互相不知道对方的出价,拍卖者将自己的出价放到信封里面,出价最高的能够得到物品。
2nd -price auctions
又称作Vickrey actions。在这种拍卖中,拍卖者互相不知道对方的出价,拍卖者将自己的出价放到信封里面,出价最高的能够得到物品。购买方出的价格为在拍卖中第二高的价格。
在2nd -price auctions中存在着dominant strategy。将自己的出价设为自己能接受的最大价格就是dominant strategy。分析比较简单,只需要分类讨论不同的情况即可。
当拍卖为1st -price auctions的时候,假设有n个player,bid的策略为
bi(vi)=n−1nvib_i(v_i)=\frac{n-1}{n}v_i bi(vi)=nn−1vi
时,达到纳什均衡。
参考:
汪军老师UCL多智能体强化学习网课
多智能体强化学习与博弈论-博弈论基础4相关推荐
- 张海峰-从博弈论到多智能体强化学习
文章目录 内容摘要 群体决策智能研究背景 博弈论 多智能体强化学习 研究展望 内容摘要 ·随着以图像识别为代表的"感知智能"日趋成熟,越来越多的人工智能研究者开始关注以AlphaG ...
- 现代博弈论与多智能体强化学习系统
如今,大多数人工智能(AI)系统都是基于处理任务的单个代理,或者在对抗模型的情况下,是一些相互竞争以改善系统整体行为的代理.然而,现实世界中的许多认知问题是大群人建立的知识的结果.以自动驾驶汽车场景为 ...
- 多智能体强化学习与博弈论-博弈论基础
多智能体强化学习与博弈论-博弈论基础 最近开始学习一些多智能体强化学习相关的内容,因此我打算写一些多智能体强化学习和博弈论相关的学习记录
- 多智能体强化学习与博弈论-博弈论基础2
多智能体强化学习与博弈论-博弈论基础2 Repeated Games(重复博弈) 之前我们介绍了一些单次博弈的例子,除了单次博弈外,重复博弈也是经常在我们生活中出现的.在重复博弈中智能体有机会在单次的 ...
- 博弈论-多智能体强化学习基础
博弈是多智能体强化学习中的常用理论.本文介绍几种基本的博弈游戏. 1 囚徒困境 在囚徒困境博弈中,两名犯罪的囚犯一起被警察盘问,每个罪犯都有两种选择:一种是与警察合作来对付同伙:另一种是与同伙串通而对 ...
- 《强化学习周刊》第16期:多智能体强化学习的最新研究与应用
No.16 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...
- 《强化学习周刊》第2期:多智能体强化学习(MARL)赋能“AI智能时代”
No.02 智源社区 强化学习组 R L 学 习 研究 观点 资源 活动 关于周刊 随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...
- 上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练
机器之心专栏 作者:上海交大和UCL多智能体强化学习研究团队 基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸.王者荣耀等游戏AI上已经得到成功验证,MALib 则是首个专门面向 PB- ...
- 多智能体强化学习入门
参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...
最新文章
- 打印两个有序链表的公共部分
- python 标准差Std() 参数决定有偏或无偏
- 解复用FLV文件(基于FFMPEG解析FLV(h264+aac))
- Android Studio 从入门到精通
- Spring boot应用如何支持https
- 针对access数据库的增删改查
- 查询没有走索引_MySQL 如何正确的使用索引
- asp.net gridview 模板列 弹出窗口编辑_【线上课堂】中国(辽宁)国际贸易单一窗口企业资质系统业务操作...
- 几何元素网页设计的力量,让人眼前一亮
- 【100题】第十二题(特殊的递加)
- redis的基础配置
- 安装Python readline模块
- POJ 2135Farm Tour--MCMF
- 程矢Axure夜话:Axure手机原型视频教程之图形解锁
- Java IO流学习总结一:输入输出流
- unity webgl获取页面Token信息,及加载StreamingAssets下.txt
- #linux# gcc编译优化-O0 -O1 -O2 -O3 -OS说明
- android编译找不到系统so,Android找不到so库解决方法
- 我的U盘终于中招啦:U盘快捷方式病毒
- 免费英文在线翻译-英文自动翻译
热门文章
- go是面向对象语言吗?
- 2021年腾讯最新面试题,一个小时帮你掌握面试精髓!看过百分之99能拿到腾讯offer~
- PhantomJS简介
- jquery mobile java_jQuery Mobile 安装
- 反掩码有什么作用?通配符掩码有什么作用?
- 各种存储容量的标识说明:1TB等于多少GB?1PB等于多少TB?1EB等于多少PB?
- 深度长文|详解现象级ChatGPT发展历程、原理、技术架构详解和产业未来
- hdu 3790(最短路径问题 SPFA算法)
- BES的ANC之FF,FB,MC功能
- mysql忘记密码的三种解决方案