博弈论——非完全信息博弈
版权声明:本文为原创文章,未经博主允许不得用于商业用途。
在实际情况中,博弈对手的收益大多为不可见的,即每个玩家有公共信息和私有信息。
贝叶斯博弈
基本概念
在贝叶斯博弈中为每位玩家增加一个类型空间Θi\Theta_{i}Θi包含其所有的私有信息(针对不同策略的不同收益函数)
所有玩家类型空间的选择满足概率分布p=p(θ1,...,θN)on×i=1...nΘip=p(\theta_{1},...,\theta_{N})\ on\ \times_{i=1...n}\Theta_{i}p=p(θ1,...,θN) on ×i=1...nΘi
玩家i的一种纯策略ai=(ai(θi1),ai(θi2),...,ai(θini))a_{i}=(a_{i}(\theta_i^1),a_i(\theta_i^2),...,a_i(\theta_i^{n_i}))ai=(ai(θi1),ai(θi2),...,ai(θini)),其中nin_ini为玩家i类型空间的大小(可以看成Θi→Ai\Theta_i\rightarrow A_iΘi→Ai的映射)。
收益函数可以写作ui(a1,...aN,θ1,...,θN),θi∈Θiu_i(a_1,...a_N,\theta_1,...,\theta_N),\theta_i \in \Theta_iui(a1,...aN,θ1,...,θN),θi∈Θi,即针对每一种博弈结果,玩家的每种类型都有一个收益。
贝叶斯博弈中类型空间的选取满足贝叶斯公式,即p(θ−i∣θi)=p(θi,θ−i)p(θi)p(\theta_{-i}|\theta_i)=\frac{p(\theta_i,\theta_{-i})}{p(\theta_i)}p(θ−i∣θi)=p(θi)p(θi,θ−i)
博弈结果需要每位玩家在每个类型上选择一种最优策略,因此最终结果表示为((a1(θ11),...,a1(θ1n1)),...,(aN(θN1),...,aN(θNnN))((a_1(\theta_1^1),...,a_1(\theta_1^{n_1})),...,(a_N(\theta_N^1),...,a_N(\theta_N^{n_N}))((a1(θ11),...,a1(θ1n1)),...,(aN(θN1),...,aN(θNnN))
玩家i某一类型收益为所有其余玩家所有策略的期望:Ui(ai(θi),a−i)=∑θ−ip(θ−i∣θi)ui(a−i(θ−i),ai,θ−i,θi)U_i(a_i(\theta_i),a_{-i})=\sum_{\theta_{-i}}p(\theta_{-i}|\theta_i)u_i(a_{-i}(\theta_{-i}),a_i,\theta_{-i},\theta_i)Ui(ai(θi),a−i)=∑θ−ip(θ−i∣θi)ui(a−i(θ−i),ai,θ−i,θi)
综上,贝叶斯博弈可以表示为G={N,{Ai},{Θi},{ui},p}G=\{N,\{A_i\},\{\Theta_i\},\{u_i\},p\}G={N,{Ai},{Θi},{ui},p}。
例题1:
Bank Runs
两名客户在银行中都有100的资产,如果遇到好的银行家则两人都可以获得150,否则失去所有资产。
客户可以取出自己的存款,但银行只有100的资金,一个取出另一个资产为0,如果两个人都选择取出则每人获得50。
其中:Player1以概率p相信银行家,Player2知道银行家的好坏。
化规为贝叶斯博弈:
策略集为:A1=A2=W,NA_1=A_2={W,N}A1=A2=W,N(W即withdraw, N即not)
类型空间为:Θ1={1},Θ2={G,B}\Theta_1=\{1\},\Theta_2=\{G,B\}Θ1={1},Θ2={G,B},Player1只有一种类型,Player2具有类型G(好银行家)和B(坏银行家)
概率分布只针对玩家1,p1(θ2=G)=pp_1(\theta_2=G)=pp1(θ2=G)=p
则:
- 如果Player1选择W,则玩家2最优策略为:B2(W,G)={W};B2(W,B)={W}B_2(W,G)=\{W\}; \ B_2(W,B)=\{W\}B2(W,G)={W}; B2(W,B)={W}。则:
- U1(W,B2)=50p+50(1−p)=50U_1(W,B_2)=50p+50(1-p)=50U1(W,B2)=50p+50(1−p)=50
- U1(N,B2)=0p+0(1−p)=0U_1(N,B_2)=0p+0(1-p)=0U1(N,B2)=0p+0(1−p)=0
显然此时Player1无理由更换策略,因此达到贝叶斯纳什均衡。
- 如果Player1选择N,则玩家2最优策略为:B2(N,G)={N}:B2(N,B)={W}B_2(N,G)=\{N\}:B_2(N,B)=\{W\}B2(N,G)={N}:B2(N,B)={W}。则:
- U1(W,B2)=100p+50(1−p)U_1(W,B_2)=100p+50(1-p)U1(W,B2)=100p+50(1−p)
- U1(N,B2)=150p+0(1−p)U_1(N,B_2)=150p+0(1-p)U1(N,B2)=150p+0(1−p)
因此当U1(N,B2)≥U1(W,B2)U_1(N,B_2)\geq U_1(W,B_2)U1(N,B2)≥U1(W,B2)时达到贝叶斯均衡,即p≥0.5p\geq 0.5p≥0.5
例题2:
第一高价拍卖:
更改之前的规则:两名玩家参与竞拍,玩家只知道自己的实际价值,其他玩家的实际价值为[0,1]的任意实数,且等概率,竞拍价格为bi=avi,(a>0)b_i=av_i,(a>0)bi=avi,(a>0)
玩家1收益函数定义为:
v1−b1ifb1>b2v_1-b_1\ if\ b_1>b_2v1−b1 if b1>b2
v1/2−b1ifb1=b2v_1/2-b_1\ if\ b_1=b_2v1/2−b1 if b1=b2
0otherwise0\ otherwise0 otherwise
则玩家1的收益为:U1(bi,bj(vj),vi)=(vi−bi)p[bi>bj(vj)]+(vi−bi)/2p[bi=bj(vj)]+0p[bi<bj(vj)]U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i>b_j(v_j)]+(v_i-b_i)/2p[b_i=b_j(v_j)]+0p[b_i<b_j(v_j)]U1(bi,bj(vj),vi)=(vi−bi)p[bi>bj(vj)]+(vi−bi)/2p[bi=bj(vj)]+0p[bi<bj(vj)],其中bi>bj⇔bi>avj⇔bi/a>vjb_i>b_j\Leftrightarrow b_i>av_j\Leftrightarrow b_i/a>v_jbi>bj⇔bi>avj⇔bi/a>vj
由于vjv_jvjz在[0,1]为均匀分布,因此bi在[0,avj]b_i在[0,av_j]bi在[0,avj]为均匀分布,因此:
p[bi>bj]=bi/a,Ui(bi,bj,vi)=(vi−bi)bi/a,当bi=vi/2p[b_i>b_j]=b_i/a,U_i(b_i,b_j,v_i)=(v_i-b_i)b_i/a,当b_i=v_i/2p[bi>bj]=bi/a,Ui(bi,bj,vi)=(vi−bi)bi/a,当bi=vi/2时取得最大值。
如果拓展到N个博弈玩家则U1(bi,bj(vj),vi)=(vi−bi)p[bi>max{bj(vj)}]+(vi−bi)/2p[bi=max{bj(vj)}]U_1(b_i,bj(v_j),v_i)=(v_i-b_i)p[b_i>max\{b_j(v_j)\}]+(v_i-b_i)/2p[b_i=max\{b_j(v_j)\}]U1(bi,bj(vj),vi)=(vi−bi)p[bi>max{bj(vj)}]+(vi−bi)/2p[bi=max{bj(vj)}]
且bi>max{bj}⇔vi>max{vj}b_i>max\{b_j\}\Leftrightarrow v_i>max\{v_j\}bi>max{bj}⇔vi>max{vj},且各玩家的真实价值相互独立,因此p[vi>max{vj}]=∏j≠ip[vi>vj]=viN−1=(bi/a)N−1p[v_i>max\{v_j\}]=\prod_{j\neq i} p[v_i>v_j]=v_i^{N-1}=(b_i/a)^{N-1}p[vi>max{vj}]=∏j̸=ip[vi>vj]=viN−1=(bi/a)N−1,收益为(vi−bi)(bi/a)N−1(v_i-b_i)(b_i/a)^{N-1}(vi−bi)(bi/a)N−1。
求导得:bin−2(((N−1)vi−Nbi)=0⇒bi=N−1Nvib_i^{n-2}(((N-1)v_i-Nb_i)=0\Rightarrow b_i=\frac{N-1}{N}v_ibin−2(((N−1)vi−Nbi)=0⇒bi=NN−1vi
博弈论——非完全信息博弈相关推荐
- 博弈论——非合作博弈 什么是纳什均衡
博弈论--非合作博弈 纳什均衡用一句话来概括就是--博弈的所有参与人都为了满足自己 的个人利益而选择牺牲集体利益而导致的全体参与人都吃亏的均衡状态. 也可以粗略的理解为:要死大家一起死. 纳什均衡的本 ...
- 麻将AI 不完全信息博弈学习笔记(完结)
前言 在这学期的数据结构必修课中,老师向我们提供了两道题: 其一是六子棋问题: 其二是麻将AI问题: 前者是经典的完全信息博弈问题,根据我已有的知识,利用博弈树和合理的剪枝可以提供一种高效的解法(当然 ...
- 【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡
目录 一.前言 1.1 博弈论 1.2 纳什 1.3 胆小鬼博弈 1.4 囚徒困境 1.5 智猪博弈 二.纳什均衡 2.1 纳什均衡定义 2.2 悖论 结语 一.前言 在博弈论中,纳什均衡(Nash ...
- MATLAB代码:基于非合作博弈的多微网P2P交易策略研究
MATLAB代码:基于非合作博弈的多微网P2P交易策略研究 关键词:微网 P2P交易 非合作博弈 交易电价 参考文档:<基于博弈论的多微电网系统交易模式研究>完全复现 仿真平台:MATLA ...
- 人工智能笔记之专业选修课4.1.5 - 博弈论 9.重复博弈,效用,随机博弈
重复博弈 (repeated games) 当我们考虑世界上绝大部分互动时,其中很多不止会发生一次 市场上的公司 它们与竞争对手活动 朋友,你会交换吗,你会在朋友需要帮助时帮助他们吗?你需要时他们会帮 ...
- 博弈论(阶梯博弈)POJ 1704
对阶梯博弈的阐述:博弈在一列阶梯上进行,每个阶梯上放着自然数个点.两个人进行阶梯博弈,每一步则是将一个集体上的若干个点( >=1 )移到前面去,最后没有点可以移动的人输 证明方式:如这就是一个阶 ...
- 博弈论——巴什博弈(C++)
博弈论(C++) 前言 例题:拍卖会 题目描述 输入输出格式 输入格式: 输出格式: 输入输出样例 输入样例#1: 输出样例#1: 例题的解: 巴什博奕(Bash Game): 代码: 前言 有一种很 ...
- 数学基础(四)博弈论(巴什博弈~威佐夫博弈(黄金分割率)~尼姆博奕~斐波那契博弈~SG函数模板)
一.巴什博弈 1.问题模型 只有一堆n个物品,两个人轮流从这堆物品中取物,规定每次至少取一个,最多取m个,最后取光者得胜. 2.解决思路: 当n=m+1时,由于一次最多只能取m个,所以无论先取者拿走多 ...
- 基于非合作博弈的风-光-氢微电网容量优化配置(Matlab代码实现)
最新文章
- 高性能千万级定时任务管理服务forsun使用详解
- 用于3D重构的深层隐式移动最小二乘函数(CVPR 2021)
- linux yum 离线安装rpm包
- python命令大全-深度学习中python常用命令
- Kotlin代码检查在美团的探索与实践
- 百度百科中关于fwrite的用法说明
- iptables基础篇
- linux终止yum进程,【Linux】CentOS7中yumbackend.py进程的结束方法
- 点击回退按钮刷新页面
- 【征稿通知】CCF第37届中国计算机应用大会 CCF NCCA 2022
- ASP.NET中Button控件的CommandName和CommandArgument属性用法
- b、blockquote、base、bdo、big、标签
- Codesys使用电子凸轮实现追剪功能
- 就这?阿里p6的面试竟然这么简单
- 初一学生上计算机教学内容,初一计算机教学工作计划.docx
- 怎么写经济学论文的导言和文献综述
- Vpp与dBW、dBmW的关系
- power bi -分组累计求和
- 董付国老师python教学——学习笔记(一)
- WIPS产品到底能不能堵上最强Wi-Fi 漏洞?这里有一场精彩的红蓝对抗