版权声明:本文为原创文章,未经博主允许不得用于商业用途。

基本概念

一场博弈中的基本属性:

  • N个玩家

  • 每个玩家都具有非空备选策略集Ai,i∈NA_{i}, i\in NAi​,i∈N

  • 收益函数ui:A1×A2×...×AN→Rfori∈Nu_{i}:A_{1}\times A_{2} \times...\times A_{N}\rightarrow R\space for\space i \in Nui​:A1​×A2​×...×AN​→R for i∈N (即所有策略的笛卡儿积作为总体策略集合,其中每个玩家的每种策略都对应一个收益)

    • 收益函数可以被偏序关系取代
  • 博弈结果(outcome):a=(a1,a2,...,aN)a=(a_{1},a_{2},...,a_{N})a=(a1​,a2​,...,aN​),其中aia_{i}ai​对应第i个玩家所选的策略

  • 结果空间(outcome space):A=A1×A2×...×ANA=A_{1}\times A_{2} \times...\times A_{N}A=A1​×A2​×...×AN​

  • 对于每种结果,定义a−i=(a1,...ai−1,ai+1,...aN)=a/aia_{-i}=(a_{1},...a_{i-1},a{i+1},...a_{N})=a/a_{i}a−i​=(a1​,...ai−1​,ai+1,...aN​)=a/ai​,即当玩家i选择策略a时其余玩家采取的策略

  • A−i=A1×...×Ai−1×Ai+1×...×ANA_{-i}=A_{1}\times ...\times A_{i-1}\times A_{i+1}\times...\times A_{N}A−i​=A1​×...×Ai−1​×Ai+1​×...×AN​,即其余玩家的结果空间

  • 纳什均衡:策略aaa为纳什均衡点当且仅当:

    ∀i∈N,∀ai∈Ai,ui(ai∗,a−i∗)≥ui(ai,a−i∗)\forall i\in N, \forall a_{i}\in A_{i},u_{i}(a^{*}_{i}, a^{*}_{-i})\geq u_{i}(a_{i}, a_{-i}^{*})∀i∈N,∀ai​∈Ai​,ui​(ai∗​,a−i∗​)≥ui​(ai​,a−i∗​),即所有玩家的策略改变策略都不会获得更多收益,所有玩家都没有改变策略的动机。

  • 完全信息博弈即所有玩家的策略偏序关系公开

策略式博弈(Strategy Games)

​ 策略式博弈即为最简单的博弈,具有有限的玩家、非空策略集和收益函数,可以表示为:
G={N,{Ai}i=1N,{ui}i=1N}G=\{N,\{A_{i}\}_{i=1}^{N},\{u_{i}\}_{i=1}^{N}\} G={N,{Ai​}i=1N​,{ui​}i=1N​}
例如经典的囚徒困境可以表示为:

confess don’t confess
confess -6 -6 0 -12
don’t confess -12 0 0 0

玩家:N={1,2}N=\{1,2\}N={1,2}

策略:A1=A2={c,d}A_{1}=A_{2}=\{c,d\}A1​=A2​={c,d}

收益:u1(c,c)=−6,u1(c,d)=0...u_{1}(c,c)=-6, u_{1}(c,d)=0 ...u1​(c,c)=−6,u1​(c,d)=0...

寻找纳什均衡方法:

  • u∈Zu\in Zu∈Z:

    • 1、对每个玩家,找到对于A−iA_{-i}A−i​中每种策略的的最优收益策略。
    • 2、满足所有玩家最优策略的策略即为纳什均衡点。
  • u∈Ru\in Ru∈R

    • 1、对每个玩家求出其收益最高的函数(以其策略为自变量,导数为0)
    • 2、联立所有玩家的等式,满足所有等式的解集

例题:古诺竞争模型(Cournot Competition)

两家公司需要决定生产量q,G={{1,2},{q1,q2},{u1,u2}}G=\{\{1,2\},\{q_{1},q_{2}\},\{u_{1}, u_{2}\}\}G={{1,2},{q1​,q2​},{u1​,u2​}}

其中商品价格为p(q1+q2)=max(0,a−b(q1+q2))p(q_{1}+q_{2})=max(0,a-b(q_{1}+q_{2}))p(q1​+q2​)=max(0,a−b(q1​+q2​))

成本为线性函数ci(qi)=cqic_{i}(q_{i})=cq_{i}ci​(qi​)=cqi​

收益为ui(q1,q2)=(max{0,a−b(q1+q2)}−c)qiu_{i}(q_{1}, q_{2})=(max\{0, a-b(q_{1}+q_{2})\}-c)q_{i}ui​(q1​,q2​)=(max{0,a−b(q1​+q2​)}−c)qi​

其中a>b,c>0,q1≥0,q2≥0a>b, c>0, q_{1}\geq 0, q_{2}\geq 0a>b,c>0,q1​≥0,q2​≥0

首先寻找player1的纳什均衡,不妨假设其收益大于0,否则他将停止生产。

则其收益函数为:u1=(a−b(q1+q2)−c)q1u_{1}=(a-b(q_{1}+q_{2})-c)q_{1}u1​=(a−b(q1​+q2​)−c)q1​

对q1q_{1}q1​求导:u′=−2bq1+a−c−bq2u'=-2bq_{1}+a-c-bq_{2}u′=−2bq1​+a−c−bq2​,导数为0时取得收益最大值,此时q1=a−c−bq22bq_{1}=\frac{a-c-bq_{2}}{2b}q1​=2ba−c−bq2​​

对于player2根据对称性可得q2=a−c−bq12bq_{2}=\frac{a-c-bq_{1}}{2b}q2​=2ba−c−bq1​​,

联立两等式解得:q1∗=q2∗=a−c3bq_{1}^{*}=q_{2}^{*}=\frac{a-c}{3b}q1∗​=q2∗​=3ba−c​,即a∗=(a−c3b,a−c3b)a^{*}=(\frac{a-c}{3b}, \frac{a-c}{3b})a∗=(3ba−c​,3ba−c​)

可以拓展到N个玩家博弈,此时同理根据对称性,所有玩家的策略都为a−c(n+1)b)\frac{a-c}{(n+1)b})(n+1)ba−c​)

混合策略博弈(Mixed Strategy)

由于纯策略式博弈经常没有纳什均衡点,因此引入混合策略博弈。

基本概念:

​ 在混合策略中每个玩家的策略集为Δ(Ai)\Delta (A_{i})Δ(Ai​)为定义在RNR^{N}RN上的所有概率分布函数。即为每种策略分配一个概率。

​ 则博弈结果即为p=(p1,p2,...pN),wherepi∈Δ(Ai)p=(p_{1},p_{2},...p_{N}),\ where\ p_{i}\in \Delta (A_{i})p=(p1​,p2​,...pN​), where pi​∈Δ(Ai​),博弈收益函数应为混合策略的收益期望值,即为Ui(p)=∑a∈Ap(a)ui(a)U_{i}(p)=\sum_{a\in A} p(a)u_{i}(a)Ui​(p)=∑a∈A​p(a)ui​(a)

定理:所有有限博弈都具有混合策略纳什均衡(MNE)

可以证明当所有人的任何纯策略收益相等时可以达到纳什均衡

例题:

如图所示,Player1的最优策略为(U,L), (D, R),Player2的最优策略的为(U, R), (D, L),因此没有纳什均衡点。

如果使用混合策略,则令p1=(m,1−m),p2=(n,1−n)p_{1}=(m,1-m), p_{2}=(n,1-n)p1​=(m,1−m),p2​=(n,1−n),则:

Player2取L时Player1收益U1=2m+5(1−m)U_{1}=2m+5(1-m)U1​=2m+5(1−m)

Player2取R时Player1收益U1=4m+2(1−m)U_{1}=4m+2(1-m)U1​=4m+2(1−m)

联立解得:m=3/5

同理求得:n=3/4

因此混合策略纳什均衡时策略为:p1=(3/5,2/5),p2=(3/4,1/4)p_{1}=(3/5, 2/5), p_{2}=(3/4, 1/4)p1​=(3/5,2/5),p2​=(3/4,1/4)

占优策略(Dominant Strategy)

基本概念:

  • 弱(weakly)占优策略:如果任意情况下(∀a−i∈A−i\forall a_{-i}\in A_{-i}∀a−i​∈A−i​)玩家某一策略的收益不差于其他任意策略,则此策略弱占优。
  • 严格(strictly)占优策略:如果玩家某一策略的收益优于其他任意策略,则此策略严格占优。

显然当一个博弈中某个玩家存在占优策略时,其一定会选择占优策略作为博弈结果。

对应的也有被占优策略:

  • 弱被占优策略(Weakly Dominated Strategy):若对于所有情况下玩家的策略a不优于另一策略b,则策略a被b弱占优。
  • 严格被占优策略(Strictly DS):若一个策略a差于策略b,则a被b严格占优。

显然如果a被b严格占优则a是永远不会被选择的,因此可以借此缩小博弈的规模。

对于混合策略,如果存在某种混合策略p’收益永远高于p,则p被p’严格占优(易知如果a在纯策略中被严格占优则在混合策略中被严格占优,反之不成立)。

  • 信念(Belief):对于一种混合策略博弈博弈的结果p=(pi,p−i)p=(p_{i},p_{-i})p=(pi​,p−i​),p−ip_{-i}p−i​即为一个信念。简单来说就是玩家i对于其他玩家行为在ΔA−i\Delta A_{-i}ΔA−i​上的一种合理推测。
  • 理性(rationality):在某种信念下的最优策略就是理性的。
    • 所有在混合策略纳什均衡中概率不为零的纯策略都是理性的,换句话说只要没有被严格占优就是理性策略。

例题1:

第二高价竞拍模型:

有N个玩家参与竞拍,对于每位玩家商品的实际价值为vi≥0v_{i}\geq 0vi​≥0,竞拍价格为bi≥0b_{i}\geq 0bi​≥0,收益为vi−biv_{i}-b_{i}vi​−bi​

竞拍规则为最高价者成功,并且按照第二高竞拍价格交易。

对于每个玩家,bi=vib_{i}=v_{i}bi​=vi​为一个弱占优策略,因此纳什均衡策略为(v1,v2,...,vN)(v_{1},v_{2},...,v_{N})(v1​,v2​,...,vN​)

证明:

不失一般性的,对于第i个玩家:

  • 若存在另一玩家竞价bk>vib_{k}>v_{i}bk​>vi​,则玩家i会停止竞价保证收益>0。

  • 若所有玩家的竞价都低于viv_{i}vi​,则玩家i的收益为vi−biv_{i}-b_{i}vi​−bi​,设其余玩家最高竞价为bk&lt;vib_{k}&lt;v_{i}bk​<vi​,则只需bi&gt;bkb_{i}&gt;b_{k}bi​>bk​即可竞拍成功,此时收益为bk−vib_{k}-v_{i}bk​−vi​,和玩家i的竞价无关。因此bi=vib_{i}=v_{i}bi​=vi​为弱占优策略。

例题2:

Beauty Contest(选美竞赛)

有n个玩家从[0,50]中选择一个实数作为自己的评分,越接近所有玩家评分均值2/3收益越大:

U=50−(ai−23∑jajn)2U=50-(a_{i}-\frac{2}{3}\frac{\sum _{j}a_{j}}{n})^{2}U=50−(ai​−32​n∑j​aj​​)2

显然对于一种信念a−ia_{-i}a−i​,玩家i的最优策略为使后一项为0,此时收益最大为50。即
ai−23∑jajn=0⇒(3−2n)ai∗=2∑j≠iajn⇒ai∗=2∑j≠iaj3n−2≤2(n−1)503n−2a_{i}-\frac{2}{3}\frac{\sum _{j}a_{j}}{n}=0 \Rightarrow (3-\frac{2}{n})a^*_{i}=\frac{2\sum _{j\neq i}a_{j}}{n}\Rightarrow a_{i}^{*}=\frac{2\sum _{j\neq i}a_{j}}{3n-2}\leq \frac{2(n-1)50}{3n-2} ai​−32​n∑j​aj​​=0⇒(3−n2​)ai∗​=n2∑j̸​=i​aj​​⇒ai∗​=3n−22∑j̸​=i​aj​​≤3n−22(n−1)50​
因此ai∗∈[0,2(n−1)503n−2]a_{i}^{*}\in [0, \frac{2(n-1)50}{3n-2}]ai∗​∈[0,3n−22(n−1)50​]

由于所有玩家都是理性的,且知道其他玩家都是理性的,因此在第二轮中重复上述推理,则:

ai∗∈[0,(2(n−1)3n−2)250]a_{i}^{*}\in [0, (\frac{2(n-1)}{3n-2})^{2}50]ai∗​∈[0,(3n−22(n−1)​)250]

重复上述过程,由于系数2(n−1)3n−2]&lt;1\frac{2(n-1)}{3n-2}]&lt;13n−22(n−1)​]<1,因此最终 ai∗∈[0,ε],ε→0a^*_{i}\in[0,\varepsilon], \varepsilon\rightarrow0ai∗​∈[0,ε],ε→0 ,则取极限后ai∗=0a_{i}^{*}=0ai∗​=0,即所有玩家的评分都为0。

博弈论——完全信息博弈相关推荐

  1. 博弈论——合作博弈的Shapley值如何求解?

    博弈论--合作博弈的Shapley值如何求解? 计算合作博弈贡献从而更公平分配利益权重的算法--Shapley值方法 [问题1] 甲.乙.丙三人合作经商.倘若甲.乙合作可获利70万元, 甲.丙合作可获 ...

  2. 麻将AI 不完全信息博弈学习笔记(完结)

    前言 在这学期的数据结构必修课中,老师向我们提供了两道题: 其一是六子棋问题: 其二是麻将AI问题: 前者是经典的完全信息博弈问题,根据我已有的知识,利用博弈树和合理的剪枝可以提供一种高效的解法(当然 ...

  3. 博弈论——非完全信息博弈

    版权声明:本文为原创文章,未经博主允许不得用于商业用途. ​ 在实际情况中,博弈对手的收益大多为不可见的,即每个玩家有公共信息和私有信息. 贝叶斯博弈 基本概念 在贝叶斯博弈中为每位玩家增加一个类型空 ...

  4. 博弈论——重复博弈和制度建设

    1 重复博弈 重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为"阶段博弈"(stage games).重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不 ...

  5. 【博弈论】博弈论题单题解

    会不断更新的(咕咕咕) 题目难度大致满足非降性 博弈论真是深坑啊,填不动了,还有Nim积.Every-SG游戏等等等等很多题型还不会,先去学别的了 涉及知识: SG函数及SG定理:传送门 博弈论知识总 ...

  6. 博弈论(Bash博弈、Nim博弈、SG函数、组合博弈)

    组合博弈入门 一.博弈论三条性质: 终结点为P点 P点只能到N点 N点至少有一种途径到P点 N:必胜态 P:必败态    1.引导题 1846 Brave Game 题目大意: n个石子两人轮流取1~ ...

  7. 博弈论(潜在博弈、纳什均衡)

    博弈论是用于分析和研究参与主体的行为之间相互影响以及影响后决策均衡问题的理论.博弈论使用严谨的数学模型解决现实中利害冲突,是研究具有斗争或竞赛性质现象的数学方法. 一个标准的博弈模型由多个元素组成,可 ...

  8. 趣味博弈论 -- 阶梯博弈

    前言 阶梯博弈是一种nim游戏的变类, 它的主要思想是对奇数阶梯进行nim游戏. 介绍 什么是阶梯博弈?就是给你一个阶梯, 这个阶梯每一级上有一堆石子, 你可以每次选择某一级, 将这一级上的一些石子推 ...

  9. 博弈论——懦夫博弈和性别战

    1 懦夫博弈(又叫斗鸡博弈) 均衡结果:A进B退.A退B进 C 增加后有没好处,即收益减少,损失变大? 有,因为斗起来的可能性减少了 A增加又没好处? 要适度,过犹不及. 注:赢者通吃的行业容易导致过 ...

  10. 博弈论——混合博弈和监督博弈

    1 混合策略 纯策略和混合策略 纯策略:如果一个策略要求参与者在每一个给定信息情况下只选择一种特定的行动. 混合策略:如果一个策略要求参与者在给定信息情况下以某种概率分布随机地选择不同的行动. 案例1 ...

最新文章

  1. 刷算法的时候有没有必要自写测试用例?
  2. u-boot中添加自定义命令
  3. MySQL主从复制原理应用基础
  4. Vigenere加密法C++实现代码
  5. 『数据库』你以为删库跑路就能让你老板内(lei)牛(liu)满面--数据库的恢复技术
  6. Swift 将日期转化为字符串,显示上午还是下午
  7. Nagios LDAP用户pager被清空问题
  8. mysql基础测试_MySQL基础知识测试
  9. OpenGL ES 简单教程
  10. 怎么把c语言改成汇编语言,如何把汇编语言转换成C语言
  11. ios浏览器居然不支持yyyy-MM-dd HH:mm:ss格式
  12. 手机视频监控系统小结
  13. swing简单的打字游戏源码
  14. meta分析学习分享
  15. Namenode处于安全模式时,对hadoop进行查看操作,edits_inprogress_txid中没有事物事件的增加,txid没有增加?
  16. win10计算机网络共享打不开,win10系统网络和共享中心打不开的详细方案
  17. 古人道中秋 | 制作一个可拖动的月球
  18. Deepfool阅读笔记
  19. 计算机操作透明化,win10系统如何设置透明化效|win10电脑透明化功能怎么开启
  20. 如何用fiddler抓取apple手机上app的请求

热门文章

  1. 注意力模型(Attention Model)理解和实现
  2. linux下编译ffmpeg很多报错,linux下ffmpeg库 ARM交叉编译
  3. 当代考研人的发疯行为!笑到打鸣哈哈嗝哈哈嗝!
  4. 配置vscode解决code runner乱码
  5. 更换苹果推送服务证书Apple Push Services Certificate
  6. 芝麻信用商家接入指南
  7. 基因测序技术发展历史以及一、二、三代测序技术原理及应用
  8. 每日新闻:雷军微博互动李东生,小米又有新动作?
  9. signature=29c90d1a8d382ff261d00a931708390a,发烧音响功放(顶级Hi-End音响发烧器材介绍)...
  10. 数据集按指定比例划分为训练集、验证集和测试集