多智能体强化学习与博弈论-博弈论基础4

本篇文章主要讲的是贝叶斯博弈(Bayesian Games，也称作不完全信息博弈）和拍卖理论。不完全信息博弈在我们生活中经常出现，比如拍卖，在市场和别人讨价还价等等。

贝叶斯博弈

首先举一个贝叶斯博弈的简单例子

假设两个人在决定接下来要做什么，B代表Ballet，F代表Football。player1不知道player2希望和他选择做一样的事情，还是希望避免和他做一样的事情，假设这两种情况的概率都是1/2。这时博弈就是一个不完全信息博弈。

我们使用(B,(B,F))来表示这意味着玩家 1会选择B，当处于状态1时，参与人2也会选择B(当她想要遇到参与人1时)，而在状态2时，参与人2会选择F (当她想要避开玩家1时）。

假如player1选择了B，那么他的平均收益为：1/2 * 2 + 1/2 * 0 = 1

假如player1选择了F，那么他的平均收益为：1/2 * 0 + 1/2 * 1 = 1/2

说明(B,(B,F))这个策略达到了纳什均衡。

一个贝叶斯博弈包含了：

A set of players I;
A set of actions (pure strategies) for each player $ i: S_i$ ;
A set of types for each player i:ϑi∈Θi\mathrm{i}: \vartheta_{\mathrm{i}} \in \Theta_{\mathrm{i}}i:ϑi∈Θi;
A payoff function for each player i:ui(s1,…,s1,ϑ1,…,ϑ1)\mathrm{i}: \mathrm{u}_{\mathrm{i}}\left(\mathrm{s}_{1}, \ldots, \mathrm{s}_{1}, \vartheta_{1}, \ldots, \vartheta_{1}\right)i:ui(s1,…,s1,ϑ1,…,ϑ1);
A (joint) probability distribution p(ϑ1,…,ϑ1)p\left(\vartheta_{1}, \ldots, \vartheta_{1}\right)p(ϑ1,…,ϑ1)over types.

在贝叶斯博弈中，决策空间，收益函数，智能体可能的类型和概率分布都是common knowledge（所有智能体都知道）。

双寡头贝叶斯博弈

假设player1的出货量为q1，player2的出货量为q2，Q=q1+q2。市场价格为P，P=a-Q。单位商品消耗为c1，c2。player2的类型有p的概率是low，（1-p）的概率是high。即c2为cLc^LcL的概率为p，为cHc^HcH的概率为（1-p）。

我们可以计算出player2的收益为

π2=[a−(q1+q2)]q2−c2q2\pi_2=[a-(q1+q2)]q2-c2q2 π2=[a−(q1+q2)]q2−c2q2

对其求一阶导我们可以知道q2=(a−c2−q1)/2q2=(a-c_2-q_1)/2q2=(a−c2−q1)/2时，player2有最优解。

当player2的类型为high的时候q2H=(a−cH−q1)/2−①q_2^H=(a-c^H-q_1)/2-①q2H=(a−cH−q1)/2−①,

当player2的类型为low的时候q2L=(a−cL−q1)/2−②q_2^L=(a-c^L-q_1)/2-②q2L=(a−cL−q1)/2−②。

我们可以进一步算出player1的收益为

π=p[a−(q1+q2H)]q1+(1−p)[a−(q1+q2L)]q1−c1q1\pi=p[a-(q_1+q^H_2)]q_1+(1-p)[a-(q_1+q_2^L)]q_1-c_1q_1 π=p[a−(q1+q2H)]q1+(1−p)[a−(q1+q2L)]q1−c1q1

令其一阶导=0可以得到

q1=p(a−c1−q2H)/2+(1−p)(a−c1−q2L)/2−③q_1=p(a-c_1-q^H_2)/2+(1-p)(a-c_1-q^L_2)/2-③ q1=p(a−c1−q2H)/2+(1−p)(a−c1−q2L)/2−③

结合①②③我们可以算出

q1=(a−2c1+pcH+(1−p)cL)/3q2H=(a−2cH+c1)/3+(1−p)(cH−cL)/6q2L=(a−2cL+c1)/3−p(cH−cL)/6\begin{array}{l} \mathrm{q}_{1}=\left(\mathrm{a}-2 \mathrm{c}_{1}+\mathrm{p} \mathrm{c}^{\mathrm{H}}+(1-\mathrm{p}) \mathrm{c}^{\mathrm{L}}\right) / 3 \\ \mathrm{q}_{2}^{\mathrm{H}}=\left(\mathrm{a}-2 \mathrm{c}^{\mathrm{H}}+\mathrm{c}_{1}\right) / 3+(1-\mathrm{p})\left(\mathrm{c}^{\mathrm{H}}-\mathrm{c}^{\mathrm{L}}\right) / 6 \\ \mathrm{q}_{2}^{\mathrm{L}}=\left(\mathrm{a}-2 \mathrm{c}^{\mathrm{L}}+\mathrm{c}_{1}\right) / 3-\mathrm{p}\left(\mathrm{c}^{\mathrm{H}}-\mathrm{c}^{\mathrm{L}}\right) / 6 \end{array} q1=(a−2c1+pcH+(1−p)cL)/3q2H=(a−2cH+c1)/3+(1−p)(cH−cL)/6q2L=(a−2cL+c1)/3−p(cH−cL)/6

拍卖(Auction)理论

English auctions

这种拍卖是一种拍卖价格逐渐上升的拍卖，所有人都知道其他人的出价，最终出价最高的人得到物品

Dutch Auctions

这种拍卖是一种拍卖价格逐渐降低的拍卖，一开始有一个起始价，然后逐渐降低，直到有人选择把物品买下来。

1st -price auctions

在这种拍卖中，拍卖者互相不知道对方的出价，拍卖者将自己的出价放到信封里面，出价最高的能够得到物品。

2nd -price auctions

又称作Vickrey actions。在这种拍卖中，拍卖者互相不知道对方的出价，拍卖者将自己的出价放到信封里面，出价最高的能够得到物品。购买方出的价格为在拍卖中第二高的价格。

在2nd -price auctions中存在着dominant strategy。将自己的出价设为自己能接受的最大价格就是dominant strategy。分析比较简单，只需要分类讨论不同的情况即可。

当拍卖为1st -price auctions的时候，假设有n个player，bid的策略为

bi(vi)=n−1nvib_i(v_i)=\frac{n-1}{n}v_i bi(vi)=nn−1vi

时，达到纳什均衡。

参考：

汪军老师UCL多智能体强化学习网课