耶鲁博弈论第2节学会换位思考

一些定义

形成博弈的要素

参与人（players），用 iii, jjj 表示
参与人的策略（strategies），用 sis_{i}si，sjs_{j}sj 表示；
所有可能的策略集合 SiS_{i}Si，区别于参与人的策略小写 sss；
某一次博弈 sss，用不带下标的 sss 表示，称为策略组合（a strategy profile），也称为策略向量
博弈的收益（payoffs），用大写的 UUU 表示，UiU_{i}Ui 取决于参与博弈的 NNN 个人的博弈策略，记做 (s1,...,si,...,si)(s_{1},...,s_{i},...,s_{i})(s1,...,si,...,si)，简写为 Ui(s)U_{i}(s)Ui(s)，由策略组合决定（即所有参与博弈的人）

我们用 s−is_{-i}s−i 表示除了 iii 之外的其他参与者的决策，因为考虑在和对手在不同选择下的收益是很有必要的，填数游戏中以标准形式描述博弈：

Ui(s)={5美元−误差0U_{i}(s)= \begin{cases} 5美元 - 误差 \\ 0 \end{cases} Ui(s)={5美元−误差0

再用一个例子熟悉使用符号语言来描述博弈：

	左	中	右
上	5, -1	11, 3	0, 0
下	6, 4	0, 2	2, 0

这里参与人是 AAA 和 BBB
策略集合是 S1={上，下}S_{1}=\{上，下\}S1={上，下}，S2={左，中，右}S_{2}=\{左，中，右\}S2={左，中，右}
收益：例如 U1(上，中)=11U_{1}(上，中)=11U1(上，中)=11，U2(下，右)=0U_{2}(下，右)=0U2(下，右)=0
显然对于参与者 BBB，右是严格劣势策略。因此我们给出 严格优势策略的定义：

参与人i的策略si′严格劣于参与人i的另一个策略si，在其他参与者选择s−i时，选择si的收益Ui(si)严格优于此情况下si′的收益Ui(si′)\begin{aligned} 参与人 i 的策略 s_{i}^{'} 严格劣于参与人 i 的另一个策略 s_{i}，在其他参与者\\ 选择 s_{-i} 时，选择 s_{i} 的收益 U_{i}(s_{i}) 严格优于此情况下 s_{i}^{'} 的收益 U_{i}(s_{i}^{'}) \end{aligned} 参与人i的策略si′严格劣于参与人i的另一个策略si，在其他参与者选择s−i时，选择si的收益Ui(si)严格优于此情况下si′的收益Ui(si′)

再来一个例子：

汉尼拔将军将要攻打一个国家，他有两个营的兵力，他可以选择从崎岖道路（翻过阿尔卑斯山）进军（但是行军途中要损失一个营的兵力），也可以选择从平坦的道路（平原）进军（途中没有损失）。防守者只能在崎岖道路和平坦道路其中之一设防，当进攻者遇到防守者时，进攻者将损失一个营的兵力。若你是防守者，你该选择何处设防？

双方收益如下：（行是防守者，列是进攻者）

	easy	hard
easy	1, 1	1, 1
hard	0, 2	2, 0

在这个例子中，防守者似乎没有严格优势策略，但是对于汉尼拔将军（进攻方）来说，选择平坦道路进攻似乎优于从崎岖道路进攻，这只是一个优势策略，并非严格优势，只是一个弱优势。我们引出 弱优势 的定义：

参与人i的策略si′弱于参与人i的另一个策略si，在其他参与者选择s−i时，选择si的收益Ui(si)大于等于此情况下si′的收益Ui(si′)，即Ui(si,s−i)≥Ui(si′,s−i)foralls−iUi(si,s−i)>Ui(si′,s−i)forsomes−i\begin{aligned} \begin{array}{c} 参与人 i 的策略 s_{i}^{'} 弱于参与人 i 的另一个策略 s_{i}，在其他参与者\\ 选择 s_{-i} 时，选择 s_{i} 的收益 U_{i}(s_{i}) 大于等于此情况下 s_{i}^{'} 的收益 U_{i}(s_{i}^{'})，即\\ U_{i}(s_{i},s_{-i}) \geq U_{i}(s_{i}^{'},s_{-i})\ for\ all\ s_{-i} \\ U_{i}(s_{i},s_{-i}) > U_{i}(s_{i}^{'},s_{-i})\ for\ some\ s_{-i} \end{array} \end{aligned} 参与人i的策略si′弱于参与人i的另一个策略si，在其他参与者选择s−i时，选择si的收益Ui(si)大于等于此情况下si′的收益Ui(si′)，即Ui(si,s−i)≥Ui(si′,s−i) for all s−iUi(si,s−i)>Ui(si′,s−i) for some s−i

回到填数游戏

好，那么我们现在回到第一节课的填数游戏，在 1−1001-1001−100 之间任选一个数，最接近平均数的 23\frac{2}{3}32 的人获胜。

老师询问了填 33−3533-3533−35 之间的数的同学，他们回答：大家在 1−1001-1001−100 之间随机选择一个数，最后平均值会在 505050 左右，而 505050 的三分之二就是 333333 左右。

这个说法看似正确，但是却忽略了一个重要前提：教室里的人并不会随机选择一个数，他们都想赢得这5美元。若人人都这样想，最终平均值会趋近于 333333，而 333333 的三分之二是 222222。然而，这还是太大了。

再次重申这个游戏的重点：每个人都有自己的策略，每个人都想赢。

那么我们来分析一下这个游戏，哪些选择是（弱）劣势策略？

设想最坏的情况，每个人都选了 100100100 那么这样最终的结果也只是 662366\frac{2}{3}6632 最接近的是 676767，那么选择大于 676767 的数相对于 676767 来说就是弱劣势策略。这样对于理智的人来说，游戏简化成了在 1−671-671−67 之间选择一个数，因为他们知道没人会选择 676767 以上的数。
同样，相似的策略也会被排除，这样，454545 以上的数也不会有人选。但是 45−6745-6745−67 之间的数在原博弈中并不是弱劣势策略，可是我们排除掉 67−10067-10067−100 的时候，45−6745-6745−67 便成为了弱劣势策略。同理，30−4530-4530−45 也被排除，20−3020-3020−30，14−2014-2014−20…直至 111.

尽管 111 就是这个游戏的最优策略，但是这一切都是建立在参与人都是理性的情况下，并且理性的参与者知道其他人也都是理性的。我们用术语共同知识来描述类似：我知道，我知道你知道，我知道你知道我知道…这样的循环。但是实际上，每个区间的数都有人选择，这就要考虑分布的问题了。最终老师公布结果，平均数在 131313 左右，最终选择 999 的人获得了胜利，巧的是，这也是所有人选择的中位数。

按照之前的最优策略，为什么 111 不是最终结果呢？尽管有相当一部分人选择了 111，