01博弈三要素和囚徒困境

引例1：攻城问题（诺曼底登陆模拟博弈）
- 问题
- 方案
- 结果
- 策略分析
囚徒困境与博弈三要素
- 博弈三要素
- 囚徒困境
- - 问题
  - 博弈格局
  - 博弈分析
  - - 几个博弈论概念
    - 博弈结果
价格大战和双赢对局
公共品供给的囚徒困境
- 问题
- 方案
- 博弈格局
政治家的囚徒困境
- 问题
- 方案
- 博弈格局
基数支付和序数支付
美苏争霸的囚徒困境
- 问题
- 方案
- 博弈格局

引例1：攻城问题（诺曼底登陆模拟博弈）

问题

如果给你两个师的兵力，由你来当“司令”，任务是攻克“敌方”占据的一座城市，通往城市的道路只有甲乙两条，而敌方的守备力量是三个师。规定：双方的兵力只能整师调动；当你发起攻击的时候，你的兵力超过敌方，你就获胜；你的兵力比敌方的守备兵力少或者相等，你就失败。

方案

敌方方案（4种）：
- 三个师都驻守在甲方向（记A）
- 两个师驻守在甲方向，一个师驻守在乙方向（记B）
- 一个师驻守在在甲方向，两个师驻守在乙方向（记C）
- 三个师全部驻守在乙方向（记D）
我方方案（3种）：
- 两个师都攻打甲方向（记a）
- 一个师攻打甲方向，一个师攻打乙方向（记b）
- 两个师都攻打乙方向（记c）

把双方的部署方案叫做策略，即敌方有4种策略，我方有3种策略，共有12种策略组合。

结果

	A	B	C	D
a	-	-	+	+
b	+	-	-	+
c	+	+	-	-

“+”表示行动成功，“-”表示行动失败。
看似一场不公平的战役，双方取胜的概率却相等。

策略分析

针对我方：
- 这三种策略是不分伯仲的，因为不管是策略a，还是策略b，亦或是策略c，我方获胜的概率均为50%。
针对敌方：
- 比较A和B：如果我方采取策略a，敌方采取策略A或者策略B都会赢；如果我方采取策略b，敌方采取策略A会输，采取策略B会赢；如果我方采取策略c，敌方采取策略A或策略B都会输。站在敌方的立场，策略B比策略A好，B是敌方的优势策略，A是敌方的劣势策略。
- 比较C和D：同理可知C是敌方的优势策略，而D是敌方的劣势策略。

智慧的或者说理性的博弈参与人，是不会采用自己的劣势策略的。

删除敌方劣势策略：

	B	C
a	-	+
b	-	-
c	+	-

在删除敌方劣势策略之前，我们无法发觉我们的策略孰优孰劣，但现在我们可以很容易发现策略b 是一个劣势策略了，因为它在敌方选择他们的优势策略B或C时我们都无法获胜。

删除我方劣势策略

	B	C
a	-	+
c	+	-

运用博弈论知识，最终的情况就是：敌方必采取B或C策略那样的二一布防，而我方必集中兵力于某一路实施攻击。这样，若攻在敌方的薄弱处，就获胜；若攻在敌人兵力较多的地方，就失败。总之，敌我双方获胜的可能性还是一样大。

也就是说，看似不公平（劣势）的对局，如果运用好博弈论的知识，是可以达到均势甚至优势的。

囚徒困境与博弈三要素

科学史话：谢林教授和罗伯特·奥曼因对于博弈论的巨大贡献，获得了2005年的诺贝尔经济学奖。

博弈三要素

参与人或者局中人(players)
他们可以选择的行动(action)或策略(strategies)
所有可能的对局结果，即每个参与人在各种对局下的博弈所得，叫做赢利、赢得呢个、得益或支付（payoffs，这种说法比较常用）

囚徒困境

问题

一次严重的纵火案发生后，警察在现场抓到甲乙两个犯罪嫌疑人。事实上，正是他们为了报复而一起放火烧了这个仓库，但是警方没有掌握足够的证据。于是，警方把他们隔离囚禁起来，要求坦白交代。如果他们都承认纵火，每人将入狱3年；如果他们都不坦白，由于证据不充分，他们每人将只入狱1年；如果一个抵赖而另一个坦白并且愿意做证，那么抵赖者将入狱5年，而坦白者将得到宽大释放，免于刑事处罚。

博弈格局

	乙坦白	乙抵赖
甲坦白	3-3	0-5
甲抵赖	5-0	1-1

“x-y”中的x表示甲获刑时间，y表示乙获刑时间。

博弈分析

几个博弈论概念

（全面的）严格优势策略
- 全面：指的是不论对方采取哪个策略，我的这个策略总显示优势。囚徒困境问题中，对方坦白，我坦白比抵赖好；对方抵赖，我也是坦白比抵赖好。全面讲究全面压制，也就是在任何情况下这种策略都要比其他策略好，不允许“打平手”。
- 严格：指的是这个优势策略的结局确实要好一些。囚徒困境问题中，对方坦白，我坦白确实比抵赖的结果好；对方抵赖，我坦白也确实比抵赖的结果好。所以，严格是说不仅仅是不差，而且是严格的好。（这种“严格”的概念类似于优化问题中局部最优解和严格局部最优解之间的关系）。
- “全面的严格的优势策略”往往简称为“严格优势策略”。
严格劣势策略
- 同理，如果说囚徒困境中，“坦白”是严格优势策略，那么“抵赖”就是严格劣势策略。严格劣势策略是指被全面的严格优势策略压住的那个策略，也就是说不是严格优势策略以外的策略。
严格优势策略均衡
- 指的是用删除劣势策略的方法得到的由双方的严格优势策略组成的对局，作为这个博弈的均衡。

经济学习惯把市场力量对峙的稳定结局，叫作市场均衡（equilibrium）。比方说电视机的市场，供不应求将驱使价格上升，供大于求将迫使价格下降，供求力量对峙的结果，会在某个价格水平达到市场供求的均衡。

严格劣势策略消去法
- 通过把严格劣势策略删去来寻求对局结果的方法。
严格劣势策略逐次消去法
- 如果双方都有三四个甚至更多的策略选择，通常需要一次一次又一次把严格劣势策略删去，才能最后得到一个均衡。这样一次一次把严格劣势策略删去以寻求对局结果的方法就称为严格劣势策略逐次消去法。

博弈结果

理性的（这是前提）主体人是不会采用对自己明显不利的严格劣势策略的，所以从博弈论的角度来说，甲、乙双方都会“坦白”，从而均获刑3年。

值得一题的是，“囚徒困境”已经不仅仅指上面的纵火犯问题，已经泛化到一系列这种通过消去严格劣势策略从而达到严格优势策略均衡的问题。

价格大战和双赢对局

“囚徒困境”是一个博弈论问题，但是其模型可以用来描述两个企业的“价格大战”等许多经济学现象。

经济学把两个企业合起来垄断或几乎垄断了某种商品的市场的情形，称为双寡头经济。双寡头经济是寡头经济的一种。寡头经济可以有好几个企业，双寡头只限于两个企业。两个企业互相竞争，都想打垮对手，争取更大的利润。典型的例子就是可口可乐公司和百事可乐公司。
企业竞争的目的是增加自己企业的利润。如果一家企业垄断了整个市场，它可以直接通过提高价格增加利润（如元太科技垄断了整个墨水屏市场，导致墨水屏的价格居高不下）；但是，当两家企业垄断市场（如可口可乐和百事可乐），他们就陷入了“囚徒困境”，因为如果一家提高了价格，消费者完全可以选择另一家，除非两者都十分默契地提高了价格。
假设甲、乙两家企业均采用低价，各得30亿的利润；两家都采用高价，各得50亿的利润；一家采用低价，一家采用高价，则低价者获利60亿，高价者获利10亿。则博弈格局为：

	乙低价	乙高价
甲低价	30-30	60-10
甲高价	10-60	50-50

“x-y”中的x表示甲获利，y表示乙获利。

对于两个企业，高价都是它们的严格劣势策略，根据严格劣势策略消去法，双方价格大战的结果是都采取低价策略各赚30亿的情况。
双寡头相互竞争、相互敌对促使双方都采取低价策略，如果双方勾结或合作起来，都实行高价策略，那么双方都可以避免价格大战而获取较高利润。这种双方都采取高价策略的对局形势，叫作双赢（two-win或者win-win）对局。因为高价策略是合作的结果，所以也叫做合作策略，低价策略也称为不合作策略或者背叛策略。

从经济的角度来看，如果几个大企业联手或勾结起来形成对行业的垄断，谋求最大利润，那么它们结成的联盟，称为卡特尔(Cartel)。卡特尔联盟之间是利益关系，而不是上下级关系。卡特尔行为本身就提供了瓦解卡特尔的激励。除了石油输出国组织OPEC还算比较成功以外，卡特尔成功的例子很少。
这也意味着经济博弈绝大多数还是非合作（竞争）博弈。

事实上，价格大战体现出了竞争的重要性，政府也鼓励企业之间的竞争。乍看起来，鼓励竞争似乎对企业不利，使得企业很难获利，但是竞争才能激励企业改善管理，开发技术，努力以较低的成本生产质量较好的东西，提高企业的市场竞争力。

公共品供给的囚徒困境

问题

假设有一个只有甲、乙两户人家的小居民点，如果修一条路出去，每家都能得到“3”那么多好处，但是修路的成本相当于“4”。

方案

如果两家联合修路，每家分摊成本“2”，各得好处“3”，两家的纯得益都是“1”。
如果一家修另一家坐享其成，修的一家付出“4”而得到“3”，得益是“–1”，坐享其成的一家可以白白得益“3”。
如果两家都不修路，结果两家的得益都是“0”。

博弈格局

	乙修	乙不修
甲修	1 ~ 1	-1 ~ 3
甲不修	3 ~ -1	0 ~ 0

“x ~ y”中的x表示甲获益，y表示乙获益。

这个问题中，“修路”对于甲和乙都是严格劣势决策，运用严格劣势策略消去法，最终得到这个博弈的严格优势策略均衡：两家都不修路，获益均为0。

需要声明的是，博弈论中的参与者（局中人）都是经济学上的“理性人”，他们只利己，但不刻意害人。

政治家的囚徒困境

问题

1984年，美国面临财政赤字。要解决这一问题，无外乎“节流”和“开源”两种思路。但是裁减联邦开支似乎难以实施，故大幅增税在所难免。增税是选民最不喜欢的事情，故民主党和共和党都想将加税的主动权抛给对方。

方案

民主党和共和党都主动
一方主动，另一方不主动
民主党和共和党都不主动

博弈格局

把每个结果按照各方的利益给出1到4的排序，数字越小越好。

	民主党主动	民主党不主动
共和党主动	2 ~ 2	4 ~ 1
共和党不主动	1 ~ 4	3 ~ 3

“x ~ y”中的x表示共和党获益，y表示民主党获益。

显然，对于双方而言，保持被动都是一个优势策略，运用严格劣势策略消去法，最终得到这个博弈的严格优势策略均衡：双方都不主动。

基数支付和序数支付

以前讲的支付矩阵，在运用劣势策略消去法的时候，都是把相应于支付数目小的策略删去，把相应于支付数目大的策略留下。但是政治家的囚徒困境中，我们却把相应于数目大的策略删去，把相应于数目小的策略留下。
究竟把小的删去还是把大的删去，关键是看大的好还是小的好，看大的表示好的还是小的表示好的。
数字表达好坏，有两种基本的制度：一种是像百分制那样的基数(cardinal)表示制度，数字越大越好；另外一种是第1名最好的序数(ordinal)表示制度，数字越小越好。
基数词给出数值，而序数词给出排序。

美苏争霸的囚徒困境

问题

美苏对垒，双方各有两种策略选择，一个是扩军，发展战略核武器，另一个是彻底裁军，直至不设军备。如果双方都扩军，则各要花费2000亿美元用于军费；如果彻底裁军，则军费为0。若一方扩军，一方裁军，则扩军方将获得主动权，获利10000亿美元（减去军费，获利8000亿美元），裁军方将损失−∞-\infty−∞。

方案

双方都扩军
一方扩军，一方裁军
双方都裁军

博弈格局

	苏联扩军	苏联裁军
美国扩军	-2000 ~ -2000	8000 ~ 负无穷
美国裁军	负无穷 ~ 8000	0 ~ 0

“x ~ y”中的x表示美国获利，y表示苏联获利。

显然，对于双方而言，扩军都是一个优势策略，运用严格劣势策略消去法，最终得到这个博弈的严格优势策略均衡：双方都扩军，双方都损失。