警察与小偷博弈（博弈论的诡计）

某个小镇上只有一名警察，他负责整个镇的治安。现在我们假定，小镇的一头有一家酒馆，另一头有一家银行。再假定该地只有一个小偷。因为分身乏术，警察一次只能在一个地方巡逻；而小偷也只能去一个地方。若警察选择了小偷偷盗的地方巡逻，就能把小偷抓住；而如果小偷选择了没有警察巡逻的地方偷盗，就能够偷窃成功。假定银行需要保护的财产价格为2万元，酒馆的财产价格为1万元。警察怎么巡逻才能使效果最好?

一种最容易被警察采用而且确实也更为常见的做法是，警察对银行进行巡逻。这样，警察可以保住2万元的财产不被偷窃。但是假如小偷去了酒馆，偷窃一定成功。这种做法是警察的最好做法吗？答案是否定的，因为我们完全可以通过博弈论的知识，对这种策略加以改进。

警察的一个最好的策略是，抽签决定去银行还是酒馆。因为银行的价值是酒馆的两倍，所以用两个签代表，比如抽到1、2号签去银行，抽到3号签去酒馆。这样警察有2/3的机会去银行进行巡逻，1/3的机会去酒馆。

而在这种情况下，小偷的最优策略是：以同样抽签的办法决定去银行还是去酒馆偷盗，与警察不同的是抽到1、2号签去酒馆，抽到3号签去银行。这样小偷有1/3的机会去银行，2/3的机会去酒馆。

警察与小偷之间的博弈，提供了混合策略的思路，但更形象的样板是“剪刀、石头、布”的游戏。在这样一个游戏中，不存在纯策略均衡。对每个小孩来说，出“剪刀”、“布”还是“石头”的策略应当是随机的，不能让对方知道自己的策略，甚至是策略的倾向性。一旦对方知道自己出某个策略的可能性增大，那么在游戏中输的可能性也就增大了。

还有一种常见的混合策略样板就是猜硬币游戏。比如在足球比赛开场，裁判将手中的硬币抛掷到空中，让双方队长猜硬币落下后朝上的是正面还是反面。由于硬币落下地的正反是随机的，概率都是1/2。那么，猜硬币游戏的参与者选择正反的概率都是1/2，这时博弈达到混合策略纳什均衡。

这一类博弈与囚徒困境博弈案例有一个很大的差别，就是没有纯策略纳什均衡点，只有混合策略均衡点。这个均衡点下的策略选择是每个参与者的最优(混合)策略选择。对混合策略的传统解释是，局中人应用一种随机方法来决定所选择的策略。

从警察和小偷的不同角度计算最佳混合策略，会得到一个有趣的共同点：同样的成功概率。也就是说，警察若采用自己的最佳混合策略，就能将小偷的成功概率(5/9，收益为2*1/9+1*4/9=6/9)拉到他采用自己的最佳混合策略所能达到的成功概率(4/9，收益为2*2/9+1*2/9=6/9)。

这并非巧合，而是两个选手的利益严格对立的所有博弈的一个共同点。这个结果称为“最小最大定理”，由数学家约翰·冯·诺伊曼(John Von Neumann)创立。这一定理指出，在二人零和博弈中。参与者的利益严格相反(一人所得等于另一人所失)，每个参与者尽量使对手的最大收益最小化，而他的对手则努力使自己的最小收益最大化。他们这样做的时候，会出现一个令人惊讶的结果，即最大收益的最小值(最小最大收益)等于最小收益的最大值(最大最小收益)。双方都没办法改善自己的收益，因此这些策略形成这个博弈的一个均衡。最小最大定理的证明相当复杂，不过，其结论却很实用。假如你想知道的只不过是一个选手之得或者另一个选手之失。你只要计算其中一个选手的最佳混合策略并得出结果就行了。

所有混合策略的均衡具有一个共同点：每个参与者并不在意自己的任何具体策略。一旦有必要采取混合策略，找出你自己的策略的方法，就是让对手觉得他们的任何策略对你的下一步都没有影响。

这听上去像是朝向混沌无为的一种倒退，其实不然。因为它正好符合零和博弈的随机化动机：一方面要发现对手任何有规则的行为，并相应采取行动。假如他们确实倾向于采取某一种特别的行动，这只能表示他们选择了最糟糕的策略。反过来，也要避免一切会被对方占便宜的模式，坚持自己的最佳混合策略。

因此，采取混合或者随机策略，并不等同于毫无策略地“瞎出”，这里面仍然有很强的策略性。其基本要点在于，运用偶然性防止别人发现你的有规则行为并占你的便宜。

在传统政治中，有所谓“君臣一日而百战”的说法，来形容国君与大臣之间博弈的激烈程度。因为激烈，所以其层出不穷的招式，给博弈论的研究提供了丰富的案例。

《吕氏春秋》中记载了这样一个故事。战国时，宋康王极端变态，整天喝酒，异常暴虐。凡群臣中有来劝谏的，都被他找理由撤职或者关押起来。臣下也因此对他更加反感，经常非议他。他十分苦恼地对宰相唐鞅说：“我处罚的人很多了，但是大臣们越发不畏惧我，这是什么原因呢7”唐鞅说：“您所治罪的，都是一些犯了法的人。惩罚他们，没有犯法的好人当然不会害怕。如果您要让您的臣子们害怕，就必须不区分好人坏人，也不管他犯法没有犯法，随便抓住就治罪。这样的话，大臣们就知道害怕了。”

唐鞅提出的这个建议，虽然缺德了一些，但却不能不说是深刻地把握住了混合策略博弈的精髓之处。能够预测的惩罚，大臣总会想方设法地加以规避，而无法预测的惩罚，却是防不胜防的，因而也是更令人心惊胆战的。

宋康王也是个聪明人，听了这个主意以后恍然大悟，深深地点了点头。不久，他就下令把唐鞅杀了，大臣们果然十分害怕，每天上朝时都战战兢兢不敢多说一句话。

转载于:https://www.cnblogs.com/javabluesky/archive/2010/05/07/2211329.html

警察与小偷博弈（博弈论的诡计）相关推荐

走进小作坊（十九）----商场博弈论的诡计
最初接触博弈以为尽是经济中的公式,读完此<商场博弈论的诡计>,竟能激起乐帝对博弈的兴趣.在商场变幻莫测的环境下,能够认清形势,做出正确的决策,显得尤为可贵,而真正能指点江山的只有少 ...
博弈的构成要素（博弈论的诡计）
博弈的目的是利益,利益形成博弈的基础.经济学的最基本的假设就是经济人或理性人的目的就在于使收益最大化.参与博弈者正是为了自身收益的最大化而互相竞争.也就是说,参与博弈的备方形成相互竞争.相互对抗的关系 ...
人质困境：多个人的囚徒困境（博弈论的诡计）
囚犯困境作为博弈论中的一个基本的模型,可以解释很多与此类似的杜会现象,如寡头竞争.军备竞赛等.但是社会中的博弈往往并不止有两个参与者,这时的博弈还会出现囚徒困境吗? 答案是肯定的,在多个参与者之间形成 ...
博弈论的局限性（博弈论的诡计）
有两父子正在赶路,突然从一户人家跑出来一条大黑狗,冲着他们"汪汪"狂吠.儿子吓了一大跳,急忙躲到了父亲的身后.父亲告诉他说:"你放心．它不会咬你的.难道你没有听说过'吠犬 ...
把对方陷入困境中（博弈论的诡计）
博弈模型是生活的浓缩和简化,比如在囚徒困境模型里.两个囚犯都十分清醒地意识到自己所处的环境,以及每一种策略可能得到的结果,因此其策略选择是可以预知的.而在现实生活中,这种完全信息的理想模式是无法实现的 ...
matlab 重复博弈,博弈论-囚徒困境与重复囚徒困境的启示
博弈论-囚徒困境与重复囚徒困境的启示 "囚徒困境"囚徒困境(prisoner's dilemma):讨论的是两个被捕的囚徒之间的一种博弈,它阐明了为什么"在合作对双方都有 ...
输掉战役赢战争（博弈论的诡计）
千百年来,楚汉相争一直是中国人回昧无穷的历史片断.自司马迁的<史记>把项羽描绘成"力拔山兮气盖世"的英雄以后,历代文人墨客往往崇敬出身将门的项羽.而嘲贬出身平民的刘邦, ...
战争是怎样发生的（博弈论的诡计）
8岁的男孩问父亲:"爸爸,战争是怎样发生的7"男孩的父亲回答:"很简单.比如说第一次世界大战的爆发,是因为德国入侵比利时---"在一旁的妻子立即打断他的话:&q ...
博弈论的诡计（读书摘要）
1.信息:在博弈中,策略选择是手段,效用是目的,则信息则是根据目的采取某种手段的依据.信息是指局中人在作出决策前,所了解的关于得失函数或支付函数的所有知识,包括其他局中人的策略选择给自已带来的收益或损 ...

警察与小偷博弈（博弈论的诡计）

警察与小偷博弈（博弈论的诡计）相关推荐

最新文章

热门文章