博弈论-囚徒困境与重复囚徒困境的启示

“囚徒困境”
囚徒困境（prisoner’s dilemma）：讨论的是两个被捕的囚徒之间的一种博弈，它阐明了为什么“在合作对双方都有利时，保持合作也是困难的”。

囚徒困境的故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。
B-坦白 B-抵赖
A-坦白 8，8 0，10
A-抵赖 10，0 1，1
然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，不坦白的话判十年，坦白还是比不坦白好。最终的结果，两个嫌疑犯都选择坦白，各判刑八年。

在囚徒困境中，如果两人选择合作，即两人都抵赖，各判一年，显然是最好的结果。但由于大家都优先考虑自己的最优选择，导致了最终整体选择并不是最好的。

囚徒困境所反映出的深刻问题是，个人利益的最大化并不能保证集体利益的最大化，自以为聪明的人可能会作茧自缚。

“重复囚徒困境”与“艾克斯罗德博弈论实验”
囚徒困境是一个一次性的博弈实验，如果增加博弈的次数，让每个参与者都有机会去“惩罚”对方前一个回合的行为，此时每个参与者的决策可能会发生变化。其中最有名的实验莫过于艾克斯罗德的博弈实验。
艾克斯罗德组织了一场计算机竞赛：任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序，然后随机的与其他人进行囚徒困境博弈，每次博弈完毕后会获得一定的分数，并且每个人在进行博弈前都能够清楚的知道对方的历史博弈情况，每个参赛选手都会进行200次博弈对决。
博弈分数的设计如下：
对方-好意对方-恶意
自己-好意 2，2 0，3
自己-恶意 3，0 1，1
初看会发现，如果这是一个一次性博弈，不管对方选择好意还是恶意，自己选择恶意都是最优的，都将赢得更高的分数。但如果每个人都这么想，每次博弈大家都只增加1分，每个人分数的增长都会非常的缓慢。实验的最终结果是怎么样的呢？采取什么策略会赢得最高的分数呢？

“艾克斯罗德博弈论实验”的结果
艾克斯罗德博弈论实验，计算机竞赛提交上来的程序包含了各种复杂的策略。让人感到吃惊的是，竞赛的桂冠属于其中最简单的策略：一报还一报（TIT FOR TAT）。这是多伦多大学心理学家阿纳托拉帕波特提交上来的策略。
一报还一报的策略是这样的：
1）它总是以合作开局
2）但从此以后就采取以其人之道还治其人之身的策略
这个策略永远不先背叛对方，从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报（哪怕以前这个对手曾经背叛过它），从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛，从这个意义上来说它又是“强硬的”。而且，它的策略极为简单，对手程序一望便知其用意何在，从这个意义来说它又是“简单的”。

为了证明一报还一报策略的胜利不只是一种侥幸，艾克斯罗德又举行了多场竞赛，并邀请了更多的人，但这个策略一次又一次的夺魁，竞赛的结论无可争议。

重复囚徒困境结论
人的一生中会有非常多次的选择，有时候吃亏，有时候占了便宜。善意的决策可能吃亏，又或者恶意的背叛可能占便宜，但所有的过往，都会成为别人今后和你合作时进行决策的依据。
好人，更确切地说，具备以下特点的人，将会成为最终的赢家：
1）善意的：ta不会首先背叛别人
2）宽容的：别人曾经背叛过ta，但前一次合作是善意的，ta会原谅别人
3）强硬的：前一次合作背叛了ta，ta下一次合作会进行惩罚
4）简单纯粹的：简单纯粹的原则让彼此都更加轻松

转载于:https://blog.51cto.com/keehl/1706988

博弈论-囚徒困境与重复囚徒困境的启示相关推荐

matlab 重复博弈,博弈论-囚徒困境与重复囚徒困境的启示
博弈论-囚徒困境与重复囚徒困境的启示 "囚徒困境"囚徒困境(prisoner's dilemma):讨论的是两个被捕的囚徒之间的一种博弈,它阐明了为什么"在合作对双方都有 ...
Mathematica实践经典【重复囚徒困境】问题
Mathematica实践囚徒困境囚徒困境(Prisoner's Dilemma) 故事前提警察的策略囚徒的想法重复囚徒困境 Mathematica 实践囚徒困境(Prisoner's Di ...
博弈论（1）：囚徒困境中的博弈论
囚徒困境(Prisoner's dilemma) 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择. 经典的囚徒困境 1950年,由就职于兰德公司的梅里尔·弗拉德(Mer ...
【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡
目录一.前言 1.1 博弈论 1.2 纳什 1.3 胆小鬼博弈 1.4 囚徒困境 1.5 智猪博弈二.纳什均衡 2.1 纳什均衡定义 2.2 悖论结语一.前言在博弈论中,纳什均衡(Nash ...
耶鲁大学《博弈论》课程——前言(以囚徒困境为引)
引言推荐书籍: 迪克西特<妙趣横生博弈论> 杜塔<策略与博弈>--Dutta<Strategy and Games> 乔尔·沃森<策略>--Joel ...
囚徒困境困境_设计工具困境
囚徒困境困境 by Colm Tuite 通过Colm Tuite 设计工具困境 (The Design Tool Dilemma) 详细介绍了设计工具领域中出现的两个相反的叙述. (A detail ...
囚徒困境 matlab,matlab 囚徒困境（prisoner's dilemma）是指两个被捕联合开发网 - pudn.com...
matlab 所属分类:仿真建模开发工具:matlab 文件大小:3KB 下载次数:7 上传日期:2019-04-11 16:26:35 上传者:Sonny_song 说明: 囚徒困境(pri ...
python困境_Python笔记-囚徒困境及记录困境中的选择
[功能] 学习的代码:囚徒困境练习题( python 3.7版本下调试成功) [问题一] 1.若两人都认罪,则两人各判10年: 2.若一个认罪一个抵赖,则认罪的人判1年,抵赖的人判20年: 3.若两人 ...
博弈论与信息经济学-重复博弈
序贯博弈下一结与上一结不同重复博弈各阶段博弈相同阶段博弈没有物质间联系所有参与人都能观测到博弈过去的历史参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值. (1)不能作为子博弈精炼 ...

博弈论-囚徒困境与重复囚徒困境的启示

博弈论-囚徒困境与重复囚徒困境的启示相关推荐

最新文章

热门文章