博弈论-囚徒困境与重复囚徒困境的启示
博弈论-囚徒困境与重复囚徒困境的启示
“囚徒困境”
囚徒困境(prisoner’s dilemma):讨论的是两个被捕的囚徒之间的一种博弈,它阐明了为什么“在合作对双方都有利时,保持合作也是困难的”。
囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。
B-坦白 B-抵赖
A-坦白 8,8 0,10
A-抵赖 10,0 1,1
然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。最终的结果,两个嫌疑犯都选择坦白,各判刑八年。
在囚徒困境中,如果两人选择合作,即两人都抵赖,各判一年,显然是最好的结果。但由于大家都优先考虑自己的最优选择,导致了最终整体选择并不是最好的。
囚徒困境所反映出的深刻问题是,个人利益的最大化并不能保证集体利益的最大化,自以为聪明的人可能会作茧自缚。
“重复囚徒困境”与“艾克斯罗德博弈论实验”
囚徒困境是一个一次性的博弈实验,如果增加博弈的次数,让每个参与者都有机会去“惩罚”对方前一个回合的行为,此时每个参与者的决策可能会发生变化。其中最有名的实验莫过于艾克斯罗德的博弈实验。
艾克斯罗德组织了一场计算机竞赛:任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序,然后随机的与其他人进行囚徒困境博弈,每次博弈完毕后会获得一定的分数,并且每个人在进行博弈前都能够清楚的知道对方的历史博弈情况,每个参赛选手都会进行200次博弈对决。
博弈分数的设计如下:
对方-好意 对方-恶意
自己-好意 2,2 0,3
自己-恶意 3,0 1,1
初看会发现,如果这是一个一次性博弈,不管对方选择好意还是恶意,自己选择恶意都是最优的,都将赢得更高的分数。但如果每个人都这么想,每次博弈大家都只增加1分,每个人分数的增长都会非常的缓慢。实验的最终结果是怎么样的呢?采取什么策略会赢得最高的分数呢?
“艾克斯罗德博弈论实验”的结果
艾克斯罗德博弈论实验,计算机竞赛提交上来的程序包含了各种复杂的策略。让人感到吃惊的是,竞赛的桂冠属于其中最简单的策略:一报还一报(TIT FOR TAT)。这是多伦多大学心理学家阿纳托拉帕波特提交上来的策略。
一报还一报的策略是这样的:
1)它总是以合作开局
2)但从此以后就采取以其人之道还治其人之身的策略
这个策略永远不先背叛对方,从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报(哪怕以前这个对手曾经背叛过它),从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是“强硬的”。而且,它的策略极为简单,对手程序一望便知其用意何在,从这个意义来说它又是“简单的”。
为了证明一报还一报策略的胜利不只是一种侥幸,艾克斯罗德又举行了多场竞赛,并邀请了更多的人,但这个策略一次又一次的夺魁,竞赛的结论无可争议。
重复囚徒困境结论
人的一生中会有非常多次的选择,有时候吃亏,有时候占了便宜。善意的决策可能吃亏,又或者恶意的背叛可能占便宜,但所有的过往,都会成为别人今后和你合作时进行决策的依据。
好人,更确切地说,具备以下特点的人,将会成为最终的赢家:
1)善意的:ta不会首先背叛别人
2)宽容的:别人曾经背叛过ta,但前一次合作是善意的,ta会原谅别人
3)强硬的:前一次合作背叛了ta,ta下一次合作会进行惩罚
4)简单纯粹的:简单纯粹的原则让彼此都更加轻松
转载于:https://blog.51cto.com/keehl/1706988
博弈论-囚徒困境与重复囚徒困境的启示相关推荐
- matlab 重复博弈,博弈论-囚徒困境与重复囚徒困境的启示
博弈论-囚徒困境与重复囚徒困境的启示 "囚徒困境"囚徒困境(prisoner's dilemma):讨论的是两个被捕的囚徒之间的一种博弈,它阐明了为什么"在合作对双方都有 ...
- Mathematica实践经典【重复囚徒困境】问题
Mathematica实践囚徒困境 囚徒困境(Prisoner's Dilemma) 故事前提 警察的策略 囚徒的想法 重复囚徒困境 Mathematica 实践 囚徒困境(Prisoner's Di ...
- 博弈论(1):囚徒困境中的博弈论
囚徒困境(Prisoner's dilemma) 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择. 经典的囚徒困境 1950年,由就职于兰德公司的梅里尔·弗拉德(Mer ...
- 【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡
目录 一.前言 1.1 博弈论 1.2 纳什 1.3 胆小鬼博弈 1.4 囚徒困境 1.5 智猪博弈 二.纳什均衡 2.1 纳什均衡定义 2.2 悖论 结语 一.前言 在博弈论中,纳什均衡(Nash ...
- 耶鲁大学《博弈论》课程——前言(以囚徒困境为引)
引言 推荐书籍: 迪克西特<妙趣横生博弈论> 杜塔<策略与博弈>--Dutta<Strategy and Games> 乔尔·沃森<策略>--Joel ...
- 囚徒困境困境_设计工具困境
囚徒困境困境 by Colm Tuite 通过Colm Tuite 设计工具困境 (The Design Tool Dilemma) 详细介绍了设计工具领域中出现的两个相反的叙述. (A detail ...
- 囚徒困境 matlab,matlab 囚徒困境(prisoner's dilemma)是指两个被捕 联合开发网 - pudn.com...
matlab 所属分类:仿真建模 开发工具:matlab 文件大小:3KB 下载次数:7 上传日期:2019-04-11 16:26:35 上 传 者:Sonny_song 说明: 囚徒困境(pri ...
- python困境_Python笔记-囚徒困境及记录困境中的选择
[功能] 学习的代码:囚徒困境练习题( python 3.7版本下调试成功) [问题一] 1.若两人都认罪,则两人各判10年: 2.若一个认罪一个抵赖,则认罪的人判1年,抵赖的人判20年: 3.若两人 ...
- 博弈论与信息经济学-重复博弈
序贯博弈 下一结与上一结不同 重复博弈 各阶段博弈相同 阶段博弈没有物质间联系 所有参与人都能观测到博弈过去的历史 参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值. (1)不能作为子博弈精炼 ...
最新文章
- blob 图片_《你不知道的 Blob》番外篇
- 用键盘全局钩子[Hook]监视多进程键盘操作
- 计算机专业用锐龙笔记本,轻松应对工作挑战——ThinkPad T14 锐龙版,适合办公的笔记本电脑...
- 解决AttributeError AttributeError: 'NoneType' object has no attribute 'filename'
- input鼠标事件(快捷手册)
- java关键字const_Java 中的 volatile 关键字
- python中的reindex_Python学习笔记(6):Pandas的reindex方法
- 三大缓存框架(Ehcache+Memcache+Redis)基础
- 基于JAVA+SpringMVC+MYSQL的博客系统
- php mysql化妆品商城计算机毕业设计网站成品
- scapy获取ip_如何使用scapy从数据包中读取整个ip层和tcp层?
- win10计算机修改底色,win10系统怎么更换电脑背景?
- 微信公众号维护用服务器吗,微信公众号商城开发必须用服务器吗?
- 局域网计算机怎样注销用户名,win10系统取消局域网共享用户名密码的解决办法...
- 数据库练习:分数排名
- jav中jar包的MANIFEST.MF
- 中石化卖咖啡报:产品体验报告 | 网易云音乐,体验一个“社交+音乐+直播”的动听世界
- 814. Binary Tree Pruning(C语言)
- 一篇文章搞懂1602液晶(1)
- MATLAB中nargin函数的用法nargin是用来判断输入变量个数的函数,这样就可以针对不同的情况执行不同的功能。通常可以用它来设定一些默认值。如下例所示: 函数文件 examp.m