博弈论笔记1:囚徒困境与纳什均衡
1 个体最优与社会最优
1.1 社会基本问题
社会:个体之间有互动行为&相互依赖的群体
羊群效应:大家做什么,我就跟着做什么,不管对错和原因
协调问题:两人迎面走来,谁左谁右?(核心:人们如何预测他人的行为)
合作问题:囚徒困境(核心:个体理性和集体理性的折衷)
等边际原理:如果每一种资源都存在着边际收益递减,那么最优的资源配置策略应该满足:最后一单位资源无论用在哪一种用途上,都会产生相同的收益。 【资源在每一种用途上的边际贡献相等】
1.2 个体理性行为
理性人:有一个明确的偏好+在给定约束条件下,这个人总是追求自我偏好最大化。
输赢的不对称:当人们面临风险决策时, 他们更在乎的是成功与失败,赢和输, 财富的变化,而不是最终的财富状态;(比如说,100元损失导致的效用的减少远远大于100收益导致的效用的增加)——>人们是损失规避型的(loss aversion);
1.3 社会最优
1.3.1 帕累托效率标准:
帕累托效率:一种社会状态,与该状态相比,不存在任何一种可选择的状态,使得至少一个人的状态更好,同时没有任意一个人的状态变差
帕累托改进:改变一种状态,使得没有任何一个人的处境变坏,但是至少有一个人的处境变好了
**从非帕累托最优点到帕累托最优点不一定是帕累托改进
1.3.2 卡尔多-希克斯标准
总量最大化
2 囚徒困境
2.1 占优策略
不管对方使用什么样的战略,只要参与人使用这一战略,都可以给自己带来最大的收益。
理性人做决策的时候,不需要假定对方是理性的。
占优战略均衡:由占优战略组成的战略组合。
2.2 囚徒困境
尽管合作能让双方更好,但双方仍然不会合作
怎么比较好地去记一个方框里面哪个是甲的收益哪个是乙的收益呢?我们画一条线,斜线上方的就是表格“上方”的乙的收益;斜线左边的就是表格“左边”的甲的收益。
两个假设:
R>T>P>S
T+T>R+S
只要满足这两个条件,一定是个人理性选择不满足集体理性选择。
在这两个假设下,集体理性肯定是选择(合作,合作),这样总体的利益最高。
但是个人理性观点下呢?
以甲为例,当乙合作的时候,我们看下图蓝框框住的部分。如果甲合作,那么甲收益为T;甲不合作,甲的收益为R,又R>T,所以乙合作的时候,甲会不合作;同理,乙不合作的时候,甲也不合作(P>S)。所以无论乙怎么选择,甲都不合作。
乙同理,不论甲怎么选择,乙的占优策略都是不合作
2.2.1 囚徒困境的解决方法
设立奖惩机制,适当地减少R,增大S
如果需要二者合作,那么T+aT≥R+aS,S+aR≥P+aP
3 智猪博弈
我们先考虑小猪:
如果大猪做,那么小猪不做;如果大猪不做,那么小猪也不做——>小猪的占优策略是不做
我们考虑大猪:
如果小猪做,那么大猪不做;如果小猪不做,那么大猪做——>大猪没有占优策略。
但如果大猪事先知道小猪是理性的,那么大猪就会知道小猪不做,所以对于大猪来说,只剩下一半的博弈矩阵,那么大猪选择做就可以了。
所以最后的均衡状态是(做,不做)
4 纳什均衡
纳什均衡:所有参与人的最优战略的组合,给定这一组合中其他参与人的选择,没有任何人有积极性改变自己的选择。
混合战略纳什均衡:均衡结果是参与人以某一概率随机选择行动。
纯战略纳什均衡:参与人确定的选择某一个特定的战略【退化混合战略纳什均衡】。
4.1 监督博弈
假如一开始是(偷懒,偷懒)
->如果老板偷懒,那么工人不偷懒
->如果工人不偷懒,那么老板不偷懒
->如果老板不偷懒,那么工人偷懒
->如果工人偷懒,那么老板偷懒
这样又循环回去了,也就是说,这里没有纯战略的纳什均衡。
假如老板认为员工偷懒的概率是P,不偷懒的概率是1-P。
从老板的角度,自己不偷懒的期望收益是-2*P+2*(1-P)=2-4P,偷懒的期望收益是1*P+-1*(1-P)=2P-1
从员工的角度,自己不希望老板猜到自己偷懒还是不偷懒:
2-4P=2P-1 -> P=1/2
这时,员工1/2的概率偷懒,1/2的概率不偷懒
假如老板以Q的概率偷懒,1-Q的概率不偷懒
从员工的角度,自己偷懒的期望收益是-1*Q+3*(1-Q)=3-4Q
自己不偷懒的期望收益是2*Q+2&(1-Q)=2
还是两者应该相等
所以Q=1/4
也就是老板以1/4的概率偷懒,3/4的概率不偷懒
所以,这个博弈的纳什均衡是,员工1/2的概率偷懒,1/2的概率不偷懒;老板1/4的概率偷懒,3/4的概率不偷懒。
4.2 纳什均衡的存在性
每一个有限博弈至少存在一个纳什均衡(纯战略或混合战略);
• 如果一个博弈存在两个纯战略纳什均衡,那么,一定存在第三个混合战略纳什均衡。如果有偶数个纯纳什均衡,那么必然至少存在一个混合纳什均衡)
博弈论笔记1:囚徒困境与纳什均衡相关推荐
- 人工智能笔记之专业选修课4.1.5 - 博弈论 2.经典囚徒困境等经典博弈场景
经典囚徒困境 两个囚徒 选择合作或不合作? 不合作被称为背叛(defect) 如果他们合作 他们得到结果A 如果都背叛 他们会得到另一个结果D 不过A比D更优 然而如果他们合作失败 其中一方选择合作 ...
- 囚徒困境,纳什均衡,帕雷托最优和帕雷托改进
目录 一.囚徒困境 二.纳什均衡 三.帕雷托最优和帕雷托改进 一.囚徒困境 参考囚徒困境_哔哩哔哩_bilibili 以前我们可能会听到有人说当每人追求自己的最大利益时,社会才会达到最好的利益?这种观 ...
- 【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡
目录 一.前言 1.1 博弈论 1.2 纳什 1.3 胆小鬼博弈 1.4 囚徒困境 1.5 智猪博弈 二.纳什均衡 2.1 纳什均衡定义 2.2 悖论 结语 一.前言 在博弈论中,纳什均衡(Nash ...
- 跳不出的整改循环,闲鱼、58的囚徒困境
来源|新熵 编辑|于松叶 今年春节是一众二手交易平台注定不好过的一个春节.最近两个月来,接二连三袭来的重拳,让二手平台们战战兢兢. 1月14日,江苏省消保委通报了闲鱼.58同城等12家二手交易平台,存 ...
- 博弈论 纳什均衡 囚徒困境 智猪博弈
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 欢迎大家star,留言,一起学习进步 1.博弈论是什么 博弈论(game t ...
- 博弈论与共享经济——囚徒困境与配对…
博弈论与共享经济--囚徒困境与配对理论分析 1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问 ...
- 博弈论(1):囚徒困境中的博弈论
囚徒困境(Prisoner's dilemma) 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择. 经典的囚徒困境 1950年,由就职于兰德公司的梅里尔·弗拉德(Mer ...
- 囚徒困境——从博弈论的角度解释“美女配丑男”
前言 有一种很常见的现象,美女配丑男.其实这种现象背后是有一定科学原理的.本文将从博弈论的角度,从囚徒困境出发解释这一现象产生的原因. 囚徒困境 囚徒困境的经典案例 先来介绍一下经典的囚徒困境. 警方 ...
- 博弈论-囚徒困境与重复囚徒困境的启示
博弈论-囚徒困境与重复囚徒困境的启示 "囚徒困境" 囚徒困境(prisoner's dilemma):讨论的是两个被捕的囚徒之间的一种博弈,它阐明了为什么"在合作对双方都 ...
最新文章
- URL中的hash(井号)
- 信息学奥赛一本通(1065:奇数求和)
- 基于 Spring Boot 开发 OA 开源产品
- Flex读取txt文件里的内容(二)
- 传百度最高决策层Estaff成员王路将离职,官方暂未回应...
- swift开发网络篇—NSURLConnection基本使用
- python参考手册文字版_Python3.8标准库参考手册 中文完整pdf高清版
- python ccf题解 201903-2 二十四点
- 诛仙手游 法宝属性道法性价比
- Java学习笔记day5_数组
- 移动端安全 | Windows11安卓子系统进行APP抓包(踩坑文)
- 软件开发通识之一:什么是计算机语言?
- 摩托车新手驾驶教程[2]
- 复杂网络分析库NetworkX学习笔记(4):统计指标计算
- 01.三节点集群搭建--VM配置
- 我,32岁,小米公司程序员,揭 开北京“码农”的真实收入
- java检测弹窗并自动enter_JAVA实现自动检测股票波动情况,然后桌面上弹窗显示...
- 虚拟机下的ROS无法打开笔记本摄像头
- 工业超高频读写器|读取器CK-UR12-E02使用POE交换机和博途软件如何与西门子PLC配置解决方案
- DJ无人机延时摄影后处理
热门文章
- Eclipse 增加打开文件路径功能
- org.jboss.netty.internal.LoggerConfigurator.DESCRIBED is already registered 的解决办法
- Android Launch Mode的学习记录
- early z optimization
- Cisco easy *** basic ASA
- 在DNN中如何使FriendlyURL使用PageName作为页面名称
- 算法提高课-搜索-最短路模型-AcWing 188. 武士风度的牛 :bfs、dist数组记录最小步数
- 李永乐线性代数手写笔记-特征值和特征向量
- linux信号检查参数相同,linux信号函数
- 台式计算机桌面待机时间怎么调,如何设置电脑屏幕待机时间