文章目录

- 1-7 纳什均衡
- - 例子：
  - 解题：
- 1-9 Dominant Strategies 占优博弈
- - 举例：
- 1-10 Pareto Optimality 帕累托最优
- - 例子：
  - 解题：
2
- 2-1 混合策略 mixed strategy，纳什均衡
- 最优
- - 例子：
  - 计算纳什均衡

1-7 纳什均衡

第一个人选择行动a1，第二个人的行动叫a2，依次类推。
把除了i外其他人的行动放在一起称为a-i,

最优对策：

！！注意是大于等于号而不是大于号。

解释：在已知其他n-1个人的行动组合是a-i的情况下，我（i）选择ai的收益最高，就称ai是i个体在其他个体行动为a-i下的最优对策。

纳什均衡：

解释：所有人都觉得自己处于最优策略了。以双人博弈为例。对双方来说都符合：对方行动不变时，我不会改变行动。

例子：

对双方来说，（D，D）是纳什均衡，因为此时双方都不会改变行动（比如玩家1改变行动会使得自己从-3变为-4，所以他不会变），而另外三个行动组合都是不稳定的，会存在某一人想改变。

解题：

对每一个状态（cell），看这一行有没有可以转移的，看这一列有没有转移的。如果都没有就是纳什均衡。比如上面的除了（d，d）都有转移。

1-9 Dominant Strategies 占优博弈

si是i个体的某个策略。S-i是其他个体策略组合的集合（例如包括元素：s-1：即{s1,s2…si-1, si+1,sn}，即个体k选择策略sk）。si比si‘严格占优当：

解释：无论其他n-1个个体选择什么策略，得到什么样的策略组合s-i∈S-i，我（个体i）用si策略的收益总是比用si’的收益高。

我的理解：这里说的策略其实就是行动。虽然一般策略不等于行动，策略是其他人做出什么行动时我的行动，比如下棋时如果你下A点我就下B点，如果你下C我就下D，这整个称为策略。但是在这里，无论其他人是什么策略，也就是无论你怎么下，我都固定为一个策略si，因此si不考虑对方怎么下，si必定是固定下B点。因此此时策略就是行动。当然，这种博弈是双方同时行动，所以用下棋类比不太对。
这里的策略就是确定的行动。与之相对的是随机行动，比如硬币游戏（或者划拳）中我会使用随机出正反而不是固定出正的策略，此时的策略是混合策略。

弱占优：

解释：大于等于说明在某个s-i下，可能si等于si’。甚至可能所有情况下si都等于si’。即可能是三种情况：严格占优；完全相等；有时相等。

严格占优的意义：

si比si‘严格占优，因此我永远不用选择si‘，不管别人怎么选。
如果si比其他策略都占优，我直接选si，不管别人怎么选。
如果si比其他策略都占优，si叫做diminant Strategies （占优策略）

当所有人都选择占优策略，这样的策略组合会在纳什均衡当中（会得到纳什均衡），因为此时没有人会想改变行动。
当所有人都选择占优策略，这样的纳什均衡只有一个（不论纯策略和混合策略），因为每个人只有一个占优策略，

举例：

在囚徒合作博弈中，对于个体1，当个体2选c时，个体1选d收益更大，当个体2选d时，个体1选d收益更大。因此个体1的占优策略是：总是选d。对于个体2同样如此，因此纳什均衡是 (d, d)。

1-10 Pareto Optimality 帕累托最优

两个outcome（结果收益）o和o’相比，o至少不劣于 o’，并且对某个人来说o比o‘好，则称o Pareto-dominates o’。

Pareto Optimality 帕累托最优：没有其他结果比o更Pareto-dominates，则o是帕累托最优。

帕累托最优可能有多个。比如无论怎么选所有人收益都是1，此时每个结果都不劣，都是帕累托最优。
帕累托最优至少有一个。因为Pareto-dominates具有传递性，a不劣于b，b不劣于c则a必定不劣于c，因此总存在一个a不劣于任何结果。因此不存在帕累托最优循环（即不存在a>b>c>d>a）

例子：

两个最优。（1，1）优于（0，0），因为这一结果对个体1，个体2都更好。

4个最优。因为任意两个都不能比较。都不存在优劣关系。事实上，所有零和博弈，都符合：所有结果都最优。

解题：

怎么看出帕累托最优有哪些？对于双人博弈，可以把收益看作坐标在坐标轴上标出。如果某点A右上角存在点B，则A不是最优，否则是最优。

2

2-1 混合策略 mixed strategy，纳什均衡

以硬币游戏为例（两人相同1赢）

我不可能使用固定出正面的策略，我会使用0.5概率正，0.5概率反面的策略。

纯策略就是只有一种行动
混合策略就是超过一种行动，每种行动概率是正数。把这些行动（如正反这两个行动）称为我混合策略的支撑（support）。

i的所有策略用Si表示。所有策略的组合集合称为S。S=S1xS2…Sn

此时，给定一个s∈S，不能算出最终每个人的收益。比如上面的硬币游戏，s=两人都随机出正反。那么最后的收益可能是4个格子中任意一个。此时的收益是一个期望：

pr是出现行动组合a的概率。即个体1行动为a1，且个体2行动为a2。。。的概率。

最优

和纯策略时相比，把a换成s，得到下面：

解释：注意这里Si是无限集合。因为i有无穷的混合策略。当si*收益大于等于其他任何策略，就在最优对策。
如果所有人都在最优对策，那么此时处于纳什均衡。

理论：所有有限博弈，都存在纳什均衡。（Every finite game has a Nash equilibrium.)
有限指的是人数有限且人数的行动集合有限。因此可能的结果也有限。
这里的纳什均衡不一定是纯策略纳什均衡（pure stratety），如果是纯策略，得不到这个理论。

纳什均衡意味着此时对每个人来说，即便他知道了其他人的策略，他也不会改变策略

例子：

硬币游戏中，没有纯策略纳什均衡。但是有一个混合策略纳什均衡。即都以0.5的概率随机正面。

在下面的博弈中：

存在两个纯策略纳什均衡 :（L, L）（R,R）。以及一个混合纳什均衡：（0.5L+0.5R, 0.5L+0.5R）。
注意（0.5L+0.5R, L）不是纳什均衡。因为对于2来说不论怎么选期望收益都不变（0.5），因此他是最优策略（best response），但是对玩家1，使用策略（L）可以使得自己的收益从0.5变为1.所以他不在最优策略。

计算纳什均衡

一种适合小问题的方法。
纳什定理给出了纳什均衡存在性，但是没告诉我们怎么求。

首先找出support,均衡时每个人行动集合中概率非负的行动。这里对两个人都是B、F。

接着假设达到均衡时，2选B的概率是p

对1来说，他选B和F的收益应该相同（否则如果选B对他好，他就会固定选B）：

p=1/3，同样的方法，计算出玩家1选b的概率2/3。算出的概率在-1

博弈论coursera相关推荐

如何显示Spring Boot加载的所有bean
在Spring Boot中,您可以使用appContext.getBeanDefinitionNames()来获取Spring容器加载的所有bean. 1. CommandLineRunner作为界面 ...
Coursera: Internet History, Technology, and Security
课程网址:https://www.coursera.org/learn/internet-history 学习笔记: Week 1: History - Dawn of Early Computing ...
斯坦福博弈论笔记整理活动的任务已重新划分，望周知
参与方式:https://github.com/apachecn/stanford-game-theory-notes-zh/blob/master/CONTRIBUTING.md 整体进度:http ...
吴恩达创办Coursera是受他启发！74岁老父亲自述终身学习路，8年学完146门课程
大数据文摘出品作者:牛婉杨.魏子敏吴恩达这个名字你一定不陌生,他是当今人工智能和机器学习领域国际最权威的学者之一.作为斯坦福大学计算机科学系和电子工程系的副教授,以及在线教育平台Coursera的 ...
无责任共享 Coursera、Udacity 等课程视频
本文转载自网络,原作者不详. (本文是用 markdown 写的,访问 https://www.zybuluo.com/illuz/note/71868 获得更佳体验) 程序语言 interactiv ...
无责任共享 Coursera、Udacity 等课程视频【百度云】
(本文是用 markdown 写的,访问 https://www.zybuluo.com/illuz/note/71868 获得更佳体验) [百毒云群组] 这个帖子是我三年前发的,当时还是学生党收集了 ...
博弈论（Game Theory）入门——基础知识
1. 博弈的定义博弈的基本要素:参与人(players).行动(actions).信息(information).策略(strategies).收益(payoffs)和均衡(equilibria). ...
市值达 58 亿美元，吴恩达的在线教育平台 Coursera 正式上市
整理 | 寇雪芹出品 | AI科技大本营(ID:rgznai100) 4 月 1 日,教育科技公司 Coursera 在纽约证券交易所上市,股票代码为 COUR.该股开盘价定为 39 美元 / 股, ...
笔记 | 吴恩达Coursera Deep Learning学习笔记
向AI转型的程序员都关注了这个号☝☝☝ 作者:Lisa Song 微软总部云智能高级数据科学家,现居西雅图.具有多年机器学习和深度学习的应用经验,熟悉各种业务场景下机器学习和人工智能产品的需求分析.架 ...

博弈论coursera