文章目录

    • 1-7 纳什均衡
      • 例子:
      • 解题:
    • 1-9 Dominant Strategies 占优博弈
      • 举例:
    • 1-10 Pareto Optimality 帕累托最优
      • 例子:
      • 解题:
  • 2
    • 2-1 混合策略 mixed strategy,纳什均衡
    • 最优
      • 例子:
      • 计算纳什均衡

1-7 纳什均衡

第一个人选择行动a1,第二个人的行动叫a2,依次类推。
把除了i外其他人的行动放在一起称为a-i,

最优对策

!! 注意是大于等于号而不是大于号。

解释:在已知其他n-1个人的行动组合是a-i的情况下,我(i)选择ai的收益最高,就称ai是i个体在其他个体行动为a-i下的最优对策。

纳什均衡

解释:所有人都觉得自己处于最优策略了。以双人博弈为例。对双方来说都符合:对方行动不变时,我不会改变行动。

例子:

对双方来说,(D,D)是纳什均衡,因为此时双方都不会改变行动(比如玩家1改变行动会使得自己从-3变为-4,所以他不会变),而另外三个行动组合都是不稳定的,会存在某一人想改变。

解题:

对每一个状态(cell),看这一行有没有可以转移的,看这一列有没有转移的。如果都没有就是纳什均衡。比如上面的除了(d,d)都有转移。

1-9 Dominant Strategies 占优博弈

si是i个体的某个策略。S-i是其他个体策略组合的集合(例如包括元素:s-1:即{s1,s2…si-1, si+1,sn},即个体k选择策略sk)。si比si‘严格占优当:

解释:无论其他n-1个个体选择什么策略,得到什么样的策略组合s-i∈S-i,我(个体i)用si策略的收益总是比用si’的收益高。

我的理解:这里说的策略其实就是行动。虽然一般策略不等于行动,策略是其他人做出什么行动时我的行动,比如下棋时如果你下A点我就下B点,如果你下C我就下D,这整个称为策略。但是在这里,无论其他人是什么策略,也就是无论你怎么下,我都固定为一个策略si,因此si不考虑对方怎么下,si必定是固定下B点。因此此时策略就是行动。当然,这种博弈是双方同时行动,所以用下棋类比不太对。
这里的策略就是确定的行动。与之相对的是随机行动,比如硬币游戏(或者划拳)中我会使用随机出正反而不是固定出正的策略,此时的策略是混合策略。

弱占优

解释:大于等于说明在某个s-i下,可能si等于si’。甚至可能所有情况下si都等于si’。即可能是三种情况:严格占优;完全相等;有时相等。

严格占优的意义

si比si‘严格占优,因此我永远不用选择si‘,不管别人怎么选。
如果si比其他策略都占优,我直接选si,不管别人怎么选。
如果si比其他策略都占优,si叫做diminant Strategies (占优策略)

当所有人都选择占优策略,这样的策略组合会在纳什均衡当中(会得到纳什均衡),因为此时没有人会想改变行动。
当所有人都选择占优策略,这样的纳什均衡只有一个(不论纯策略和混合策略),因为每个人只有一个占优策略,

举例:


在囚徒合作博弈中,对于个体1,当个体2选c时,个体1选d收益更大,当个体2选d时,个体1选d收益更大。因此个体1的占优策略是:总是选d。对于个体2同样如此,因此纳什均衡是 (d, d)。

1-10 Pareto Optimality 帕累托最优

两个outcome(结果收益)o和o’相比,o至少不劣于 o’,并且对某个人来说o比o‘好,则称o Pareto-dominates o’。

Pareto Optimality 帕累托最优: 没有其他结果比o更Pareto-dominates,则o是帕累托最优。

帕累托最优可能有多个。比如无论怎么选所有人收益都是1,此时每个结果都不劣,都是帕累托最优。
帕累托最优至少有一个。 因为Pareto-dominates具有传递性,a不劣于b,b不劣于c则a必定不劣于c,因此总存在一个a不劣于任何结果。因此不存在帕累托最优循环(即不存在a>b>c>d>a)

例子:


两个最优。(1,1)优于(0,0),因为这一结果对个体1,个体2都更好。


4个最优。因为任意两个都不能比较。都不存在优劣关系。事实上,所有零和博弈,都符合:所有结果都最优。

解题:

怎么看出帕累托最优有哪些?对于双人博弈,可以把收益看作坐标在坐标轴上标出。如果某点A右上角存在点B,则A不是最优,否则是最优。

2

2-1 混合策略 mixed strategy,纳什均衡

以硬币游戏为例(两人相同1赢)

我不可能使用固定出正面的策略,我会使用0.5概率正,0.5概率反面的策略。

纯策略就是只有一种行动
混合策略就是超过一种行动,每种行动概率是正数。把这些行动(如正反这两个行动)称为我混合策略的支撑(support)。

i的所有策略用Si表示。所有策略的组合集合称为S。S=S1xS2…Sn

此时,给定一个s∈S,不能算出最终每个人的收益。比如上面的硬币游戏,s=两人都随机出正反。那么最后的收益可能是4个格子中任意一个。此时的收益是一个期望:


pr是出现行动组合a的概率。即个体1行动为a1,且个体2行动为a2。。。的概率。

最优

和纯策略时相比,把a换成s,得到下面:

解释:注意这里Si是无限集合。因为i有无穷的混合策略。当si*收益大于等于其他任何策略,就在最优对策。
如果所有人都在最优对策,那么此时处于纳什均衡。

理论:所有有限博弈,都存在纳什均衡。(Every finite game has a Nash equilibrium.)
有限指的是人数有限且人数的行动集合有限。因此可能的结果也有限。
这里的纳什均衡不一定是纯策略纳什均衡(pure stratety),如果是纯策略,得不到这个理论。

纳什均衡意味着此时对每个人来说,即便他知道了其他人的策略,他也不会改变策略

例子:

硬币游戏中,没有纯策略纳什均衡。但是有一个混合策略纳什均衡。即都以0.5的概率随机正面。

在下面的博弈中:

存在两个纯策略纳什均衡 :(L, L)(R,R)。以及一个混合纳什均衡:(0.5L+0.5R, 0.5L+0.5R)。
注意(0.5L+0.5R, L)不是纳什均衡。因为对于2来说不论怎么选期望收益都不变(0.5),因此他是最优策略(best response),但是对玩家1,使用策略(L)可以使得自己的收益从0.5变为1.所以他不在最优策略。

计算纳什均衡

一种适合小问题的方法。
纳什定理给出了纳什均衡存在性,但是没告诉我们怎么求。

首先找出support,均衡时每个人行动集合中概率非负的行动。这里对两个人都是B、F。

接着假设达到均衡时,2选B的概率是p

对1来说,他选B和F的收益应该相同(否则如果选B对他好,他就会固定选B):

p=1/3,同样的方法,计算出玩家1选b的概率2/3。算出的概率在-1

博弈论coursera相关推荐

  1. 如何显示Spring Boot加载的所有bean

    在Spring Boot中,您可以使用appContext.getBeanDefinitionNames()来获取Spring容器加载的所有bean. 1. CommandLineRunner作为界面 ...

  2. Coursera: Internet History, Technology, and Security

    课程网址:https://www.coursera.org/learn/internet-history 学习笔记: Week 1: History - Dawn of Early Computing ...

  3. 斯坦福博弈论笔记整理活动的任务已重新划分,望周知

    参与方式:https://github.com/apachecn/stanford-game-theory-notes-zh/blob/master/CONTRIBUTING.md 整体进度:http ...

  4. 吴恩达创办Coursera是受他启发!74岁老父亲自述终身学习路,8年学完146门课程

    大数据文摘出品 作者:牛婉杨.魏子敏 吴恩达这个名字你一定不陌生,他是当今人工智能和机器学习领域国际最权威的学者之一.作为斯坦福大学计算机科学系和电子工程系的副教授,以及在线教育平台Coursera的 ...

  5. 无责任共享 Coursera、Udacity 等课程视频

    本文转载自网络,原作者不详. (本文是用 markdown 写的,访问 https://www.zybuluo.com/illuz/note/71868 获得更佳体验) 程序语言 interactiv ...

  6. 无责任共享 Coursera、Udacity 等课程视频【百度云】

    (本文是用 markdown 写的,访问 https://www.zybuluo.com/illuz/note/71868 获得更佳体验) [百毒云群组] 这个帖子是我三年前发的,当时还是学生党收集了 ...

  7. 博弈论(Game Theory)入门——基础知识

    1. 博弈的定义 博弈的基本要素:参与人(players).行动(actions).信息(information).策略(strategies).收益(payoffs)和均衡(equilibria). ...

  8. 市值达 58 亿美元,吴恩达的在线教育平台 Coursera 正式上市

    整理 | 寇雪芹 出品 | AI科技大本营(ID:rgznai100) 4 月 1 日,教育科技公司 Coursera 在纽约证券交易所上市,股票代码为 COUR.该股开盘价定为 39 美元 / 股, ...

  9. 笔记 | 吴恩达Coursera Deep Learning学习笔记

    向AI转型的程序员都关注了这个号☝☝☝ 作者:Lisa Song 微软总部云智能高级数据科学家,现居西雅图.具有多年机器学习和深度学习的应用经验,熟悉各种业务场景下机器学习和人工智能产品的需求分析.架 ...

最新文章

  1. [Android] Gradle 安装
  2. 存储过程参数输入输出
  3. 垂直居中重要方法理解---重点是方法三
  4. SAP Spartacus 页面标题的更改机制 - 谁动了我的页面标题?
  5. 线性回归(Linear Regression)模型的构建和实现
  6. 学计算机的基本技能,大学计算机基础—基本应用技能[规整].pdf
  7. 无需公式或代码,用生活实例谈谈 AI 自动控制技术“强化学习”算法框架
  8. (五)基于matchTemplate的图像区域匹配
  9. 设计模式-结构型模式(读书笔记)
  10. WIN10的WIFI不能自动链接?
  11. BP神经网络做数据预测
  12. 工程师原创:人人都看得懂的电磁场理论
  13. WORD 常用操作技巧
  14. Qt中系统屏幕键盘打开与关闭
  15. 计算机详细配置快捷键,Win7系统电脑快捷键设置大全
  16. 逻辑思维能力选择题30道
  17. java web课程设计之图书管理系统
  18. 计算机学院迎接新生标语,大学迎接新生横幅标语:好巧我们见面了
  19. 为什么要用PolyFill(JS中的修补匠)
  20. 设置IP代理错误:“[WinError 10061] 由于目标计算机积极拒绝,无法连接”解决办法

热门文章

  1. 使用spark来处理CSV文件数据
  2. 测试工程师如何帮助开发域的质量变好
  3. Ubuntu16+Docker19.03+CUDA10+Tensorflow2.0+Pyorch 多用户深度学习服务器环境配置与使用指南
  4. 索引(SqlServer2008)
  5. 阿里P6面试题-转载
  6. 1分钟学会SpringBoot2知识点,让你35岁不再失业(二)
  7. mysql查询空字段
  8. 微信小程序图片保存相册
  9. 剑指 Offer II 047. 二叉树剪枝
  10. 产品经理核心思维—FABE销售法