博弈论

什么是博弈论

1 博弈即"Game"

2 计算机科学中的博弈问题

◼ 博弈场景？

◼ 博弈模型分类

◼ 举例:

3 智能体决策

◼ 单智能体 → 多智能体单智能体 → 多智

4 博弈表示方法

◼ 正则型博弈

◼ 特殊的正则型博弈

5 博弈纯策略与混合策略

6 帕雷托最优

7 纳什均衡

（1）举例：囚徒困境

（2）举例：猎鹿赛局

（3）举例: 性别之战

（4）举例: 猜拳游戏

（5）举例: 赌便士游戏

◼ 纳什均衡存在定理

◼ Maxmin策略

◼ Minimax定理

◼ 纳什均衡与鞍点

◼ Minimax遗憾

8 博弈优势策略

9 博弈劣势策略

10 相关均衡

11 颤抖手精炼均衡

内容总结

什么是博弈论

博弈论 (Game Theory)，又称为对策论、赛局理论等，既是现代数学的一个新分支，也是运

筹学的一个重要学科。

➢ 博弈论主要研究公式化了的激励结构间的相互作用，是研究具有斗争或竞争性质现象的数学理论和方法。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。

➢ 博弈论已经成为经济学的标准分析工具之一。其在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

1 博弈即"Game"

2 计算机科学中的博弈问题

◼ 博弈场景？

• 严格来讲，统一控制调度或统一预编程 → 不是。

独立的，自私的智能体相互之间的作用

◼ 博弈模型分类

◼ 举例:

（1）猜拳游戏：

零和正则型博弈，用矩阵做描述

（2）囚徒困境：

一般和（非零和）的正则型博弈

四种情况：

A和B都不坦白，每人1year；

A坦白被释放，则B获刑20year；

A和B互相指认，则每人5year；

B坦白被释放，则A获刑20year；

（3） AlphaGo (围棋)：

有先后顺序做决策，用树型做描述---->扩展型博弈

完美信息

https://towardsdatascience.com/game-theory-concepts-within-alphago-2443bbca36e0

（4）Suphx (麻将)

非完美信息：做博弈时不具备完整的信息，有很多牌看不到

（5）多智能体强化学习

有多个智能体，每个智能体做出Markov decision，最后决策合并。---->Markov博弈

（6）联邦学习/群智感知

系统里包含多个部分，一起协作，主从关系。---->Stackeberg博弈

3 智能体决策

决策者应该理性来做出决策，希望决策能够最大化性能指标，能有更好的收益。

决策者可以基于当前的系统状态，选择下一步的走法，做出下一步决策之后会触发新的状态转移，当前的系统状态会发生变化，会得到相应的奖励，此时决策本身就是理性的，希望决策能够最大化收益。

◼ 单智能体 → 多智能体单智能体 → 多智

一些决策者可以组成小的联盟，这些联盟内部合作，但联盟之间还是竞争关系，----->协作博弈

4 博弈表示方法

◼ 正则型博弈

至少需要知道：

决策者集合，决策者的个数；

每个决策者的行动集合；

每一个决策者能得到多少收益或奖励；

举例：囚徒困境

◼ 特殊的正则型博弈

（1）Common-payoff game

纯合作关系：两个司机可以同时决定到底时靠左走还是靠右走，不会相撞。--------双赢或双输

（2）Constant-sum game

每个人的收益之后时是一个常数（=0时为零和博弈）

猜硬币，两人同时扔硬币，谁赢了（1）拿走对方的硬币。-----我赢你输

5 博弈纯策略与混合策略

两种：

纯策略：混合策略的一个特殊情况。策略固定，具体的一个行动；

混合策略：实际上一个概率分布，做决策时，我的决策是行动上的一个概率分布，而不是具体的一个行动。
support

6 帕雷托最优

帕雷托最优只是各种理想态标准中的最低标准。

➢ 一种状态如果尚未达到帕雷托最优，那么它一定不理想，因为还存在改进的余地，可以

在不损害任何人的前提下使某一些人的福利得到提高。

➢ 但是一种达到了帕雷托最优的状态并不一定真的很理想：例如，假设一个社会里只有一

个百万富翁和一个快饿死乞丐，如果富翁拿出自己财富的万分之一，就可以使乞丐免于死亡。但是因为这样无偿的财富转移损害了富翁的福利，所以进行这种财富转移并不是帕雷托改进，而这个只有一个富翁和一个乞丐的社会可以被认为是帕雷托最优。如果按功利主义的标准，理想的状态是使社会的福利总和最大化的状态。如果富翁损失很少的福利，却能够极大地增加乞丐的福利，使其免于死亡，那么从功利主义的角度看，这样的财富转移是一种改善。

➢ 帕雷托改进要求在提高某一些人的福利的同时不能减少任何一个人的福利，而功利主义则允许为了提高社会的福利总和而减少一些人的福利。

7 纳什均衡

最优响应best response

（1）举例：囚徒困境

（2）举例：猎鹿赛局

（3）举例: 性别之战

（4）举例: 猜拳游戏

（5）举例: 赌便士游戏

◼ 纳什均衡存在定理

◼ Maxmin策略

◼ Minimax定理

◼ 纳什均衡与鞍点

◼ Minimax遗憾

8 博弈优势策略

9 博弈劣势策略

10 相关均衡

11 颤抖手精炼均衡

内容总结

博弈论之 1 什么是博弈论相关推荐

博弈论之 2 什么是博弈论
本文接着上一篇博弈论之 1 什么是博弈论_水w的博客-CSDN博客目录回顾: ➢举例: AlphaGo ➢博弈表示方法 ➢扩展型博弈博弈树 ➢举例: Tic-Tac-Toe ➢MAX纯策略 ➢ ...
基于博弈论和拍卖的数据定价综述
点击上方蓝字关注我们基于博弈论和拍卖的数据定价综述张小伟1, 江东1, 袁野2 1 东北大学计算机科学与工程学院,辽宁沈阳 110819 2 北京理工大学计算机学院,北京 100081 摘要:在 ...
斯坦福博弈论笔记整理活动的任务已重新划分，望周知
参与方式:https://github.com/apachecn/stanford-game-theory-notes-zh/blob/master/CONTRIBUTING.md 整体进度:http ...
耶鲁大学博弈论(Game Theory) 笔记1
耶鲁大学博弈论(Game Theory) 笔记1 博弈论主要研究策略形势即不完全竞争情况,策略形势被定义为行为影响结果,但结果不仅自身行为也取决于其他人的行为. 博弈论笔记1 summary 成绩游 ...
有趣的海盗分金问题（博弈论）
海盗分金问题关于海盗分金问题是经济学上的一个经典模型:是说5个海盗抢得100金币,他们按照抽签的顺序依次提方案:首先由1号提出分配方案,然后5人表决,投票要超过半数同意方案才能被通过,否则他将被扔入 ...
【博弈论】Nim游戏
[博弈论]Nim游戏提到博弈论,比较经典的就是Nim游戏. Nim游戏的大致内容就是:给了好几堆石子,两个人,每个人轮流从某一堆中拿取任意数量的石子,最先取完石子的那一方即可获胜,注意:两个人都用的 ...
【转】博弈论中的几个经典问题
转载自百度百科以及:http://3y.uu456.com/bp_47nz909yik4ddq343gzw_1.html 几个博弈论中的经典问题博弈论(Game Theory),亦名"对策 ...
运筹学与博弈论的关系
运筹学主要研究经济活动和军事活动以及日常生活中能用数量来表达的有关策划.管理方面的问题.博弈论是研究竞争中参加者为争取最大利益应当如何做出决策的数学方法.运筹学主要是关于主体对客体的效率方面,而博弈论 ...
【博弈论】【第一章】博弈论导论
博弈论导论 [例题]选择数字 [例题]巴什博弈 [例题]射手博弈博弈论的基本概念: 参与人战略行动信息支付函数 [例题]分100元课程概述: [例题]选择数字两个参与人A和B,轮流选择[ ...

博弈论之 1 什么是博弈论

什么是博弈论

1 博弈即"Game"