无限重复博弈的效用（utility）

使用平均收益：

有时我们认为不同时间获得的收益重要性不同，比如一开始的收益权重更大（因为越早获得，可以收利息：

注意β\betaβ小于1，所以指数函数递减。

如果这个游戏每次开始前有β\betaβ的概率继续，1−β1-\beta1−β的概率终止，那么计算公式还是上面这个。

随机博弈

一个博弈的结果，可能会导致另一个博弈的出现。

这个定义里假设了所有博弈里行动集合相同，也可以定义成不同。
这个定义也生成了一个马尔可夫决策过程（MDP）。（MDP就是单人随机博弈）

因此随机博弈包含了马尔可夫决策和重复博弈。可以延续重复博弈中各种回报的定义（上面写了），可以从马尔可夫中延续稳态，马尔可夫决策可达性等概念（不做介绍）

学习

博弈论中的学习和AI中的学习不同，AI中的学习是让单个体在位置环境中，寻找如何让目标优化。博弈论中，你学习的同时也会影响其他人，有学习也有教学。
比如两人飙车相撞，如果1是学习者，非常了解2，能做出最优回应，但是2是鲁莽者，从不让路，从不学习。多次博弈的结果是1学到了应该避让，2擅长教学。

虚构博弈（fictious play)

最初是用来计算纳什均衡的方法。

每个人一开始对对方行为有一个建模，然后根据对方的行动来更新这个模型。

具体方法如下：
一开始玩家对对方行为有一个初始概率估计。
轮到自己时：
计算对方累计出现各种行动的频率
假设对方会出频率最高的行动，我要选择一个最佳回应。

这里每个人假设了对方是混合策略，但其实每个人都是纯策略。

以猜硬币的例子来模拟。一开始1觉得2出T的频次是2，所以猜测对方会出T，1想让双方相同，所以1会出T。2觉得1出H频次高（2），猜测对方会出H，所以自己出T。
博弈一轮后更新各自的模型。

最终，统计双方出正反的概率都是0.5，把这个称为经验频率(empirical frequency)。

理论：
在虚构博弈中，如果每人的策略的经验分布收敛，那么它会收敛到纳什均衡。

下面的博弈都会在虚构博弈中收敛（虚构收敛的充分条件）：

无悔学习（no regret learning)

这种方法不要建模。

Regret(后悔): 玩家在t时刻没有采取行动s带来的后悔定义为：Rt(s)=αt−αt(s)R^t(s)=\alpha^t-\alpha^t(s)Rt(s)=αt−αt(s). 即实际获得的收益减去如果他采取行动s能获得的收益。越小说明越后悔。

无悔学习：

对于所有纯策略s，后悔的下限总是小于等于0.

后悔匹配规则就是一种无悔学习，其具体规则：
个体每时会将 行动s的后悔值 对应为下一时刻选择这种行动的概率。

在有限博弈中使用这种规则会收敛到协同均衡(correlated equilibrium)

无限重复博弈的均衡

无限重复博弈中的纯策略是什么？

所有历史信息对应的行动是什么。纯策略空间是从所有历史信息到行动的映射。因此无限重复博弈中有无数种策略（比如你背叛我n次我就不信任你，n可以是任何数，因此有无数种策略）

囚徒困境中有两种著名的策略：tit fot tat（我选合作，除非你上次选了不合作）, trigger（一旦你有一次不合作，我就永远不合作）.

以往的方法是写出规范形式（表格），但是重复博弈中有无数纯策略，因此得不到表格。以前可能有有限的纯策略纳什均衡，无限的混合策略纳什均衡。但是无限重复博弈中可能有无限的纯策略纳什均衡

下面用平均回报（而不是discount reward）来计算个体的回报，先定义几个概念：

解释：
minmax value：其他人像最小化我的收益时，我选择合适的策略让我的收益最大，此时的收益就是~
enforceable：对于任何人i，i获得的收益不少于其他人想害他时他让自己获得的最大收益。
feasible：收益向量r能够表示成各个收益（即表中的cell）的加权和。例如

\	A	B
C	(2,0)	(0.0)
D	(0.0)	(0.2)

此时，r=(1,1)是可行的，可以给四个收益加权[0.5 0 0 0.5]，但是r=(2,2)是不可行的，因为此时的找不到和为1的加权向量。

理论（纳什均衡在哪）：

1、无限重复博弈中的纳什均衡对应的r是强制的。
2、如果r强制且可行，那么r是无限重复博弈中的纳什均衡。
均衡一定强制，强制且可行一定均衡。强制不一定均衡，因此可能不可行，因为可行的要求是权重为有理数。

定理证明我不看了。

Discounted repeated games

前面说过了，再定义下

a1a^1a1表示t=1时刻，所有个体的行动组合。hth^tht是一种历史，表示历史t时刻，所有个体做出的行动集合。HtH^tHt是hth^tht的集合，表示历史的所有可能。H是所有t下的HtH^tHt的并集。
策略是所有历史到混合行动的映射。即无论历史是什么，通过sis_isi，我能得到我的混合行动

一个博弈的例子：石油的价格一开始很低，因为产量很足，于是各大厂家签订了协议，减少开采。此时都减少开采，可以让价格上涨，如果有人不减少，则他一个人会收获很多，其他人很少。这个博弈类似于囚徒困境结果是石油的价格慢慢上涨，1986-2002由于战争下降了一些，接着又涨回来了。
重复博弈需要：容易观察到其他玩家的行为，并能很快惩罚他们的错误行为。玩家有耐心，眼光长远。

博弈论第五章重复博弈相关推荐

博弈论与信息经济学-重复博弈
序贯博弈下一结与上一结不同重复博弈各阶段博弈相同阶段博弈没有物质间联系所有参与人都能观测到博弈过去的历史参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值. (1)不能作为子博弈精炼 ...
博弈论——重复博弈和制度建设
1 重复博弈重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为"阶段博弈"(stage games).重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不 ...
matlab 重复博弈,博弈论-囚徒困境与重复囚徒困境的启示
博弈论-囚徒困境与重复囚徒困境的启示 "囚徒困境"囚徒困境(prisoner's dilemma):讨论的是两个被捕的囚徒之间的一种博弈,它阐明了为什么"在合作对双方都有 ...
人工智能笔记之专业选修课4.1.5 - 博弈论 9.重复博弈，效用，随机博弈
重复博弈 (repeated games) 当我们考虑世界上绝大部分互动时,其中很多不止会发生一次市场上的公司它们与竞争对手活动朋友,你会交换吗,你会在朋友需要帮助时帮助他们吗?你需要时他们会帮 ...
首都师范博弈论 6 5 1有限次的重复博弈
6 5 1有限次的重复博弈
首都师范博弈论 6 5 5无限次重复博弈中的策略选择
6 5 5无限次重复博弈中的策略选择
首都师范博弈论 6 5 3无限次重复博弈中达成合作的条件
6 5 3无限次重复博弈中达成合作的条件
耶鲁大学《博弈论》课程——重复博弈
重复博弈 Repeated Games 日常生活中的大部分互动,是根本没有契约的,但是很多关系都有重复性,比如朋友之间的友谊.国与国之间的互动等都不需要契约来制衡,但是通常情况下,他们之间的合作是持久 ...
信息学奥赛一本通（C++版）第一部分 C++语言第五章数组
第五章数组第一节一维数组 T1102 : 与指定数字相同的数的个数时间限制: 1000 ms 内存限制: 65536 KB [题目描述] 输出一个整数序列中与指定数字相同的数的个数. [输 ...
游戏感：虚拟感觉的游戏设计师指南——第十五章超级马里奥64
这是一本游戏设计方面的好书转自天:天之虹的博客:http://blog.sina.com.cn/jackiechueng 感谢天之虹的无私奉献 Word版可到本人的资源中下载第十五章超级马里奥64 ...

博弈论第五章重复博弈

无限重复博弈的效用（utility）

随机博弈

学习

虚构博弈（fictious play)

无悔学习（no regret learning)

无限重复博弈的均衡

Discounted repeated games

博弈论第五章重复博弈相关推荐

最新文章

热门文章

博弈论 第五章 重复博弈

无限重复博弈的效用（utility）

随机博弈

学习

虚构博弈（fictious play)

无悔学习 （no regret learning)

无限重复博弈的均衡

Discounted repeated games

博弈论 第五章 重复博弈相关推荐

最新文章

热门文章

博弈论第五章重复博弈

无悔学习（no regret learning)

博弈论第五章重复博弈相关推荐