无限重复博弈的效用(utility)

使用平均收益:

有时我们认为不同时间获得的收益重要性不同,比如一开始的收益权重更大(因为越早获得,可以收利息:

注意β\betaβ小于1,所以指数函数递减。

如果这个游戏每次开始前有β\betaβ的概率继续,1−β1-\beta1−β的概率终止,那么计算公式还是上面这个。

随机博弈

一个博弈的结果,可能会导致另一个博弈的出现。


这个定义里假设了所有博弈里行动集合相同,也可以定义成不同。
这个定义也生成了一个马尔可夫决策过程(MDP)。(MDP就是单人随机博弈)

因此随机博弈包含了马尔可夫决策和重复博弈。可以延续重复博弈中各种回报的定义(上面写了),可以从马尔可夫中延续稳态,马尔可夫决策可达性等概念(不做介绍)

学习

博弈论中的学习和AI中的学习不同,AI中的学习是让单个体在位置环境中,寻找如何让目标优化。博弈论中,你学习的同时也会影响其他人,有学习也有教学。
比如两人飙车相撞,如果1是学习者,非常了解2,能做出最优回应,但是2是鲁莽者,从不让路,从不学习。多次博弈的结果是1学到了应该避让,2擅长教学。

虚构博弈(fictious play)

最初是用来计算纳什均衡的方法。

每个人一开始对对方行为有一个建模,然后根据对方的行动来更新这个模型。

具体方法如下
一开始玩家对对方行为有一个初始概率估计。
轮到自己时:
计算对方累计出现各种行动的频率
假设对方会出频率最高的行动,我要选择一个最佳回应。

这里每个人假设了对方是混合策略,但其实每个人都是纯策略。

以猜硬币的例子来模拟。一开始1觉得2出T的频次是2,所以猜测对方会出T,1想让双方相同,所以1会出T。2觉得1出H频次高(2),猜测对方会出H,所以自己出T。
博弈一轮后更新各自的模型。

最终,统计双方出正反的概率都是0.5,把这个称为经验频率(empirical frequency)。

理论:
在虚构博弈中,如果每人的策略的经验分布收敛,那么它会收敛到纳什均衡。

下面的博弈都会在虚构博弈中收敛(虚构收敛的充分条件):

无悔学习 (no regret learning)

这种方法不要建模。

Regret(后悔): 玩家在t时刻没有采取行动s带来的后悔定义为:Rt(s)=αt−αt(s)R^t(s)=\alpha^t-\alpha^t(s)Rt(s)=αt−αt(s). 即实际获得的收益减去如果他采取行动s能获得的收益。越小说明越后悔。

无悔学习:

对于所有纯策略s,后悔的下限总是小于等于0.

后悔匹配规则就是一种无悔学习,其具体规则:
个体每时会将 行动s的后悔值 对应为 下一时刻选择这种行动的概率

在有限博弈中使用这种规则会收敛到协同均衡(correlated equilibrium)

无限重复博弈的均衡

无限重复博弈中的纯策略是什么?

所有历史信息对应的行动是什么。纯策略空间是从所有历史信息到行动的映射。因此无限重复博弈中有无数种策略(比如你背叛我n次我就不信任你,n可以是任何数,因此有无数种策略)

囚徒困境中有两种著名的策略:tit fot tat(我选合作,除非你上次选了不合作), trigger(一旦你有一次不合作,我就永远不合作).

以往的方法是写出规范形式(表格),但是重复博弈中有无数纯策略,因此得不到表格。以前可能有有限的纯策略纳什均衡,无限的混合策略纳什均衡。但是无限重复博弈中可能有无限的纯策略纳什均衡

下面用平均回报(而不是discount reward)来计算个体的回报,先定义几个概念:

解释:
minmax value:其他人像最小化我的收益时,我选择合适的策略让我的收益最大,此时的收益就是~
enforceable:对于任何人i,i获得的收益不少于其他人想害他时他让自己获得的最大收益。
feasible:收益向量r能够表示成各个收益(即表中的cell)的加权和。例如

\ A B
C (2,0) (0.0)
D (0.0) (0.2)

此时,r=(1,1)是可行的,可以给四个收益加权[0.5 0 0 0.5],但是r=(2,2)是不可行的,因为此时的找不到和为1的加权向量。

理论(纳什均衡在哪):

1、 无限重复博弈中的纳什均衡 对应的r是 强制的。
2、 如果r强制且可行,那么r是 无限重复博弈中的纳什均衡。
均衡一定强制,强制且可行一定均衡。强制不一定均衡,因此可能不可行,因为可行的要求是权重为有理数。

定理证明我不看了。

Discounted repeated games

前面说过了,再定义下


a1a^1a1表示t=1时刻,所有个体的行动组合。hth^tht是一种历史,表示历史t时刻,所有个体做出的行动集合。HtH^tHt是hth^tht的集合,表示历史的所有可能。H是所有t下的HtH^tHt的并集。
策略是所有历史到混合行动的映射。即无论历史是什么,通过sis_isi​,我能得到我的混合行动


一个博弈的例子:石油的价格一开始很低,因为产量很足,于是各大厂家签订了协议,减少开采。此时都减少开采,可以让价格上涨,如果有人不减少,则他一个人会收获很多,其他人很少。这个博弈类似于囚徒困境 结果是石油的价格慢慢上涨,1986-2002由于战争下降了一些,接着又涨回来了。
重复博弈需要:容易观察到其他玩家的行为,并能很快惩罚他们的错误行为。玩家有耐心,眼光长远。

博弈论 第五章 重复博弈相关推荐

  1. 博弈论与信息经济学-重复博弈

    序贯博弈 下一结与上一结不同 重复博弈 各阶段博弈相同 阶段博弈没有物质间联系 所有参与人都能观测到博弈过去的历史 参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值. (1)不能作为子博弈精炼 ...

  2. 博弈论——重复博弈和制度建设

    1 重复博弈 重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为"阶段博弈"(stage games).重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不 ...

  3. matlab 重复博弈,博弈论-囚徒困境与重复囚徒困境的启示

    博弈论-囚徒困境与重复囚徒困境的启示 "囚徒困境"囚徒困境(prisoner's dilemma):讨论的是两个被捕的囚徒之间的一种博弈,它阐明了为什么"在合作对双方都有 ...

  4. 人工智能笔记之专业选修课4.1.5 - 博弈论 9.重复博弈,效用,随机博弈

    重复博弈 (repeated games) 当我们考虑世界上绝大部分互动时,其中很多不止会发生一次 市场上的公司 它们与竞争对手活动 朋友,你会交换吗,你会在朋友需要帮助时帮助他们吗?你需要时他们会帮 ...

  5. 首都师范 博弈论 6 5 1有限次的重复博弈

    6 5 1有限次的重复博弈

  6. 首都师范 博弈论 6 5 5无限次重复博弈中的策略选择

    6 5 5无限次重复博弈中的策略选择

  7. 首都师范 博弈论 6 5 3无限次重复博弈中达成合作的条件

    6 5 3无限次重复博弈中达成合作的条件

  8. 耶鲁大学《博弈论》课程——重复博弈

    重复博弈 Repeated Games 日常生活中的大部分互动,是根本没有契约的,但是很多关系都有重复性,比如朋友之间的友谊.国与国之间的互动等都不需要契约来制衡,但是通常情况下,他们之间的合作是持久 ...

  9. 信息学奥赛一本通(C++版)第一部分 C++语言 第五章 数组

    第五章 数组 第一节 一维数组 T1102 : 与指定数字相同的数的个数 时间限制: 1000 ms 内存限制: 65536 KB [题目描述]   输出一个整数序列中与指定数字相同的数的个数. [输 ...

  10. 游戏感:虚拟感觉的游戏设计师指南——第十五章 超级马里奥64

    这是一本游戏设计方面的好书 转自天:天之虹的博客:http://blog.sina.com.cn/jackiechueng 感谢天之虹的无私奉献 Word版可到本人的资源中下载 第十五章超级马里奥64 ...

最新文章

  1. stm32难不难学,没学51单片机可以直接学STM32吗?
  2. ftp服务器 无线路由器,用无线路由器构建FTP服务器 快乐大家分享
  3. jenkins Publish over SSH 的配置与使用
  4. xp精简工具_办公人士需要精简Win10吗?
  5. shopxo首页的新闻头条栏:如何隐藏或关闭?
  6. 【转】Android 中的 Service 全面总结
  7. 从程序员到CTO也可以走捷径
  8. SQL入门经典 第一章
  9. 量化交易 交易流程与框架
  10. Linux php5 curl 扩展
  11. Suricata/Snort规则参考
  12. 【Java】指定【微信】好友自动发送消息
  13. CSS——div垂直居中及div内文字垂直居中
  14. 百度 tts 语音合成前端无法播放问题解决
  15. 如何解决浏览器未安装FLASH控件的提示
  16. B2C模式电商案例分享
  17. matlab rti dds,[译]*RTI_DDS测试
  18. Missing Values(缺失值)
  19. java 稀疏贝叶斯算法_稀疏贝叶斯学习(SparseBayesianLearning).PDF
  20. c语言实现10个数由小到大排序(插入排序法)

热门文章

  1. 泛微 E9开发视频教程
  2. 使用最小二乘法计算多元线性回归的公式推导
  3. 华为设备静态路由配置命令
  4. MySQL基础(常用的语句)
  5. 详解开关量,模拟量,数字量区别
  6. Golang学习之路(一):Golang安装和配置
  7. CentOS下IOZone编译安装
  8. iozone文件系统测试工具
  9. MongoDB实验——数据库基本操作(头歌)
  10. zTree中设置idKey跟pId对象关联