博弈是多智能体强化学习中的常用理论。本文介绍几种基本的博弈游戏。

1 囚徒困境

在囚徒困境博弈中,两名犯罪的囚犯一起被警察盘问,每个罪犯都有两种选择:一种是与警察合作来对付同伙;另一种是与同伙串通而对警察撒谎。如果两名罪犯相互配合而不承认犯罪,则只会在监狱里呆几个月的时间。但如果他们中的一个为对付同伙而与警察合作,另一个却维护同伙而对警察撒谎,则这个与同伙合作并欺骗警察的罪犯将会做很长时间的牢。

(1)如果罪犯配合很好,欺瞒了警察,则会同时获得奖励5,并关几个月。

(2)如果一个罪犯向警察认罪,而另一个罪犯撒谎,则前者获得奖励10并释放,后者获得奖励0并获得终身监禁。

(3)如果都向警察认罪,则都会获得奖励1并关几年。

大多数理性的人都会选择(3)而尽量减少在监狱的时间。

选择坦白交代的行为称为纳什均衡(NE)。如果一个具有机器学习能力的智能体不断重复地玩该游戏,

那么会学习到在任何情况下都100%地选择坦白。这就是所谓的纯策略博弈。

2 猜硬币

两个小孩各有一枚硬币,然后各自选择显示硬币正面或反面。如果都同时显示两个正面或反面,则玩家1获胜并得到回报1,而玩家2输且回报为-1。若两枚硬币正反各不相同,则玩家2获胜。每玩一局都有一个玩家会赢而一个玩家会输,这就是所谓的零和矩阵博弈。

该游戏的最优策略,或其纳什均衡,是一种以50%概率选择硬币正面同时50%概率选择硬币反面的混合策略。这称为混合策略博弈。

3 剪刀石头布

剪刀石头布的规则是每次可以出石头(拳头)、剪刀或布的手势。而布能盖住(赢)石头,石头能击毁(赢)剪刀,剪刀能割开(赢)布。如果两个玩家出的一样,那么就是平局。这个游戏是一种混合策略的零和博弈。显然,解决方案应该是随机以33%的概率选择石头、剪刀或布的手势。唯不同的是该游戏可以选择3种行为。

博弈论-多智能体强化学习基础相关推荐

  1. 张海峰-从博弈论到多智能体强化学习

    文章目录 内容摘要 群体决策智能研究背景 博弈论 多智能体强化学习 研究展望 内容摘要 ·随着以图像识别为代表的"感知智能"日趋成熟,越来越多的人工智能研究者开始关注以AlphaG ...

  2. 多智能体强化学习与博弈论-博弈论基础

    多智能体强化学习与博弈论-博弈论基础 最近开始学习一些多智能体强化学习相关的内容,因此我打算写一些多智能体强化学习和博弈论相关的学习记录

  3. 多智能体强化学习与博弈论-博弈论基础4

    多智能体强化学习与博弈论-博弈论基础4 本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论.不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价 ...

  4. 多智能体强化学习与博弈论-博弈论基础2

    多智能体强化学习与博弈论-博弈论基础2 Repeated Games(重复博弈) 之前我们介绍了一些单次博弈的例子,除了单次博弈外,重复博弈也是经常在我们生活中出现的.在重复博弈中智能体有机会在单次的 ...

  5. 现代博弈论与多智能体强化学习系统

    如今,大多数人工智能(AI)系统都是基于处理任务的单个代理,或者在对抗模型的情况下,是一些相互竞争以改善系统整体行为的代理.然而,现实世界中的许多认知问题是大群人建立的知识的结果.以自动驾驶汽车场景为 ...

  6. 多智能体强化学习入门(一)——基础知识与博弈

    作者:ECKai(强化学习,多智能体强化学习) 文章仅作为学术交流,著作权归属作者,侵删 一.引言 在多智能体系统中,每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,从而获 ...

  7. 《强化学习周刊》第2期:多智能体强化学习(MARL)赋能“AI智能时代”

    No.02 智源社区 强化学习组 R L 学  习 研究 观点 资源 活动 关于周刊 随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...

  8. 多智能体强化学习入门

    参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...

  9. 多智能体强化学习思路整理

    多智能体强化学习算法思路整理 目录 摘要 背景和意义 研究背景 强化学习 多智能体强化学习与博弈论基础 研究意义 问题与挑战 问题分类 问题分析 环境的不稳定性与可扩展性的平衡 部分可观测的马尔可夫决 ...

最新文章

  1. 14Facade(门面)模式
  2. 披星“戴”云,百治百效
  3. 数据仓库建设中的数据建模方法(转)
  4. css —— 图片环绕+首行缩进
  5. python和别的脚本语言_PHP与Python与其它脚本语言
  6. 随想录(35岁后的程序员)
  7. JAVA编程思想——读书笔记 对象的容纳
  8. [转载] python中pprint模块详解——print()和pprint()两者的区别
  9. mysql 命令 例子_Mysql 命令实例
  10. Java高并发编程实战7,ConcurrentHashMap详解
  11. 曲线运动与万有引力公式_不要再追问库库了,物理公式大全拿走!
  12. Rayman的绝顶之路——Leetcode每日一题打卡8
  13. Nuke对图片添加Alpha通道
  14. matlab里面求出两条曲线的交点问题
  15. linux device 与driver prove 过程
  16. 测试用例是开发人员最后一块遮羞布
  17. html5 羽毛球,当上班族和羽毛球碰撞到一起,这样的生活才是标配
  18. 谷歌将发布全新搜索引擎,你期待吗?
  19. yolov5 tensorrt 精度对齐总结
  20. x299服务器芯片组,【装机帮扶站】第770期:X79/X99/X299平台“高级”垃圾简析

热门文章

  1. Nginx学习(1)—— 下载和安装
  2. unity webgl优化
  3. [LQR简要快速入门]+[一级倒立摆的LQR控制]
  4. sql 语言-单值函数single row functions
  5. 【Android】底部导航栏【BottomNavigationView】+【ViewPage2】
  6. 欧姆龙SYSMAC STUDIO如何与基恩士DL-EP1进行EIP通信
  7. [实践篇]13.8 如何解析gcore?
  8. InnoDB-聚簇索引和MyISAM非聚簇索引
  9. MarkDown首行缩进和换行
  10. USB Type-C引脚解析 CC、DFP、UFP、DRP用途解析【转】