博弈论-多智能体强化学习基础

2024-05-08 23:44:52

博弈是多智能体强化学习中的常用理论。本文介绍几种基本的博弈游戏。

1 囚徒困境

在囚徒困境博弈中，两名犯罪的囚犯一起被警察盘问，每个罪犯都有两种选择：一种是与警察合作来对付同伙；另一种是与同伙串通而对警察撒谎。如果两名罪犯相互配合而不承认犯罪，则只会在监狱里呆几个月的时间。但如果他们中的一个为对付同伙而与警察合作，另一个却维护同伙而对警察撒谎，则这个与同伙合作并欺骗警察的罪犯将会做很长时间的牢。

（1）如果罪犯配合很好，欺瞒了警察，则会同时获得奖励5，并关几个月。

（2）如果一个罪犯向警察认罪，而另一个罪犯撒谎，则前者获得奖励10并释放，后者获得奖励0并获得终身监禁。

（3）如果都向警察认罪，则都会获得奖励1并关几年。

大多数理性的人都会选择（3）而尽量减少在监狱的时间。

选择坦白交代的行为称为纳什均衡（NE)。如果一个具有机器学习能力的智能体不断重复地玩该游戏,

那么会学习到在任何情况下都100%地选择坦白。这就是所谓的纯策略博弈。

2 猜硬币

两个小孩各有一枚硬币，然后各自选择显示硬币正面或反面。如果都同时显示两个正面或反面，则玩家1获胜并得到回报1，而玩家2输且回报为-1。若两枚硬币正反各不相同，则玩家2获胜。每玩一局都有一个玩家会赢而一个玩家会输，这就是所谓的零和矩阵博弈。

该游戏的最优策略，或其纳什均衡，是一种以50%概率选择硬币正面同时50%概率选择硬币反面的混合策略。这称为混合策略博弈。

3 剪刀石头布

剪刀石头布的规则是每次可以出石头（拳头)、剪刀或布的手势。而布能盖住（赢）石头，石头能击毁（赢）剪刀，剪刀能割开（赢）布。如果两个玩家出的一样，那么就是平局。这个游戏是一种混合策略的零和博弈。显然，解决方案应该是随机以33%的概率选择石头、剪刀或布的手势。唯不同的是该游戏可以选择3种行为。

博弈论-多智能体强化学习基础相关推荐

张海峰-从博弈论到多智能体强化学习
文章目录内容摘要群体决策智能研究背景博弈论多智能体强化学习研究展望内容摘要 ·随着以图像识别为代表的"感知智能"日趋成熟,越来越多的人工智能研究者开始关注以AlphaG ...
多智能体强化学习与博弈论-博弈论基础
多智能体强化学习与博弈论-博弈论基础最近开始学习一些多智能体强化学习相关的内容,因此我打算写一些多智能体强化学习和博弈论相关的学习记录
多智能体强化学习与博弈论-博弈论基础4
多智能体强化学习与博弈论-博弈论基础4 本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论.不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价 ...
多智能体强化学习与博弈论-博弈论基础2
多智能体强化学习与博弈论-博弈论基础2 Repeated Games(重复博弈) 之前我们介绍了一些单次博弈的例子,除了单次博弈外,重复博弈也是经常在我们生活中出现的.在重复博弈中智能体有机会在单次的 ...
现代博弈论与多智能体强化学习系统
如今,大多数人工智能(AI)系统都是基于处理任务的单个代理,或者在对抗模型的情况下,是一些相互竞争以改善系统整体行为的代理.然而,现实世界中的许多认知问题是大群人建立的知识的结果.以自动驾驶汽车场景为 ...
多智能体强化学习入门（一）——基础知识与博弈
作者:ECKai(强化学习,多智能体强化学习) 文章仅作为学术交流,著作权归属作者,侵删一.引言在多智能体系统中,每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,从而获 ...
《强化学习周刊》第2期：多智能体强化学习（MARL）赋能“AI智能时代”
No.02 智源社区强化学习组 R L 学习研究观点资源活动关于周刊随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...
多智能体强化学习入门
参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...
多智能体强化学习思路整理
多智能体强化学习算法思路整理目录摘要背景和意义研究背景强化学习多智能体强化学习与博弈论基础研究意义问题与挑战问题分类问题分析环境的不稳定性与可扩展性的平衡部分可观测的马尔可夫决 ...

最新文章

热门文章