这三个博弈论新趋势,正深刻影响深度强化学习
作者 | Jesus Rodriguez
编译 | 亚尔曼•佩皮
校对 | 丛末 & Camel
来源 | AI科技评论
博弈论在现代人工智能(AI)解决方案中正扮演着至关重要的角色,深度强化学习(DRL)正是积极拥抱博弈论的头等公民。
从单智能体程序到复杂的多智能体深度强化学习环境,博弈论原理贯穿了 AI 程序的整个生命周期。而反过来,DRL 的快速演化也重新激发了人们对博弈论研究的关注。
目前,大多数 DRL 模型事实上还停留在传统的博弈论层面,例如纳什均衡或零和游戏等。但随着DRL的发展,传统博弈论方法已经逐渐呈现出不足之处,而同时则有一些新的博弈论方法被纳入到人工智能的程序当中。
因此,对于我们来说,若想进一步优化深度强化学习的模型,考虑融入新的博弈论方法,是值得考量的一个方向。
以下三个,正是在深刻影响 DRL 的「新」博弈论方法,或许用到你的模型中会大大改观模型的性能。
一、平均场博弈(Mean Field Games)
在博弈论家族中,平均场博弈(MFG)还是一个相对较新的领域。
平均场博弈论诞生于 2006 年,这一理论是由两个团队独立提出的,一个是蒙特利尔的 Minyi Huang、Roland Malhame 和 Peter Gaines,另一个是巴黎的 Jean-Michel Lasry和菲尔兹奖获得者 Pierre-Louis Lions。
从概念上讲,平均场博弈论是一套方法和技术的组合,它被用来研究由「理性博弈方」组成的大群体下的差异化博弈。这些智能体不仅对自身所处的状态(如财富、资金)有偏好,还关注其他智能体在整个样本分布中所处的位置。平均场博弈理论正是针对这些系统对广义纳什均衡进行了研究。
平均场博弈的经典案例是,如何训练鱼群朝相同方向游,或者以协作方式游。
这个现象很难用理论解释,但它的本质事实上是,鱼会根据最靠近的鱼群的行为做出反映。再具体点儿,每条鱼并不在乎其他单个鱼的行为,而是关注附近作为一个整体、统一移动的鱼群做出的行为。
如果我们用数学方程表述这个原理,一方面可以用 Hamilton-Jacobi-Bellman 方程来描述鱼对周边鱼群的反应,另一方面则可以用 Fokker-Planck-Kolmogoroy 方程来表示决定整个鱼群行动的所有鱼的行为集合。
平均场博弈理论就是这两个等式的组合。
从深度强化学习的角度来说,在研究大范围环境中 大量智能体的表现方面,平均场博弈论扮演着重要的角色。
实验和理论已经证实,在“接近无限多智能体、并假设采用不精确的概率模型进行操作”的环境中,已有的 DRL的方法并不具备现实可用性。
而 MFG 却是模拟这类 DRL 环境的一个有意思的方法,非常值得尝试。
一家叫做Prowler 的创业公司最近就在针对平均场博弈论(MFG)在大型多智能体(DRL)环境中的表现开展研究工作。
二、随机博弈(Stochastic games)
随机博弈可追溯到 20 世纪 50 年代,它由诺贝尔经济学奖获得者 Lloyd Shapley 提出。
理论上随机博弈的规则是,让有限多个博弈者在有限个状态空间中进行博弈,每个博弈者在每个状态空间都从有限个行为中选出一个行为,这些行为的组合结果会决定博弈者所获得的奖励,并得出下一个状态空间的概率分布。
随机博弈的经典案例是哲学家的晚餐问题:n+1 位哲学家(n 大于等于 1)围坐在一个圆桌周围,圆桌中间放了一碗米饭。每两位邻座的哲学家之间会放一支筷子以供这两位取用。因为桌子是圆形的,筷子的数量与哲学家的数量一样多。为了从碗中取到东西吃,哲学家需要同时从两边各取一支筷子组成一双,因此,在一位哲学家吃东西时,他的两位邻座就无法同时进食。哲学家的生活简单到只需要吃和思考,而为了存活下来,哲学家需要不断地思考和吃东西。这场博弈的任务就是设计出一个可以让所有的哲学家都活下来的制度。
DRL 已经开始应用随机博弈理论解决多玩家游戏问题。在许多多玩家游戏中,AI 智能体战队需要评估如何通过与其他智能体协作和竞争以最大化正向结果。
这一问题一般被称作探索-利用困境。在 DRL 智能体中构建随机博弈动态机制,可以有效地平衡 DRL 智能体在探索能力和利用能力方面的发展。DeepMind 在训练 AI 掌握 Quake III 游戏的工作中,就融合了一些随机博弈论中的概念。
三、进化博弈(Evolutionary Games)
进化博弈理论(EGT)是从达尔文进化论中得到的启发。
EGT 的起源可以追溯到 1973 年,当时 John Maynard Smith 和 George R.Price两人采用「策略」分析将演化竞争形式化,并建立数学标准,从而来预测不同竞争策略所产生的结果。
从概念上来说,EGT 是博弈论在进化场景中的应用。在这种博弈中,一群智能体通过重复选择的进化过程,与多样化的策略进行持续交互,从而创建出一个稳定的解决方案。
它背后的思路是,许多行为都涉及到群体中多个智能体间的交互,而其中某一个智能体是否获得成功,取决于它采取的策略与其他智能体的策略如何交互。
经典博弈论将关注点放在静态策略上,即参与者采取的策略不会随着时间改变,而进化博弈与经典博弈论不同,它关注策略如何随着时间演化,以及哪个动态策略是进化进程中最成功的那一个。
EGT 的经典案例是鹰鸽博弈(Howk Dove Game),它模拟了鹰与鸽之间对可共享资源的竞争。博弈中的每个竞争者都遵循以下两种策略之中的一种:
鹰:本能的强势,充满侵略性,除非身负重伤,否则绝不退却。
鸽:面对强势进攻会立即逃跑。
如果假设:
1)两个同样强势进攻的鹰进行搏斗,两者之间必然会发生冲突,且两者都很有可能受伤;
2)冲突的代价是每人都受到一定程度的损伤,用常量 C 表示这个损失;
3)如果鹰与鸽相遇,鸽会立刻逃跑,而鹰则会占有资源;
4)两只鸽相遇,则他们将公平地分享资源。鹰鸽博弈的对应收益可以用以下矩阵总结:
EGT 看上去似乎是特地为 DRL 环境而设计的。
在多智能体的 DRL 环境中,智能体在彼此交互的过程中会周期性地调整自己的策略。而 EGT 正是一种可以高效模拟这些交互的方法。最近,OpenAI 就展示了经过这种动态训练的智能体在玩捉迷藏游戏时的表现(https://openai.com/blog/emergent-tool-use/)。
via https://towardsdatascience.com/new-game-theory-innovations-that-are-influencing-reinforcement-learning-24779f7e82b1
- END -
如果看到这里,说明你喜欢这篇文章,请转发、点赞。扫描下方二维码或者微信搜索「perfect_iscas」,添加好友后即可获得10套程序员全栈课程+1000套PPT和简历模板,向我私聊「进群」二字即可进入高质量交流群。
↓扫描二维码进群↓
喜欢文章,点个在看
这三个博弈论新趋势,正深刻影响深度强化学习相关推荐
- DeepMind悄咪咪开源三大新框架,深度强化学习落地希望再现
作者 | Jesus Rodriguez 译者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) [导读]近几年,深度强化学习(DRL)一直是人工智能取得最大突破的核心.尽管取得了很多进 ...
- 深度学习(三十八)——深度强化学习(1)教程
教程 http://incompleteideas.net/sutton/book/the-book-2nd.html <Reinforcement Learning: An Introduct ...
- 深度学习(三十九)——深度强化学习(2)概述, Deep Q-learning Network(1)
概述 上图是深度强化学习的脉络图,参考文献中还有该领域的关键论文列表. 原图地址: http://louiskirsch.com/maps/reinforcement-learning 参考: htt ...
- 对话生成的新探索——从模仿学习到逆强化学习
论文解读:Dialogue Generation: From Imitation Learning to Inverse Reinforcement Learning 对话生成是一个常见的自然语言 ...
- 深度强化学习-基于价值的强化学习-TD算法和Q学习(三)
本文主要介绍TD算法和Q学习算法 目录 TD算法: Q学习算法: 同策略,异策略: TD算法: 即时间差分 (Temporal Difference):此处用举例子方法来帮助大家理解 1.假设我从天津 ...
- 【人工智能】深度强化学习的新突破:如何打造智能决策系统
文章目录 深度强化学习的新突破:如何打造智能决策系统 引言 概念和术语介绍 强化学习 深度学习 强化学习和深度学习的结合 智能决策系统 关键问题分析 问题解决方案核心原理讲解 模型设计 数据集 模型评 ...
- 深度强化学习制作森林冰火人游戏AI(三)向游戏输出键盘控制信息
概述 本文讲如何通过python发送键盘控制命令控制游戏 前篇:深度强化学习制作森林冰火人游戏AI(二)获取游戏屏幕 后篇:深度强化学习制作森林冰火人游戏AI(四)获取窗口部分界面 获取窗口句柄 窗口 ...
- 第一线观察 | 三个AIOps新趋势之我见
[本文作者 擎创科技资深产品专家 布博士] 近几年来,人工智能技术的研究和行业应用急剧上升.虽然看起来人工智能技术似乎只是一种来自电影中的幻想,但是人工智能技术已经在我们生活的各个方面得到成功应用,并 ...
- 智能运维探索 | 2022年值得关注的三个AIOps新趋势
本文源自于公众号--布博士(擎创科技资深产品专家) 前言: 近年来,人工智能技术的研究和行业应用急剧上升.虽然看起来人工智能技术似乎只是一种来自电影中的幻想,但是人工智能技术已经在我们生活的各个方面得 ...
- 论文研读笔记(三)——基于障碍函数的移动机器人编队控制安全强化学习
基于障碍函数的移动机器人编队控制安全强化学习(Barrier Function-based Safe Reinforcement Learning for Formation Control of M ...
最新文章
- awesome xjtlu github project
- 云原生安全模型与实践
- 教你用Java7的Fork/Join框架开发高并发程序
- 思科交换技术之vlan
- object references an unsaved transient instance - save the transient instance before flushing异常问题处理
- NSTimer 销毁问题 和 iOS中控制器的释放问题
- C++读取WINDOWS注册表
- 机器人词库 python字典_('python,2017-robot-编程字典',)
- Protel 99SE汉化教程
- 永中office for linux rpm,新闻|永中Office 2012 青年版 For Linux
- python绘图苹果_如何使用python代码画一个苹果?
- firebug下载时出现there was an error loading firebug
- 4万字长文全面解读数据中台、数据仓库和数据湖
- sublime text 64位 3.3114 绿色汉化版下载地址
- 数字证书原理[转载]
- Dubbo的Api+Provider+Customer示例(IDEA+Maven+Springboot+dubbo) 项目结构
- Qt 矢量图标使用 FontAwesome Icon
- Linux下python环境搭建
- Voyager如何使用Compass
- Git Bash中出现:error: failed to push some refs to ‘https://gitee.com/xxx/xxx.git‘错误的解决方法