张海峰-从博弈论到多智能体强化学习
文章目录
- 内容摘要
- 群体决策智能研究背景
- 博弈论
- 多智能体强化学习
- 研究展望
内容摘要
- ·随着以图像识别为代表的“感知智能”日趋成熟,越来越多的人工智能研究者开始关注以AlphaGo为代表的“决策智能”。在即将来临的物联网时代,群体决策智能将成为一个研究重点。
- ·传统上,博弈论研究的是多个智能体的理性决策问题。它定义了动作、收益等博弈基本概念,侧重分析理性智能体的博弈结果,即均衡。然而,在很多现实问题中,博弈的状态空间和动作空间都很大,智能体的绝对理性是很难实现的.智能体往往处在不断的策略学习过程中。因此,近年来兴起的多智能体强化学习主要研究智能体策略的同步学习和演化问题,它在无人机群控制、智能交通系统、智能工业机器人等场景中具有很大的应用前景。
群体决策智能研究背景
AI 发展趋势
群体智能决策问题场景
- 围棋、王者荣耀、星际争霸
- 快递仓库、无人机群、交通路口
- 社会中的人的决策
博弈论
博弈的定义
矩阵博弈
策略推理
博弈的解
- 有一组策略,如果玩家改变其中的动作,都会使收益不会上升,这样的策略组合就是纳什均衡。
协同问题
特殊的博弈:合作与竞争
多智能体强化学习
现实中的博弈
马尔科夫博弈
强化学习
学习目标一:均衡
学习目标二:协同
对对手的以往的表现后的想法有一定的推断;当前agent在做决策的时候会考虑一下对手在当前agent做了这个动作后会采取什么表现;对手也会同样这么考虑。这个是一层的考虑模型;;后续又做了一个多层的工作;
学习目标三:合作
- 训练时,在AC框架的Critic上 ,action 拿到的是所有agent的action的组合;这个Q的设置下,可以对其他的动作做一个隐含的关联。
- 在上图的中间图的合作场景下获得了不错的效果。
研究展望
智能体社会结构学习
现实中的 agent 通常是 异构 的;;
群体决策标准评测环境
张海峰-从博弈论到多智能体强化学习相关推荐
- 现代博弈论与多智能体强化学习系统
如今,大多数人工智能(AI)系统都是基于处理任务的单个代理,或者在对抗模型的情况下,是一些相互竞争以改善系统整体行为的代理.然而,现实世界中的许多认知问题是大群人建立的知识的结果.以自动驾驶汽车场景为 ...
- 多智能体强化学习与博弈论-博弈论基础
多智能体强化学习与博弈论-博弈论基础 最近开始学习一些多智能体强化学习相关的内容,因此我打算写一些多智能体强化学习和博弈论相关的学习记录
- 多智能体强化学习与博弈论-博弈论基础4
多智能体强化学习与博弈论-博弈论基础4 本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论.不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价 ...
- 多智能体强化学习与博弈论-博弈论基础2
多智能体强化学习与博弈论-博弈论基础2 Repeated Games(重复博弈) 之前我们介绍了一些单次博弈的例子,除了单次博弈外,重复博弈也是经常在我们生活中出现的.在重复博弈中智能体有机会在单次的 ...
- 博弈论-多智能体强化学习基础
博弈是多智能体强化学习中的常用理论.本文介绍几种基本的博弈游戏. 1 囚徒困境 在囚徒困境博弈中,两名犯罪的囚犯一起被警察盘问,每个罪犯都有两种选择:一种是与警察合作来对付同伙:另一种是与同伙串通而对 ...
- 《强化学习周刊》第16期:多智能体强化学习的最新研究与应用
No.16 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...
- 《强化学习周刊》第2期:多智能体强化学习(MARL)赋能“AI智能时代”
No.02 智源社区 强化学习组 R L 学 习 研究 观点 资源 活动 关于周刊 随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...
- 上海交大开源训练框架,支持大规模基于种群多智能体强化学习训练
机器之心专栏 作者:上海交大和UCL多智能体强化学习研究团队 基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸.王者荣耀等游戏AI上已经得到成功验证,MALib 则是首个专门面向 PB- ...
- 多智能体强化学习入门
参考文章:万字长文:详解多智能体强化学习的基础和应用 .多智能体强化学习入门(一)--基础知识与博弈 推荐文章:多智能体强化学习路线图 (MARL Roadmap) 推荐综述论文:An Overvie ...
最新文章
- 嵌入式Linux学习问题解决记录
- 爬虫实战学习笔记_1 爬虫基础+HTTP原理
- 带领国产数据库走向世界,POLARDB底层逻辑是什么?
- Python脚本运行出现语法错误:IndentationError: unindent does not match any outer indentation level
- 《混合云计算》——第2章 混合云的连续统2.1 解释混合云
- 防止页面的重复提交,刷新
- DHCP服务、NFS、vsftp服务的简单搭建
- 加速Webpack-缩小文件搜索范围
- java课题设计实验报告,JAVA简单记事本程序设计实验报告
- 十个摸鱼,哦,不对,是炫酷(可以玩一整天)的网站!!!
- USB充电限流芯片,5V输入,输出5V,6V触发关闭
- JAVA编程语言基础第六章
- 用k-mer分析进行基因组调查:(六)用KmerGenie一步实现
- 树莓派裸板linux,树莓派裸机开发步骤
- Shopify独立站注册建站教程,Shopify独立站怎么做
- Ubuntu安装人脸识别认证软件Howdy
- Python练习题10:斐波那契数列计算
- PDF怎么压缩到最小?有在线压缩的方法吗
- 【BZOJ1645】[Usaco2007 Open]City Horizon 城市地平线 离散化+线段树
- Profibus DP-Slave in C