【控制】《多智能体机器人系统信息融合与协调》范波老师-第7章-基于 Markov 对策的多 Agent 协调

第6章	回到目录	第8章

第7章-基于 Markov 对策的多 Agent 协调

7.1 引言
7.2 多 Agent 交互的协调与博弈分析
- 7.2.1 多 Agent 协调与博弈的性质
- 7.2.2 多 Agent 协调失败的处理
7.3 多 Agent 冲突博弈强化学习模型
- 7.3.1 多 Agent 冲突博弈
- 7.3.2 最优策略
- 7.3.3 基于后悔值的 Q 学习模型
7.4 Nash-Q 学习
7.5 零和 Markov 对策和团队 Markov 对策
- 7.5.1 零和 Markov 对策
- 7.5.2 团队 Markov 对策
7.6 基于 Markov 对策的多 Agent 协调策略
- 7.6.1 对策框架
- 7.6.2 Team 级对策
- 7.6.3 Member 级对策
- 7.6.4 仿真实验
7.7 小结

7.1 引言

Nash 均衡是 Markov 对策框架的核心概念，为 Agent 协调的一个标尺。

在博弈论中，纳什均衡（英语：Nash equilibrium，或称纳什均衡点）是指在包含两个或以上参与者的非合作博弈（Non-cooperative game）中，假设每个参与者都知道其他参与者的均衡策略的情况下，没有参与者可以透过改变自身策略使自身受益时的一个概念解。该术语以约翰·福布斯·纳什命名。在博弈论中，如果每个参与者都选择了自己的策略，并且没有玩家可以透过改变策略而其他参与者保持不变而获益，那么当前的策略选择的集合及其相应的结果构成了纳什均衡。
From: 纳什均衡-Wiki百科

Nash 均衡，纳什均衡（Nash Equilibrium）。该理论是由著名的经济学家，博弈论创始人，诺贝尔奖获得者约翰·纳什提出的，也就是电影《美丽心灵》的男主角原型。该理论是说：在非合作类博弈中，存在一种策略组合，使得每个参与人的策略是对其他参与人策略的最优反应。如果参与者当前选择的策略形成了“纳什均衡”，那么对于任何一位参与者来说，单方更改自己的策略不会带来任何好处。
约翰·纳什证明了在每个参与者都只有有限种策略选择，并允许混合策略的前提下，纳什均衡一定存在。上边的解释还是有点拗口，这里通过几个例子，更直观的理解一下这个理论。
From: 通过几个例子理解博弈论与纳什均衡

7.2 多 Agent 交互的协调与博弈分析

7.2.1 多 Agent 协调与博弈的性质

7.2.2 多 Agent 协调失败的处理

7.3 多 Agent 冲突博弈强化学习模型

协调博弈，是指在博弈所定义的收益空间中，任何均衡点都符合以下条件：即
（1）在给定其他参与人行为策略的条件下，没有人有激励改变其行为策略；
（2）没有参与者希望其他参与者会愿意改变其行为。
From: 协调博弈-百度百科

7.3.1 多 Agent 冲突博弈

7.3.2 最优策略

7.3.3 基于后悔值的 Q 学习模型

7.4 Nash-Q 学习

7.5 零和 Markov 对策和团队 Markov 对策

7.5.1 零和 Markov 对策

7.5.2 团队 Markov 对策

7.6 基于 Markov 对策的多 Agent 协调策略

7.6.1 对策框架

7.6.2 Team 级对策

7.6.3 Member 级对策

7.6.4 仿真实验

7.7 小结

【控制】《多智能体机器人系统信息融合与协调》范波老师-第7章-基于 Markov 对策的多 Agent 协调相关推荐

【控制】《多智能体机器人系统信息融合与协调》范波老师-第8章-Agent 技术在机器人智能控制系统的应用
第7章回到目录无第8章-Agent 技术在机器人智能控制系统的应用 8.1 引言 8.2 智能机器人系统应用研究 8.2.1 概况 8.2.2 传统研究方法的缺陷 8.2.3 智能机器人系统的共 ...
【控制】《多智能体机器人系统信息融合与协调》范波老师-第4章-基于证据推理的多 Agent 分布式决策
第3章回到目录第5章第4章-基于证据推理的多 Agent 分布式决策 4.1 引言 4.2 证据推理理论 4.2.1 概率的几种解释及其性质 4.2.2 证据推理的数学基础 4.2.3 证据推理 ...
【控制】《多智能体机器人系统信息融合与协调》范波老师-第6章-基于分布式强化学习的多 Agent 协调方法
第5章回到目录第7章第6章-基于分布式强化学习的多 Agent 协调方法 6.1 引言 6.2 多 Agent 强化学习基本理论 6.2.1 基于局部合作的 Q 学习 6.2.2 基于区域合作的 ...
【控制】《多智能体机器人系统信息融合与协调》范波老师-第5章-强化函数设计方法及其在学习系统的应用
第4章回到目录第6章第5章-强化函数设计方法及其在学习系统的应用 5.1 引言 5.2 强化学习应用中的关键问题 5.2.1 泛化方法 5.2.2 探索与利用的权衡 5.2.3 强化函数与算法结 ...
【控制】《多智能体机器人系统信息融合与协调》范波老师-第3章-多 Agent 协调的学习与对策
第2章回到目录第4章第3章-多 Agent 协调的学习与对策 3.1 引言 3.2 多 Agent 协调的理论与方法 3.2.1 协调的基本概念 3.2.2 MAS 协调及其理论 3.3 Age ...
【控制】《多智能体系统的协同群集运动控制》陈杰老师-第11章-基于邻居相关状态的多智能体非合作行为检测与隔离
第10章回到目录无代码地址:https://github.com/Jichao-Zhao/MAS_CooperativeClusterMotionControl 第11章-基于邻居相关状态的多智 ...
【控制】《多智能体系统的协同群集运动控制》陈杰老师-第5章-基于骨干网络的多智能体系统群集运动与避障控制
第4章回到目录第6章第5章-基于骨干网络的多智能体系统群集运动与避障控制 5.1 研究背景 5.2 预备知识 5.2.1 问题描述运动方程 (5.1) 5.2.2 流体力学基础可压缩性黏性 ...
【控制】《多智能体系统的协同群集运动控制》陈杰老师-第3章-基于代数连通度估计的多智能体系统群集运动控制
第2章回到目录第4章第3章-基于代数连通度估计的多智能体系统群集运动控制 3.1 研究背景 3.2 问题描述系统方程 (3.1) 3.3 控制律设计控制协议 (3.7) 3.4 λ2\lam ...
【控制】《多智能体系统的动力学分析与设计》徐光辉老师-第6章-基于间歇控制的非线性多智能体系统的多一致
第5章回到目录第7章第6章-基于间歇控制的非线性多智能体系统的多一致 6.1 引言 6.2 预备知识与模型描述 6.3 间歇控制下的非线性多智能体系统的多一致 6.4 仿真模拟 6.5 本章小结 ...

【控制】《多智能体机器人系统信息融合与协调》范波老师-第7章-基于 Markov 对策的多 Agent 协调

第7章-基于 Markov 对策的多 Agent 协调

7.1 引言

7.2 多 Agent 交互的协调与博弈分析

7.2.1 多 Agent 协调与博弈的性质

7.2.2 多 Agent 协调失败的处理

7.3 多 Agent 冲突博弈强化学习模型

7.3.1 多 Agent 冲突博弈

7.3.2 最优策略

7.3.3 基于后悔值的 Q 学习模型

7.4 Nash-Q 学习

7.5 零和 Markov 对策和团队 Markov 对策

7.5.1 零和 Markov 对策

7.5.2 团队 Markov 对策

7.6 基于 Markov 对策的多 Agent 协调策略

7.6.1 对策框架

7.6.2 Team 级对策

7.6.3 Member 级对策

7.6.4 仿真实验

7.7 小结

【控制】《多智能体机器人系统信息融合与协调》范波老师-第7章-基于 Markov 对策的多 Agent 协调相关推荐

最新文章

热门文章