第6章 回到目录 第8章

第7章-基于 Markov 对策的多 Agent 协调

  • 7.1 引言
  • 7.2 多 Agent 交互的协调与博弈分析
    • 7.2.1 多 Agent 协调与博弈的性质
    • 7.2.2 多 Agent 协调失败的处理
  • 7.3 多 Agent 冲突博弈强化学习模型
    • 7.3.1 多 Agent 冲突博弈
    • 7.3.2 最优策略
    • 7.3.3 基于后悔值的 Q 学习模型
  • 7.4 Nash-Q 学习
  • 7.5 零和 Markov 对策和团队 Markov 对策
    • 7.5.1 零和 Markov 对策
    • 7.5.2 团队 Markov 对策
  • 7.6 基于 Markov 对策的多 Agent 协调策略
    • 7.6.1 对策框架
    • 7.6.2 Team 级对策
    • 7.6.3 Member 级对策
    • 7.6.4 仿真实验
  • 7.7 小结

7.1 引言

Nash 均衡是 Markov 对策框架的核心概念,为 Agent 协调的一个标尺。

在博弈论中,纳什均衡(英语:Nash equilibrium,或称纳什均衡点)是指在包含两个或以上参与者的非合作博弈(Non-cooperative game)中,假设每个参与者都知道其他参与者的均衡策略的情况下,没有参与者可以透过改变自身策略使自身受益时的一个概念解。该术语以约翰·福布斯·纳什命名。在博弈论中,如果每个参与者都选择了自己的策略,并且没有玩家可以透过改变策略而其他参与者保持不变而获益,那么当前的策略选择的集合及其相应的结果构成了纳什均衡。
From: 纳什均衡-Wiki百科

Nash 均衡,纳什均衡(Nash Equilibrium)。该理论是由著名的经济学家,博弈论创始人,诺贝尔奖获得者约翰·纳什提出的,也就是电影《美丽心灵》的男主角原型。该理论是说:在非合作类博弈中,存在一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。如果参与者当前选择的策略形成了“纳什均衡”,那么对于任何一位参与者来说,单方更改自己的策略不会带来任何好处。
约翰·纳什证明了在每个参与者都只有有限种策略选择,并允许混合策略的前提下,纳什均衡一定存在。上边的解释还是有点拗口,这里通过几个例子,更直观的理解一下这个理论。
From: 通过几个例子理解博弈论与纳什均衡

7.2 多 Agent 交互的协调与博弈分析

7.2.1 多 Agent 协调与博弈的性质

7.2.2 多 Agent 协调失败的处理

7.3 多 Agent 冲突博弈强化学习模型

协调博弈,是指在博弈所定义的收益空间中,任何均衡点都符合以下条件:即
(1)在给定其他参与人行为策略的条件下,没有人有激励改变其行为策略;
(2)没有参与者希望其他参与者会愿意改变其行为。
From: 协调博弈-百度百科

7.3.1 多 Agent 冲突博弈

7.3.2 最优策略

7.3.3 基于后悔值的 Q 学习模型

7.4 Nash-Q 学习

7.5 零和 Markov 对策和团队 Markov 对策

7.5.1 零和 Markov 对策

7.5.2 团队 Markov 对策

7.6 基于 Markov 对策的多 Agent 协调策略

7.6.1 对策框架

7.6.2 Team 级对策

7.6.3 Member 级对策

7.6.4 仿真实验

7.7 小结

【控制】《多智能体机器人系统信息融合与协调》范波老师-第7章-基于 Markov 对策的多 Agent 协调相关推荐

  1. 【控制】《多智能体机器人系统信息融合与协调》范波老师-第8章-Agent 技术在机器人智能控制系统的应用

    第7章 回到目录 无 第8章-Agent 技术在机器人智能控制系统的应用 8.1 引言 8.2 智能机器人系统应用研究 8.2.1 概况 8.2.2 传统研究方法的缺陷 8.2.3 智能机器人系统的共 ...

  2. 【控制】《多智能体机器人系统信息融合与协调》范波老师-第4章-基于证据推理的多 Agent 分布式决策

    第3章 回到目录 第5章 第4章-基于证据推理的多 Agent 分布式决策 4.1 引言 4.2 证据推理理论 4.2.1 概率的几种解释及其性质 4.2.2 证据推理的数学基础 4.2.3 证据推理 ...

  3. 【控制】《多智能体机器人系统信息融合与协调》范波老师-第6章-基于分布式强化学习的多 Agent 协调方法

    第5章 回到目录 第7章 第6章-基于分布式强化学习的多 Agent 协调方法 6.1 引言 6.2 多 Agent 强化学习基本理论 6.2.1 基于局部合作的 Q 学习 6.2.2 基于区域合作的 ...

  4. 【控制】《多智能体机器人系统信息融合与协调》范波老师-第5章-强化函数设计方法及其在学习系统的应用

    第4章 回到目录 第6章 第5章-强化函数设计方法及其在学习系统的应用 5.1 引言 5.2 强化学习应用中的关键问题 5.2.1 泛化方法 5.2.2 探索与利用的权衡 5.2.3 强化函数与算法结 ...

  5. 【控制】《多智能体机器人系统信息融合与协调》范波老师-第3章-多 Agent 协调的学习与对策

    第2章 回到目录 第4章 第3章-多 Agent 协调的学习与对策 3.1 引言 3.2 多 Agent 协调的理论与方法 3.2.1 协调的基本概念 3.2.2 MAS 协调及其理论 3.3 Age ...

  6. 【控制】《多智能体系统的协同群集运动控制》陈杰老师-第11章-基于邻居相关状态的多智能体非合作行为检测与隔离

    第10章 回到目录 无 代码地址:https://github.com/Jichao-Zhao/MAS_CooperativeClusterMotionControl 第11章-基于邻居相关状态的多智 ...

  7. 【控制】《多智能体系统的协同群集运动控制》陈杰老师-第5章-基于骨干网络的多智能体系统群集运动与避障控制

    第4章 回到目录 第6章 第5章-基于骨干网络的多智能体系统群集运动与避障控制 5.1 研究背景 5.2 预备知识 5.2.1 问题描述 运动方程 (5.1) 5.2.2 流体力学基础 可压缩性 黏性 ...

  8. 【控制】《多智能体系统的协同群集运动控制》陈杰老师-第3章-基于代数连通度估计的多智能体系统群集运动控制

    第2章 回到目录 第4章 第3章-基于代数连通度估计的多智能体系统群集运动控制 3.1 研究背景 3.2 问题描述 系统方程 (3.1) 3.3 控制律设计 控制协议 (3.7) 3.4 λ2\lam ...

  9. 【控制】《多智能体系统的动力学分析与设计》徐光辉老师-第6章-基于间歇控制的非线性多智能体系统的多一致

    第5章 回到目录 第7章 第6章-基于间歇控制的非线性多智能体系统的多一致 6.1 引言 6.2 预备知识与模型描述 6.3 间歇控制下的非线性多智能体系统的多一致 6.4 仿真模拟 6.5 本章小结 ...

最新文章

  1. android之数据存储,Android数据存储之File
  2. 皮一皮:老外这是人傻钱多啊...
  3. Matlab画图-非常具体,非常全面
  4. HDU 3591 The trouble of Xiaoqian
  5. jquery选择器和基本操作
  6. 博客No.1活动暂停公告
  7. nginx将9000端口转发映射至 8080
  8. [译]聊聊C#中的泛型的使用
  9. JDK 12的Files.mismatch方法
  10. mysql 批量删除之大坑
  11. 蓝桥杯-天干地支问题
  12. idea创建一个javaweb项目
  13. GB50052-2009供配电系统设计规范1
  14. 如何用 Python 翻译语言?
  15. arcgis 批量计算几何_ArcGIS四种计算图斑面积的方法
  16. 龙果支付 mysql_龙果学院 基于电商业务的企业级大中台从设计到实现(第一阶段) 百度云 百度网盘...
  17. 防抖和节流理解,以及lodash使用
  18. CentOs 7.3 —— 使用rescue找回被删除的系统文件
  19. 图像处理:推导Canny边缘检测算法
  20. (十八)用JAVA编写MP3解码器——迷你播放器

热门文章

  1. 二:SpringAOP
  2. SVN删除服务器端项目文件
  3. 统计机器学习第二章 感知机
  4. 在内核中添加系统调用
  5. Mysql 解压版 安装时候的注意事项
  6. 关于NSString,NSMutableString,NSArray,NSMutableArray,NSDictionary,NSMutableDictionary
  7. 网站的容错性设计原则
  8. Spring框架简介
  9. 也谈表达式分析和计算
  10. UA MATH575B 数值分析下 统计物理的随机模拟方法4