Multi-Robot Path Planning Method Using Reinforcement Learning

期刊：applied science MDPI
总结：使用VGG进行特征提取，再使用DQN进行决策。论文质量较低，缺乏很多重要内容，如：环境搭建、数据集介绍、action和state的相关描述，还有很多typo；而且论文中并未体现出多机器人的思想。

论文模型图非常简单，画了跟没画似的。。。和常见的强化学习交互图一样。

用到了CNN来处理像素信息（应该后续会作为state），但文中并未说明图像信息来源：

reward设置：离目标近，reward +0.2；碰撞，reward -20；到达目标点，reward +100；

算法流程：并未说清楚s,a是怎么来的；猜测action是停在原地以及上下左右移动五种情形

强化学习算法：DQN
模拟环境：we built a simulator using C++ and Python in a Linux environment；障碍物的数量和位置是随机的；最终目标始终是右上角

Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm

arxiv 2020

总结：将传统的A star算法选择路径作为强化学习算法中的action（相当于用A*进行保底）
action：

state：作者在unity3D上的简要环境，一个机器人带有45方向个传感器，45个方向感知的东西，传感器的感知范围为d长度。

reward：rnavigation+rscenario+rpenaltyr_{navigation}+r_{scenario}+r_{penalty}rnavigation+rscenario+rpenalty

rnavigationr_{navigation}rnavigation：如果action是a0a_0a0，即采用传统方法，则为正奖励，否则为0
rscenarior_{scenario}rscenario：若发生碰撞，则为负奖励；若到达终点，则为正奖励
rpenaltyr_{penalty}rpenalty：每走一步，都有一个负奖励

RL算法：PPO

模拟环境：Unity3D + Tensorflow

PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning（经典）

发表于2019 Robotics and Automation Letters

总结：结合了强化学习和模仿学习，能用于多个智能体（1024）；分布式算法
设计了expert centralized MAPF planner，各个agent的决策都是有益于全体的；agent不需要显式通信，但可以在路径规划中表现出隐式协同。
单agent的决策靠的是RL + 模仿集中专家
（有点类似于：集中式训练，分布式执行）

state

observation space是有限的，不知道全局地图；每个agent视野范围不一定有goal，但是知道goal方向。
state：由四个channel组成（二值矩阵），障碍物、其他agent位置、agent的目标、其他可见的agent目标

action：

action：上下左右或者不动
存在无效action，规定只在有效action中采取行动（比给无效action一个负反馈，效果更好）。
鼓励探索，禁止agent返回上一个位置，可以静止不动

reward：

reward：发生碰撞就扣分，达到目的地就加分
静止不动，惩罚更多

Netword：

使用A3C来训练，policy network由CNN, LSTM, pooling组成：

输入是四个channel和goal position
输出有三部分，policy和value相当于actor和critic（他们共享了参数），还多了一个blocking，代表是否阻碍了别的agent。
使用A*算法估计路程，如果说去掉所有的agent后的路程变少了十步，那就视为blocking

Learning

分布式策略，但是得互相合作。常用的协同策略：① shared critics，当FOV并非有限的时候是有用的 ② joint rewards
本文的策略：

blocking penalty：如果agent在goal待着不动，阻碍了别的agent到达，扣分。虽然别的agent可能有另外的路线，但当前路径可能是最短的
combining RL and IL ：RL允许探索，IL能快速找到高质量区域；在线生成专家演示？（利用ODrM* optimal multirobot path planning in low dimensional search spaces生成高质量路径）
environment sampling

知乎解析
模拟环境：YouTube视频， github代码（python搭的环境）

总结对比：

paper	state	action	reward	补充
Multi-Robot Path Planning Method Using Reinforcement Learning	CNN分析环境的结果	未说明，猜测是上下左右和停在原地	离目标越近越好，碰撞会赋负值	质量低
Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm	45个方向的传感器结果，障碍物or合作智能体	六种action，A*, stay, backward, forward,left,right	rnavigation+rscenario+rpenaltyr_{navigation}+r_{scenario}+r_{penalty}rnavigation+rscenario+rpenalty	A*作为保底
PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning	不同视野的四通道（障碍位置、当前agent位置、邻居位置、agent目标）	东南西北移动、不移动	靠近目标就加分，发生碰撞减分	推出了PRIMAL2

三篇强化学习用于多智能体路径规划的论文相关推荐

基于强化学习的多智能体任务规划(一)
在这篇文章中,相比于传统的AFSIM,作者开发了一种新的人工智能的系统.相比于传统的AI训练器有充分利用先验知识,训练步长更短更快的特点.在此我们不讨论其系统实现的具体细节,我们仅仅讨论其多智能体条件 ...
MATLAB强化学习实战(十二) 创建自定义强化学习算法的智能体
创建自定义强化学习算法的智能体创建环境定义策略自定义智能体类智能体属性构造函数相关函数可选功能创建自定义智能体训练自定义智能体自定义智能体仿真本示例说明如何为您自己的自定义强化学 ...
论文阅读|Nash Q-Learning for General-Sum Stochastic Games基于强化学习的多智能体研究（附代码）
论文:Nash Q-learning for general-sum stochastic games 链接:http://www.jmlr.org/papers/volume4/hu03a/hu03 ...
大规模多智能体路径规划
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 李娇阳:南加州大学计算机系博士四年级学生,导师Sven Koenig, 本科毕业于清华大学自动化系.目前主要的研究方向为人工智能,多智能 ...
【文献学习】基于动作规划和强化学习的多智能体集群
Minghui Wang, Bi Zeng, Quijie Wang. Research on motion planning based on flocking control and reinfo ...
ICCV 2019 | 旷视研究院推出基于深度强化学习的绘画智能体
两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 ...
Yoshua Bengio团队最新强化学习研究：智能体通过与环境交互，「分离」变化的独立可控因素
原文来源:arXiv 作者:Valentin Thomas.Emmanuel Bengio∗.William Fedus.Jules Pondard.Philippe Beaudoin.Hugo La ...
【深度强化学习】多智能体算法汇总
0 Preliminaries 在多智能体强化学习算法中,两个主要的技术指标为合理性与收敛性. 合理性(rationality):在对手使用一个恒定策略的情况下,当前智能体能够学习并收敛到一个相对于对 ...
王树森强化学习笔记——多智能体强化学习
多智能体强化学习想要了解更多强化学习的内容,推荐观看王树森教授的教学视频深度强化学习(王树森) 设定在之前的学习当中,我们讨论的都是单个智能体如何进行决策,然而现实中还存在需要同时控制多个智能体 ...

三篇强化学习用于多智能体路径规划的论文