Multi-Robot Path Planning Method Using Reinforcement Learning

期刊:applied science MDPI
总结:使用VGG进行特征提取,再使用DQN进行决策。论文质量较低,缺乏很多重要内容,如:环境搭建、数据集介绍、action和state的相关描述,还有很多typo;而且论文中并未体现出多机器人的思想。

论文模型图非常简单,画了跟没画似的。。。和常见的强化学习交互图一样。

用到了CNN来处理像素信息(应该后续会作为state),但文中并未说明图像信息来源:

reward设置:离目标近,reward +0.2;碰撞,reward -20;到达目标点,reward +100;

算法流程:并未说清楚s,a是怎么来的;猜测action是停在原地以及上下左右移动五种情形

强化学习算法:DQN
模拟环境:we built a simulator using C++ and Python in a Linux environment;障碍物的数量和位置是随机的;最终目标始终是右上角

Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm

arxiv 2020

总结:将传统的A star算法选择路径作为强化学习算法中的action(相当于用A*进行保底)
action:

state:作者在unity3D上的简要环境,一个机器人带有45方向个传感器,45个方向感知的东西, 传感器的感知范围为d长度。

reward:rnavigation+rscenario+rpenaltyr_{navigation}+r_{scenario}+r_{penalty}rnavigation​+rscenario​+rpenalty​

  1. rnavigationr_{navigation}rnavigation​: 如果action是a0a_0a0​,即采用传统方法,则为正奖励,否则为0
  2. rscenarior_{scenario}rscenario​:若发生碰撞,则为负奖励;若到达终点,则为正奖励
  3. rpenaltyr_{penalty}rpenalty​:每走一步,都有一个负奖励

RL算法:PPO

模拟环境:Unity3D + Tensorflow

PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning(经典)

发表于2019 Robotics and Automation Letters

总结:结合了强化学习和模仿学习,能用于多个智能体(1024);分布式算法
设计了expert centralized MAPF planner,各个agent的决策都是有益于全体的;agent不需要显式通信,但可以在路径规划中表现出隐式协同。
单agent的决策靠的是RL + 模仿集中专家
(有点类似于:集中式训练,分布式执行)

state

observation space是有限的,不知道全局地图;每个agent视野范围不一定有goal,但是知道goal方向。
state:由四个channel组成(二值矩阵),障碍物、其他agent位置、agent的目标、其他可见的agent目标

action:

action:上下左右或者不动
存在无效action,规定只在有效action中采取行动(比给无效action一个负反馈,效果更好)。
鼓励探索,禁止agent返回上一个位置,可以静止不动

reward:

reward:发生碰撞就扣分,达到目的地就加分
静止不动,惩罚更多

Netword:

使用A3C来训练,policy network由CNN, LSTM, pooling组成:

输入是四个channel和goal position
输出有三部分,policy和value相当于actor和critic(他们共享了参数),还多了一个blocking,代表是否阻碍了别的agent。
使用A*算法估计路程,如果说去掉所有的agent后的路程变少了十步,那就视为blocking

Learning

分布式策略,但是得互相合作。常用的协同策略:① shared critics,当FOV并非有限的时候是有用的 ② joint rewards
本文的策略:

  1. blocking penalty:如果agent在goal待着不动,阻碍了别的agent到达,扣分。虽然别的agent可能有另外的路线,但当前路径可能是最短的
  2. combining RL and IL :RL允许探索,IL能快速找到高质量区域;在线生成专家演示?(利用ODrM* optimal multirobot path planning in low dimensional search spaces生成高质量路径)
  3. environment sampling

知乎解析
模拟环境:YouTube视频 , github代码 (python搭的环境)

总结对比:

paper state action reward 补充
Multi-Robot Path Planning Method Using Reinforcement Learning CNN分析环境的结果 未说明,猜测是上下左右和停在原地 离目标越近越好,碰撞会赋负值 质量低
Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm 45个方向的传感器结果,障碍物or合作智能体 六种action,A*, stay, backward, forward,left,right rnavigation+rscenario+rpenaltyr_{navigation}+r_{scenario}+r_{penalty}rnavigation​+rscenario​+rpenalty​ A*作为保底
PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning 不同视野的四通道(障碍位置、当前agent位置、邻居位置、agent目标) 东南西北移动、不移动 靠近目标就加分,发生碰撞减分 推出了PRIMAL2

三篇强化学习用于多智能体路径规划的论文相关推荐

  1. 基于强化学习的多智能体任务规划(一)

    在这篇文章中,相比于传统的AFSIM,作者开发了一种新的人工智能的系统.相比于传统的AI训练器有充分利用先验知识,训练步长更短更快的特点.在此我们不讨论其系统实现的具体细节,我们仅仅讨论其多智能体条件 ...

  2. MATLAB强化学习实战(十二) 创建自定义强化学习算法的智能体

    创建自定义强化学习算法的智能体 创建环境 定义策略 自定义智能体类 智能体属性 构造函数 相关函数 可选功能 创建自定义智能体 训练自定义智能体 自定义智能体仿真 本示例说明如何为您自己的自定义强化学 ...

  3. 论文阅读|Nash Q-Learning for General-Sum Stochastic Games基于强化学习的多智能体研究(附代码)

    论文:Nash Q-learning for general-sum stochastic games 链接:http://www.jmlr.org/papers/volume4/hu03a/hu03 ...

  4. 大规模多智能体路径规划

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 李娇阳:南加州大学计算机系博士四年级学生,导师Sven Koenig, 本科毕业于清华大学自动化系.目前主要的研究方向为人工智能,多智能 ...

  5. 【文献学习】基于动作规划和强化学习的多智能体集群

    Minghui Wang, Bi Zeng, Quijie Wang. Research on motion planning based on flocking control and reinfo ...

  6. ICCV 2019 | 旷视研究院推出基于深度强化学习的绘画智能体

    两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 ...

  7. Yoshua Bengio团队最新强化学习研究:智能体通过与环境交互,「分离」变化的独立可控因素

    原文来源:arXiv 作者:Valentin Thomas.Emmanuel Bengio∗.William Fedus.Jules Pondard.Philippe Beaudoin.Hugo La ...

  8. 【深度强化学习】多智能体算法汇总

    0 Preliminaries 在多智能体强化学习算法中,两个主要的技术指标为合理性与收敛性. 合理性(rationality):在对手使用一个恒定策略的情况下,当前智能体能够学习并收敛到一个相对于对 ...

  9. 王树森强化学习笔记——多智能体强化学习

    多智能体强化学习 想要了解更多强化学习的内容,推荐观看王树森教授的教学视频 深度强化学习(王树森) 设定 在之前的学习当中,我们讨论的都是单个智能体如何进行决策,然而现实中还存在需要同时控制多个智能体 ...

最新文章

  1. uestc 250 windy数(数位dp)
  2. QT中VideoProbe的简介和实现
  3. phpexcel.php linux,phpexcel在linux系统报错如何解决
  4. SQL查询成绩前3的student
  5. 解析xlsx与xls--使用2012poi.jar
  6. eclipse更改android版本,在Android Studio和Android Eclipse 更改现有项目里的SDK版本
  7. zend调试php,Zend Studio使用教程:在Zend Studio中调试PHP(4/5)
  8. 微信小程序 测试环境和正式环境 access_token冲突问题
  9. word里双横线怎么打_Word中下划线怎么打出来
  10. 编程艺术——软件设计模式SOLID原则
  11. Git用户手册--Git 内部原理
  12. 【论文笔记】AliMe Assist阿里小蜜(未完。。。)
  13. 马踏棋盘问题的程序c语言,C语言马踏棋盘
  14. 三款超火的国外壁纸应用,让你每天都用新手机
  15. 股票筛选。如何查找股票?如何查找潜力股?
  16. 顺丰数据治理总体框架与实践PPT(附下载)
  17. 如何从阿里云官方镜像站下载ubuntu并安装
  18. js 爱心随鼠标移动 产生 并 消散 (源码)
  19. 微信小程序视图控件与bindtap之间的问题的解决
  20. yml配置文件中${}的使用

热门文章

  1. Xavier远程不接显示器设置分辨率
  2. iPhone用户干货:袋鼠下载,如何导出已下载的视频到其他播放器?
  3. 安卓软键盘关闭问题详解大全
  4. Oracle 数据库监听日志过大,怎么清除?
  5. 绘画初学者怎么去学习漫画?有什么要注意的?
  6. 新闻式软文如何写? 800字范文案例分享
  7. unity3d中用incontrol检测输入设备切换
  8. 一份运维的鸡汤-自律源于自己!
  9. C++中贝叶斯滤波器包bfl的使用(1)-线性卡尔曼滤波器
  10. 怎样实现一个完整的机票预订系统呢