《Anti-conflict AGV path planning in automated container terminals based on multi-agent reinforcement learning》

International journal of production research/2021

Full article: Anti-conflict AGV path planning in automated container terminals based on multi-agent reinforcement learning (tandfonline.com)

1 摘要

AGV冲突预防路径规划是提高集装箱码头运输成本和运营效率的关键因素。研究了集装箱自动化码头(ACTS)水平运输区自动导引车(AGV)的防冲突路径规划问题。根据磁钉导引AGVS的特点，构建了节点网络。通过对对向冲突和同点占领冲突两种冲突情况的分析，建立了求解最短路径的整数规划模型。针对这一问题，提出了多Agent深度确定性策略梯度(MADDPG)方法，并采用Gumbel-Softmax策略对节点网络产生的场景进行离散化。通过一系列的数值实验，验证了模型和算法的有效性和高效性。

2 介绍

如图1所示，ACT大体上分为三个区域，即岸边的码头起重机作业区、岸边的堆场作业区和水平运输区。自动导引车(AGV)是连接ACT陆岸和海边的重要运输设备，主要在水平运输区域行驶。AGV沿着指定的路径行驶，将集装箱从海边运送到堆场或从堆场运送到海边。

AGV到达海边或堆场的延误增加了装卸的等待时间，增加了成本。因此，对AGV行驶路径的合理规划和AGV冲突的优化不仅能提高整个自动化运输系统的运行效率，还能使AGV的运行效率得到很大的提高。

本文的贡献主要体现在以下几个方面：

（1）根据磁钉的分布和AGV在水平运输区域的驱动规律，构造了一个节点网络。通过分析反向冲突情况和同点占用冲突情况，建立了一个整数规划（IP）模型，该模型旨在同时获得多个AGV的无路径冲突的最短路径。

（2）针对AGV路径规划问题，提出了一种基于强化学习的多智能体深度确定性策略梯度（MADDPG）策略的AGV路径规划方法。由于节点网络创建的场景是离散的，MADDPG算法用于连续场景，因此采用Gumbel Softmax技术对问题进行离散化。

车间场景和ACT场景中AGV路径规划的比较：

3 问题描述和数学模型

3.1 问题描述

首先接收集装箱作业任务指令；然后规划到作业任务指令的装卸位置的合理路径；然后与装卸设备一起将集装箱装入AGV/从AGV卸下集装箱，完成装卸作业；最后等待下一指令。

AGV的任务分配在上层决策中完成。由于自动导引车路径规划问题是一个不确定的问题，规划周期相对较短。在这种情况下，大多数自动导引车在规划范围内只能完成一项任务。在本研究中，我们只考虑在如此短的规划时间内每个AGV第一个任务的路径规划。对于更长的规划范围，我们的算法可以纳入滚动优化方法。

3.2 港口布局

ACT的水平运输区是一个形状规则、无人操作的区域。与一般制造系统不同，该区域没有障碍物或工作站。为了准确描述ACT中的AGV路径规划问题，根据磁钉导向驱动的特点，构建了港口布局节点网络，如图2所示。AGV在完成任务分配后，需要经过多个节点才能完成任务。

3.3 行驶规则

AGV在任何时候都可以保持在当前位置或者行驶到规则允许的相邻节点，每个节点最多能容纳一个AGV，AGV不允许在网络之外行驶，如图3所示，在水平方向上，岸吊作业区有7条单向车道，在场地一侧的车道上交替设置6条单向车道，垂直方向的节点是双向的。

邻接矩阵是根据数学模型中ACT的行驶规则来设定的。图4(a)显示了当有6个节点时的驱动规则。相邻节点可以在垂直方向上相互通过，并且可以通过水平方向传递信息。图4(b)显示相应的邻接矩阵。1表示可以达到，0表示不可能达到。

3.4 任务定义

通常，ACTs的任务分为装载任务和卸载任务。装载任务是AGV捡起集装箱并通过水平运输区将其运输到指定的码头起重机操作位置，而卸载任务则相反。本文不区分任务是加载任务还是卸载任务，只区分AGV的开始结束节点，而AGV的路径规划是生成从当前位置到终点的路径。

3.5 冲突情况

根据港口布局的节点网络和行为的实际情况，图5显示了两种冲突情况: 对立冲突和同点占领冲突。

4 多智能体强化学习

4.1 环境设置

状态：AGV的当前位置

动作：AGV的方向，移动速度

AGV之间的冲突风险可以通过距离函数获得:

这是两辆 AGVs 之间最短的距离。例如，dmin = 1表示两个 agvs 之间有一个单位距离。当两个 agvs 之间的距离小于阈值距离时，将生成两个 agvs 之间的距离，直到下一个状态的 agvs 满足最小距离要求。

奖励：

4.2 Gumbel-softmax 抽样方法

本文是离散的,这就需要行动空间的离散化。Gumbel-Softmax策略(Jang, Gu，和Poole2016)在终端环境中为离散的行为提供了可传递性，但也保持了动作空间的传递性。Gumbel-Softmax采样策略的具体过程如下:

（1）对于一个n维矢量多层感知器(MLP)输出，n个样本ε1，ε2，…，通过U(0,1)均匀分布产生;

（2）G是标准Gumbel分布的随机变量，计算公式为:G =−log(−log(εi));

（3）通过相应的+运算，得到一个新的值向量：

（4）通过Softmax函数计算概率得到最终的类别。

4.3 算法过程

基于多智能体强化学习的自动化集装箱码头无冲突AGV路径规划相关推荐

多智能体强化学习_基于多智能体强化学习主宰星际争霸游戏
大家好,今天我们来介绍基于多智能体强化学习主宰星际争霸游戏这篇论文 Grandmaster level in StarCraft II using multi-agent reinforcement ...
基于多智能体强化学习的出租车调度框架
网约车平台的繁荣使得人们比以往能更加"智慧"的出行.平台能实时掌握全局的车辆与乘客的供需关系,从而在车辆与乘客之间实现更加有效的匹配.但车辆与乘客还是会经常遭遇"车辆不停 ...
Multiple Landmark Detection using Multi-AgentReinforcement Learning基于多智能体强化学习的多重地标检测
目录摘要介绍贡献相关工作方法协作代理实验数据集训练测试讨论计算性能结论 References 摘要解剖标志的检测是医学图像分析和诊断.解释和指导应用的重要步骤. 对地标进行 ...
《强化学习周刊》第40期：PMIC多智能体强化学习、Lazy-MDPs、CTDS
No.40 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
《强化学习周刊》第16期：多智能体强化学习的最新研究与应用
No.16 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...
《强化学习周刊》第2期：多智能体强化学习（MARL）赋能“AI智能时代”
No.02 智源社区强化学习组 R L 学习研究观点资源活动关于周刊随着强化学习研究的不断成熟,如何将其结合博弈论的研究基础,解决多智能体连续决策与优化问题成为了新的研究领域,为了帮 ...
多智能体强化学习——相关论文
多智能体深度强化学习研究综述作者:孙彧,曹雷,陈希亮,徐志雄,赖俊摘要:多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法.规则.框架,并广泛应用于自动驾驶.能 ...
一个简单易懂的多智能体强化学习建模过程的例子
这里基于一篇论文分享一种强化学习的建模过程,它是将通信当中的资源分配问题建立成强化学习方法,首先大概读一遍这个题目,叫"基于多智能体强化学习的无人机网络资源分配",这里的netwo ...
上海交大开源训练框架，支持大规模基于种群多智能体强化学习训练
机器之心专栏作者:上海交大和UCL多智能体强化学习研究团队基于种群的多智能体深度强化学习(PB-MARL)方法在星际争霸.王者荣耀等游戏AI上已经得到成功验证,MALib 则是首个专门面向 PB- ...
多智能体通信：基于通信的多智能体强化学习研究综述
题目:A Survey of Multi-Agent Reinforcement Learning with Communication 出处:arXiv 2022 摘要:通信是协调多个智能体行为的有 ...

基于多智能体强化学习的自动化集装箱码头无冲突AGV路径规划