《Multi-Agent Deep Reinforcement Learning for Large-Scale Traffic Signal Control》

IEEE Transaction on Intelligent tansportation systems/2020

论文及代码链接https://arxiv.org/abs/1903.04527https://arxiv.org/abs/1903.04527

1 摘要

强化学习(RL)是解决复杂城市交通网络中自适应交通信号控制(ATSC)的一种很有前途的数据驱动方法，而深度神经网络进一步增强了其学习能力。然而，由于联合动作空间的维数过高，集中式RL不适用于大规模的ATSC。多Agent RL(MARL)通过将全局控制分配给每个局部RL Agent来克服可伸缩性问题，但也带来了新的挑战：现在，由于Agent之间的通信有限，从每个局部Agent的角度来看，环境变得部分可观测。现有的MARL研究大多集中于设计传统Q-学习智能体之间的有效沟通和协调。本文首次在ATSC环境下提出了一种完全可扩展的分布式MARL算法，该算法适用于目前最先进的 deep RL agent--Advantage Actor Critic(A2C)。特别地，通过提高局部智能体的可观测性和降低学习难度，提出了两种稳定学习过程的方法，并在摩纳哥城市大型合成交通网格和大型真实交通网络上模拟高峰时段交通动态，将提出的多智能体A2C算法与独立A2C和独立Q-学习算法进行了比较。实验结果表明，与其他最先进的分散MARL算法相比，该算法具有最优性、稳健性和采样效率。

2 介绍

自适应交通信号控制(ATSC)的目标是根据实时交通动态调整信号配时，以减少饱和路网中潜在的拥堵。

集中式RL Agent对于大规模TSC不可行的原因：

（1）需要收集网络中的所有流量测量数据，并将其作为全局状态反馈给Agent,这种集中状态处理本身将导致高延迟和高故障率，会丢失网络的拓扑信息。

（2）智能体的联合行动空间在信号交叉口的数量上呈指数增长。

因此，将ASTC描述为一个协作多智能体RL问题是十分有效的，其中每个交叉口由一个本地RL智能体控制。

为了开发一个稳定和健壮的IA2C系统，进一步提出了两种方法来解决IA2C在有限通信条件下的部分可观测性（partially observable）和非稳态特性(nonstationary)：

（1）我们包含了状态中相邻Agent的观察结果和指纹，这样每个本地Agent就可以获得更多关于区域交通分布和合作策略的信息。

（2）引入空间折扣率来减少相邻智能体的观察和奖励信号，使每个局部智能体更专注于改善附近的交通状况。

从收敛角度看，第一种方法提高了拟合能力，而第二种方法降低了拟合难度。

3 MA2C for Traffic signal control

3.1 MDP settings

考虑Ts时间内的模拟交通环境，定义Δtw为RL Agent和交通环境之间交互的周期。

3.1.1 Action

动作设置为红路灯组合。

3.1.2 State

这篇文章将局部状态定义为：

其中，每个交叉口的进入车道i。wait[s]测量第一辆车的累积延迟，而Wave[veh]测量每个进入车道在交叉口50m内车辆的总数。通过近交叉感应环路检测器（ILD）可以获得Wait和Wave，确保实时TSC。为了简化实现，我们使用SUMO中的laneAreadetector来收集状态信息。

3.1.3 Reward

一个合适的MARL奖励应该是可分解且可频繁测量的，这篇文章将奖励定义为：

这篇文章所提算法框架如下图：

4 实验

基于MARL的ATSC在两个相扑模拟交通环境中进行了评估：5×5的合成交通网格和从摩纳哥城市[44]提取的真实世界30个十字路口的交通网络，在时变交通流下进行评估。本部分旨在设计具有挑战性和现实性的交通环境，以便在控制器之间进行有趣和公平的比较。

4.1 综合交通网络

5×5交通网格是由限速20m/s的双车道主干道和限速11m/s的单车道大道组成的，每个交叉口的作用空间包括五个可能的阶段：E-W直行阶段、E-W左转阶段和E、W、N-S三个直行和左转阶段，每个交叉口的作用空间包括五个可能的阶段：E-W直行阶段、E-W左转阶段和E、W、N-S三个直行阶段和左转阶段。

4.2 对比实验图展示

多智能体深度强化学习（MADRL）在大规模交通信号灯控制中的应用相关推荐

多智能体深度强化学习 # MADDPG
前置基础: DDPG 多智能体深度强化学习 # 多智能体深度强化学习基础 Multi-Agent:多智能体 Deep:与DQN类似,使用目标网络+经验回放 Deterministic:直接输出确定性的 ...
基于多智能体深度强化学习的空地协同通信系统轨迹设计与访问控制
Trajectory Design and Access Control for Air-Ground Coordinated Communications System with Multi-Age ...
多智能体深度强化学习综述与批判——Matthew E. Taylor
这篇综述是华盛顿大学的Matthew E. Taylor总结的,"A Survey and Critique of Multiagent Deep Reinforcement Learnin ...
基于通用学习环境和多智能体深度强化学习的列车运行图
‍ 1. 文章信息 <Train timetabling with the general learning environment and multi-agent deep reinforce ...
论坛报名 | 从捉迷藏、星际争霸到新一代人工智能：多智能体深度强化学习的理论与实践...
与6位图灵奖得主和100多位专家共同探讨人工智能的下一个十年长按图片或点击阅读原文,内行盛会,首次免费注册 2020年6月21-24日,第二届北京智源大会(官网:https://2020.baai ...
用于衍生品定价和动态对冲的多智能体深度强化学习和基于 GAN 的市场模拟
计算能力的进步使机器学习算法能够直接从大量数据中学习.深度强化学习是一种特别强大的方法,它使用代理通过与数据环境交互来学习.尽管许多交易员和投资经理依赖传统的统计和随机方法来为资产定价并制定交易和对冲 ...
基于图神经网络的多智能体深度强化学习
参考文献 [1] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. a ...
多智能体强化学习Multi agent，多任务强化学习Multi task以及多智能体多任务强化学习Multi agent Multi task概述
概述在我之前的工作中,我自己总结了一些多智能体强化学习的算法和通俗的理解. 首先,关于题目中提到的这三个家伙,大家首先想到的就是强化学习的五件套: 状态:s 奖励:r 动作值:Q 状态值:V 策略: ...
深度强化学习：如何在AI工程实践中选择合适的算法？
关注公众号,发现CV技术之美在使用深度强化学习(Deep Reinforcement Learning,DRL)算法解决实际问题的过程中,明确任务需求并初步完成问题定义后,就可以为相关任务选择合适的 ...

多智能体深度强化学习（MADRL）在大规模交通信号灯控制中的应用