问题设定
- 1. State 状态
- 2. Action 动作
- 3. Reward 奖励
- 4. 仿真环境
一、单点深度强化学习方法
- 1. 基本方法
- 2. 改进的DRL方法
- 3. 基于自编码器的DRL方法
- 4. 基于模糊推理确定道路运行模式
- 5. 基于路关键点优化控制
- 6. 通过添加噪声提高鲁棒性
二、区域信号控制协同优化
三、总结与展望
总体参考文献

问题设定

一般而言，一个或多个Agent控制路网交通信号。

Agent — 交通信号灯
enviroment — 道路交通状态
ttt — 时刻
sts_tst — 状态，表示对环境的描述。如车辆位置、速度、排队长等

1. State 状态

离散化交通状态编码。即将交叉口分割为固定长度的网格，通过每个网格中的布尔值确定该位置是否存在车辆。可获得高分辨率交叉口信息；
图像快照（截图）获得速度、加速度信息、信号相位等信息
首车等待时间、排队长、相位时长
左转车辆数 / 占比
附近交叉口信息
当前相位持续时间
当前时刻

2. Action 动作

获得环境信息后选择要采取的动作并观察动作带来的奖励 RewardRewardReward 及新的 StateStateState。

保持相位
设置相位持续时间
设置相位分配比例
改变至下一相位
选择并改变相位

动作集合离散，因此较少用基于策略梯度的方法。

3. Reward 奖励

全局奖励或局部奖励。全局奖励以学习到整个路网最优为目标；局部奖励训练每个智能体稳定性。

奖励可能包括赋权的：

等待时间
排队长
延误时间
相位变化（0-1变量）
最小动作时间内通过车辆数
车道限速和实际车速之差与限速比值的相反数
Lin 等人将交叉口的净流出量作为全局奖励，交叉口东西方向和南北方向队列长度的差值绝对值的相反数作为局部奖励，系统最终的奖励函数为赋权的（局部奖励+全局奖励）的混合函数

4. 仿真环境

SUMO、Paramics、VISSIM与MATLAB集成、CityFlow

一、单点深度强化学习方法

1. 基本方法

大致可分为基于值和基于梯度策略两类：
基于值：

Deep Q Network, DQN
Double Deep Q Network, DDQN
Double Dueling Deep Q Network （双重决斗深度Q 网
络(）
Prioritized Experience Replay（具有优先经验回放的深度Q 网络）

基于策略梯度：

Actor-Critic, A2C/A3C

2. 改进的DRL方法

Liang 等人[29]，使用双DQN与决斗DQN结合（双重决斗DQN），优先经验回放提高有意义的经验的采样率（与DQN相比提高了模型可收敛性）；模型训练过程不稳定
Mousavi 等人[8]，基于值+基于策略梯度，输入时交叉口截图
Wan 等人[26]，将动作和状态同时作为输入估算Q值并输出动作，根据智能体的两个动作执行时间间隔确定动态折扣因子，时间间隔越长，则折扣因子越小（该实验发现，将动作作为输入添加到神经网络中，训练结束后只需要输出一个动作的值可以使DQN的训练难度降低）

[29] LIANG X, DU X, WANG G, et al. A deep reinforcement learning network for traffic light cycle control[J]. IEEE Transactions on ehicular Technology, 2019, 68(2): 1243-1253.
[8] MOUSAVI S S, SCHUKAT M, HOWLEY E. Traffic light control using deep policy-gradient and value-function-based reinforcement learning[J]. IET Intelligent Transport Systems, 2017, 11(7): 417-423.
[26] WAN C H, HWANG M C. Value-based deep reinforcement learning for adaptive isolated intersection signal control[J]. IET ntelligent Transport Systems, 2018, 12(9): 1005-1010.

3. 基于自编码器的DRL方法

Li 等人[4]通过将DQN 中的值函数逼近器由传统的DNN 更改为堆栈自编码器（SAE）

[4] LI L, LÜ Y, WANG F Y. Traffic signal timing via deep inforcement learning[J]. IEEE/CAA Journal of Automatica Sinica, 2016, 3(3): 247-254.

4. 基于模糊推理确定道路运行模式

Kumar 等人[54]首先根据车辆种类将道路运行模式分为三类：公平模式、优先模式和紧急模式。

通过模糊逻辑推理确定道路当前运行模式，并根据车辆类型分配相应车道的绿灯时间。

考虑车辆的异质性（如优先安排应急车辆通过）最小化等待时间。

[54] KUMAR N, RAHMAN S S, DHAKAD N. Fuzzy inference enabled deep reinforcement learning-based traffic light control for intelligent transportation system[J]. IEEE Transactions on Intelligent Transportation Systems, 2020.

5. 基于路关键点优化控制

Xu 等人[27]将信号控制分两个阶段：路网关键节点发现、信号控制策略学习

通过地图匹配方法实现路网区域划分，并将路网划分为三分图，然后根据三分图对每个交叉口的重要性进行排序，实现路网关键节点发现；

在发现路网关键节点后利用基于深度回归Q 网络（Deep Recurrent Q Network，DRQN）

[27] XU M, WU J, HUANG L, et al. Network-wide traffic signal control based on the discovery of critical nodes and deep reinforcement learning[J]. Journal of Intelligent Transportation Systems, 2020, 24(1): 1-10.

6. 通过添加噪声提高鲁棒性

Tan 等人[55]。模型训练过程中添加适当噪声模拟现实世界中状态信息获取可能不准确的情况，有效提高模型的鲁棒性。

[55] TAN K L, SHARMA A, SARKAR S. Robust Deep einforcement Learning for Traffic Signal Control[J]. Journal of Big Data Analytics in Transportation, 2020, 2(3): 263-274.

二、区域信号控制协同优化

（待续）

三、总结与展望

简化输入的状态提高学习效率
提高模型性能的同时要注意算法复杂度和收敛难度
安全问题：黑盒性质、不可解释；鲁棒性等
公平问题：当前相位持续时间结束时才能确定下一相位，这会导致驾驶员不知道要在交叉口等待多长时间
不能局限仿真，要利用真实交通流和实际路网
嵌入混合交通流、紧急车辆优先等管理思想增强决策实用性

总体参考文献

本文是基于该文献等做出的总结笔记：

[1]徐东伟,周磊,王达,丁加丽,魏臣臣.基于深度强化学习的城市交通信号控制综述[J/OL].交通运输工程与信息学报:1-21[2021-10-24].https://doi.org/10.19961/j.cnki.1672-4747.2021.04.017.

基于DRL的城市TSC 综述笔记（一）相关推荐

文献综述笔记软件_论坛软件综述
文献综述笔记软件 The 'forum' or 'discussion board' plays a major part on most successful Websites, providin ...
基于Solr的空间搜索学习笔记
基于Solr的空间搜索学习笔记在Solr中基于空间地址查询主要围绕2个概念实现: (1) Cartesian Tiers 笛卡尔层 Cartesian Tiers是通过将一个平面地图的根据设定的层次 ...
Spark集群基于Zookeeper的HA搭建部署笔记（转）
原文链接:Spark集群基于Zookeeper的HA搭建部署笔记 1.环境介绍 (1)操作系统RHEL6.2-64 (2)两个节点:spark1(192.168.232.147),spark2(192 ...
python小车行驶路线图_基于opencv-Python小车循线学习笔记
基于opencv-Python小车循线学习笔记加入摄像头模块,让小车实现自动循迹行驶思路为:摄像头读取图像,进行二值化,将白色的赛道凸显出来选择下方的一行像素,黑色为0,白色为255 找到白色值 ...
arcgis交通可达性分析步骤_【规划广角】街道慢行品质的多维度评价与导控策略——基于多源城市数据的整合分析...
欢迎点击以上蓝色字体关注规划师杂志作者苏州规划设计研究院交通所所长.同济大学建筑与城市规划学院博士研究生樊钧,同济大学建筑与城市规划学院硕士研究生唐皓明,同济大学建筑与城市规划学院助理教授.硕士生 ...
基于MVS的三维重建算法学习笔记（二）— 立体视觉的几何基础总结
基于MVS的三维重建算法学习笔记(二)- 立体视觉的几何基础总结声明概述 1. 常见三维数据类型 2. 三维形状的几种表达形式 3. 三维空间刚体运动 4. 李群和李代数 5. 相机标定 6. 非 ...
基于遗传算法解决城市TSP问题
基于遗传算法解决城市TSP问题算法原理: TSP是一个组合优化方面的问题,已经成为测试组合优化新算法的标准问题.应用遗传算法解决 TSP 问题,首先对访问城市序列进行排列组合的方法编码,这保证了每个 ...
便签 java_基于安卓Android的便签笔记APP设计(Android studio)
基于安卓Android的便签笔记APP设计(Android studio)(论文9000字,程序代码) 摘要:本文介绍了便签的发展史.基础操作流程以及便签的具体功能,提出了基于Android的便签AP ...
基于SpringBoot的城市建设用地管理系统的设计与实现
作者主页:Designer 小郑作者简介:Java全栈软件工程师一枚,来自浙江宁波,负责开发管理公司OA项目,专注软件前后端开发(Vue.SpringBoot和微信小程序).系统定制.远程技术指导. ...
基于python的数字图像处理--学习笔记（三）
基于python的数字图像处理--学习笔记(三) 前言一.灰度拉伸二.幂律(伽马)变换三.对数变换前言进入冈萨雷斯的第三章内容,并用python实现功能.我更改了代码源,之前找到太烂了,代码 ...

基于DRL的城市TSC 综述笔记（一）

目录