文章脉络【Dueling DQN+Prioritized Memory ，2019年TVT】

1、贡献
- 1）首次将dueling network，target network，double DQN 和prioritized experience replay结合在一起。
- 2）提出了一种在整个周期内确定相位持续时间的控制系统，而不是将时间分段。
- 3）在SUMO上进行实验。
2、问题定义
- 1）状态
- 2）动作
- 3）奖励
3、网络结构
- A、CNN
- B、Dueling DQN
- C、Target network
- D、Double DQN
- E、具有优先级的经验回放
- F、优化
- 算法整体伪代码
4、实验

1、贡献

1）首次将dueling network，target network，double DQN 和prioritized experience replay结合在一起。

2）提出了一种在整个周期内确定相位持续时间的控制系统，而不是将时间分段。

3）在SUMO上进行实验。

2、问题定义

1）状态

将路口分割成大小相同的小正方形，每个网格是车辆的状态值**<位置，速度>**。
位置是0或1【有车辆和没有车辆】，当该位置有车辆时对应显示其速度值[实数]。

2）动作

改变的是相位的持续时间，每次加5s。最大持续时间是60s，最小是0s。
例如下图，当前位于t1时刻，下一时刻有以下8种变化方案。

交通信号按照顺序循环变化，两个相邻相位之间需要一个黄灯来作为过渡，黄灯时间计算公式为：道路允许最大速度/车辆减速的加速度

3）奖励

将奖励定义为两个相邻周期之间的累计等待时间的变化

3、网络结构

A、CNN

由三个卷积层和几个全连接层构成，激活函数使用Leacky ReLU。

B、Dueling DQN

将Q网络分割成两部分：价值函数与优势函数。在实际使用中使用“当前选择动作的优势值减去平均值”，能够提高稳定性。

C、Target network

采用目标网络帮助指导更新过程，解耦目标值与实际值估计，通过冻结目标值的方式，使神经网络的更新更加稳定。
目标网络参数的更新采取下式：

加入目标网络后，整个神经网络的损失值表达式为：

D、Double DQN

为了缓解DQN算法过度估计问题，有学者提出采取当前Q网络的最大动作，而不是选择target网络中Q值最大的对应的动作。
因此，目标Q值的计算公式变为：

E、具有优先级的经验回放

DQN中最重要的一部分就是经验回放，通过经验回放可以调整抽取样本的分布，使其符合独立同分布，同时可以降低抽取的样本之间的相关性。
样本的优先级【采样概率】常采用两种方式计算：基于比例和基于等级。本文中采用的是基于等级方法，即将转移序列的时间差分误差项作为评价优先级的标准。
TD-error的计算公式如下：

转移序列i的采样概率：
对转移序列根据TD-error进行排序，优先级就是其排序的倒数。

F、优化

采用Adam方式？？？

算法整体伪代码

4、实验

A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】相关推荐

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...
基于深度强化学习的车道线检测和定位（Deep reinforcement learning based lane detection and localization）论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位官方源码下载:https://github.co ...
DEEP ACTIVE LEARNING FROM MULTISPECTRAL DATA THROUGHCROSS-MODALITY PREDICTION INCONSISTENCY 论文阅读
(1)基本信息这篇文章是基于半监督的模式来做跨模态行人检测的,引入了主动学习的方法,意在使用少量标注信息达到和全监督跨模态数据集一样的效果: 提出当两种模态检测结果相反时,至少有一种模态是检测错误的 ...
论文记载： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks
强化学习论文记载论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯 ...
【论文笔记】Deep Reinforcement Learning Control of Hand-Eye Coordination with a Software Retina
目录 Abstract Keywords 1. INTRODUCTION 2. BACKGROUND A. Software Retina B. Deep Reinforcement Learning ...
《Deep Reinforcement Learning for Autonomous Driving: A Survey》笔记
B Ravi Kiran , Ibrahim Sobh , Victor Talpaert , Patrick Mannion , Ahmad A. Al Sallab, Senthil Yogama ...
Deep Reinforcement Learning 深度增强学习资源
http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料增强学习课程 David Silver (有视频和ppt): http:/ ...
论文笔记之：Deep Reinforcement Learning with Double Q-learning
Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特 ...
深度学习(19): Deep Reinforcement learning（Policy gradientinteract with environment）
Deep Reinforcement learning AL=DL+RL Machine 观察到环境的状态,做出一些行为对环境产生影响,环境根据machine的改变给予一个reward.正向的acti ...

A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】