A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】
文章脉络【Dueling DQN+Prioritized Memory ,2019年TVT】
- 1、贡献
- 1)首次将dueling network,target network,double DQN 和prioritized experience replay结合在一起。
- 2)提出了一种在整个周期内确定相位持续时间的控制系统,而不是将时间分段。
- 3)在SUMO上进行实验。
- 2、问题定义
- 1)状态
- 2)动作
- 3)奖励
- 3、网络结构
- A、CNN
- B、Dueling DQN
- C、Target network
- D、Double DQN
- E、具有优先级的经验回放
- F、优化
- 算法整体伪代码
- 4、实验
1、贡献
1)首次将dueling network,target network,double DQN 和prioritized experience replay结合在一起。
2)提出了一种在整个周期内确定相位持续时间的控制系统,而不是将时间分段。
3)在SUMO上进行实验。
2、问题定义
1)状态
将路口分割成大小相同的小正方形,每个网格是车辆的状态值**<位置,速度>**。
位置是0或1【有车辆和没有车辆】 ,当该位置有车辆时对应显示其速度值[实数]。
2)动作
改变的是相位的持续时间,每次加5s。最大持续时间是60s,最小是0s。
例如下图,当前位于t1时刻,下一时刻有以下8种变化方案。
交通信号按照顺序循环变化,两个相邻相位之间需要一个黄灯来作为过渡,黄灯时间计算公式为:道路允许最大速度/车辆减速的加速度
3)奖励
将奖励定义为两个相邻周期之间的累计等待时间的变化
3、网络结构
A、CNN
由三个卷积层和几个全连接层构成,激活函数使用Leacky ReLU。
B、Dueling DQN
将Q网络分割成两部分:价值函数与优势函数。在实际使用中使用“当前选择动作的优势值减去平均值”,能够提高稳定性。
C、Target network
采用目标网络帮助指导更新过程,解耦目标值与实际值估计,通过冻结目标值的方式,使神经网络的更新更加稳定。
目标网络参数的更新采取下式:
加入目标网络后,整个神经网络的损失值表达式为:
D、Double DQN
为了缓解DQN算法过度估计问题,有学者提出采取当前Q网络的最大动作,而不是选择target网络中Q值最大的对应的动作。
因此,目标Q值的计算公式变为:
E、具有优先级的经验回放
DQN中最重要的一部分就是经验回放,通过经验回放可以调整抽取样本的分布,使其符合独立同分布,同时可以降低抽取的样本之间的相关性。
样本的优先级【采样概率】常采用两种方式计算:基于比例和基于等级。本文中采用的是基于等级方法,即将转移序列的时间差分误差项作为评价优先级的标准。
TD-error的计算公式如下:
转移序列i的采样概率:
对转移序列根据TD-error进行排序,优先级就是其排序的倒数。
F、优化
采用Adam方式???
算法整体伪代码
4、实验
A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】相关推荐
- Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...
- 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...
- DEEP ACTIVE LEARNING FROM MULTISPECTRAL DATA THROUGHCROSS-MODALITY PREDICTION INCONSISTENCY 论文阅读
(1)基本信息 这篇文章是基于半监督的模式来做跨模态行人检测的,引入了主动学习的方法,意在使用少量标注信息达到和全监督跨模态数据集一样的效果: 提出当两种模态检测结果相反时,至少有一种模态是检测错误的 ...
- 论文记载: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks
强化学习论文记载 论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯 ...
- 【论文笔记】Deep Reinforcement Learning Control of Hand-Eye Coordination with a Software Retina
目录 Abstract Keywords 1. INTRODUCTION 2. BACKGROUND A. Software Retina B. Deep Reinforcement Learning ...
- 《Deep Reinforcement Learning for Autonomous Driving: A Survey》笔记
B Ravi Kiran , Ibrahim Sobh , Victor Talpaert , Patrick Mannion , Ahmad A. Al Sallab, Senthil Yogama ...
- Deep Reinforcement Learning 深度增强学习资源
http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料 增强学习课程 David Silver (有视频和ppt): http:/ ...
- 论文笔记之:Deep Reinforcement Learning with Double Q-learning
Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特 ...
- 深度学习(19): Deep Reinforcement learning(Policy gradientinteract with environment)
Deep Reinforcement learning AL=DL+RL Machine 观察到环境的状态,做出一些行为对环境产生影响,环境根据machine的改变给予一个reward.正向的acti ...
最新文章
- HBA driver for linux
- web app小程序各种客服窗口插件
- codeup 1128: 出租车费 贪心|找规律
- 9个超级实用的 ES6 特性,超级实用哦!
- 真正聪明的人必有的4个习惯
- HDU1013 POJ1519 Digital Roots
- 英语数字听力学习软件操作
- 宾馆客房管理系统-vue前端开发
- 技术负责人如何带领好团队
- wireshark抓取手机app包
- html入门怎么换字体颜色,html怎么改字体颜色
- mini-MBA学习总结四:高效沟通
- android bilibili sd卡,移动bilibili缓存视频到SD卡
- 【ubuntu编译安装Halide】
- GB2312汉字编码字符集对照表
- Arduino驱动直流电机风扇
- truffle-contract调用合约
- C#,数值计算,解微分方程的龙格-库塔二阶方法与源代码
- 刘汝佳蓝书后缀数组模板解释及补全
- elementUIel-input和el-select宽度不一样
热门文章
- 整理照片,python批量修改名称
- 通过 PSO实现TSP问题优化
- ubuntu下搭建一个数据化处理的开发环境
- servlet第2讲(下集)----创建servlet实例(继承HttpServlet)
- 如何停止java线程
- CSP认证201509-1	数列分段[C++题解]:遍历
- java怎么画词云_Matplotlib学习---用wordcloud画词云(Word Cloud)
- 计算机语言低下限高上限,原神双雷阵容厉不厉害
- 输入矩阵包含 nan 或 inf_荣耀 V30 PRO 采用超感光电影相机矩阵
- 字典对中文字符串进行排序 python_Python基础入门:字符串和字典