文章脉络【Dueling DQN+Prioritized Memory ,2019年TVT】

  • 1、贡献
    • 1)首次将dueling network,target network,double DQN 和prioritized experience replay结合在一起。
    • 2)提出了一种在整个周期内确定相位持续时间的控制系统,而不是将时间分段。
    • 3)在SUMO上进行实验。
  • 2、问题定义
    • 1)状态
    • 2)动作
    • 3)奖励
  • 3、网络结构
    • A、CNN
    • B、Dueling DQN
    • C、Target network
    • D、Double DQN
    • E、具有优先级的经验回放
    • F、优化
    • 算法整体伪代码
  • 4、实验

1、贡献

1)首次将dueling network,target network,double DQN 和prioritized experience replay结合在一起。

2)提出了一种在整个周期内确定相位持续时间的控制系统,而不是将时间分段。

3)在SUMO上进行实验。

2、问题定义

1)状态

将路口分割成大小相同的小正方形,每个网格是车辆的状态值**<位置,速度>**。
位置是0或1【有车辆和没有车辆】 ,当该位置有车辆时对应显示其速度值[实数]。

2)动作

改变的是相位的持续时间,每次加5s。最大持续时间是60s,最小是0s。
例如下图,当前位于t1时刻,下一时刻有以下8种变化方案。

交通信号按照顺序循环变化,两个相邻相位之间需要一个黄灯来作为过渡,黄灯时间计算公式为:道路允许最大速度/车辆减速的加速度

3)奖励

将奖励定义为两个相邻周期之间的累计等待时间的变化

3、网络结构

A、CNN

由三个卷积层和几个全连接层构成,激活函数使用Leacky ReLU。

B、Dueling DQN

将Q网络分割成两部分:价值函数与优势函数。在实际使用中使用“当前选择动作的优势值减去平均值”,能够提高稳定性。

C、Target network

采用目标网络帮助指导更新过程,解耦目标值与实际值估计,通过冻结目标值的方式,使神经网络的更新更加稳定。
目标网络参数的更新采取下式:

加入目标网络后,整个神经网络的损失值表达式为:

D、Double DQN

为了缓解DQN算法过度估计问题,有学者提出采取当前Q网络的最大动作,而不是选择target网络中Q值最大的对应的动作。
因此,目标Q值的计算公式变为:

E、具有优先级的经验回放

DQN中最重要的一部分就是经验回放,通过经验回放可以调整抽取样本的分布,使其符合独立同分布,同时可以降低抽取的样本之间的相关性。
样本的优先级【采样概率】常采用两种方式计算:基于比例和基于等级。本文中采用的是基于等级方法,即将转移序列的时间差分误差项作为评价优先级的标准。
TD-error的计算公式如下:

转移序列i的采样概率:
对转移序列根据TD-error进行排序,优先级就是其排序的倒数。

F、优化

采用Adam方式???

算法整体伪代码

4、实验

A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】相关推荐

  1. Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

    Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...

  2. 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现

    之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...

  3. DEEP ACTIVE LEARNING FROM MULTISPECTRAL DATA THROUGHCROSS-MODALITY PREDICTION INCONSISTENCY 论文阅读

    (1)基本信息 这篇文章是基于半监督的模式来做跨模态行人检测的,引入了主动学习的方法,意在使用少量标注信息达到和全监督跨模态数据集一样的效果: 提出当两种模态检测结果相反时,至少有一种模态是检测错误的 ...

  4. 论文记载: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks

    强化学习论文记载 论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯 ...

  5. 【论文笔记】Deep Reinforcement Learning Control of Hand-Eye Coordination with a Software Retina

    目录 Abstract Keywords 1. INTRODUCTION 2. BACKGROUND A. Software Retina B. Deep Reinforcement Learning ...

  6. 《Deep Reinforcement Learning for Autonomous Driving: A Survey》笔记

    B Ravi Kiran , Ibrahim Sobh , Victor Talpaert , Patrick Mannion , Ahmad A. Al Sallab, Senthil Yogama ...

  7. Deep Reinforcement Learning 深度增强学习资源

    http://blog.csdn.net/songrotek/article/details/50572935 1 学习资料 增强学习课程 David Silver (有视频和ppt): http:/ ...

  8. 论文笔记之:Deep Reinforcement Learning with Double Q-learning

    Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特 ...

  9. 深度学习(19): Deep Reinforcement learning(Policy gradientinteract with environment)

    Deep Reinforcement learning AL=DL+RL Machine 观察到环境的状态,做出一些行为对环境产生影响,环境根据machine的改变给予一个reward.正向的acti ...

最新文章

  1. HBA driver for linux
  2. web app小程序各种客服窗口插件
  3. codeup 1128: 出租车费 贪心|找规律
  4. 9个超级实用的 ES6 特性,超级实用哦!
  5. 真正聪明的人必有的4个习惯
  6. HDU1013 POJ1519 Digital Roots
  7. 英语数字听力学习软件操作
  8. 宾馆客房管理系统-vue前端开发
  9. 技术负责人如何带领好团队
  10. wireshark抓取手机app包
  11. html入门怎么换字体颜色,html怎么改字体颜色
  12. mini-MBA学习总结四:高效沟通
  13. android bilibili sd卡,移动bilibili缓存视频到SD卡
  14. 【ubuntu编译安装Halide】
  15. GB2312汉字编码字符集对照表
  16. Arduino驱动直流电机风扇
  17. truffle-contract调用合约
  18. C#,数值计算,解微分方程的龙格-库塔二阶方法与源代码
  19. 刘汝佳蓝书后缀数组模板解释及补全
  20. elementUIel-input和el-select宽度不一样

热门文章

  1. 整理照片,python批量修改名称
  2. 通过 PSO实现TSP问题优化
  3. ubuntu下搭建一个数据化处理的开发环境
  4. servlet第2讲(下集)----创建servlet实例(继承HttpServlet)
  5. 如何停止java线程
  6. CSP认证201509-1 数列分段[C++题解]:遍历
  7. java怎么画词云_Matplotlib学习---用wordcloud画词云(Word Cloud)
  8. 计算机语言低下限高上限,原神双雷阵容厉不厉害
  9. 输入矩阵包含 nan 或 inf_荣耀 V30 PRO 采用超感光电影相机矩阵
  10. 字典对中文字符串进行排序 python_Python基础入门:字符串和字典