《基于强化学习的城市交通信号控制方法研究》

针对TC-GAC交通信号控制方法中只考虑局部拥堵因子的缺陷,引入车辆目的车道的全局拥堵因子,实现了多交叉口控制器Agent之间的简单协作。
由于强化学习迭代求解的过程极为耗时,考虑将启发式强化学习用于交通信号控制问题。通过启发式函数来引导状态动作空间的探索,加快学习速度,改善动作选择策略。
改进的基于信号灯-交叉口联合动作的协作图模型,通过Max-Plus算法实现协作

强化学习用于交通信号控制

交通建模

1)宏观交通建模: 模拟多重交通流特性,如速度、密度、流量等,同时模拟这些特性之间的关系。宏观模型中的仿真是发生在一段一段的道路上,而不是对单独的车辆进行模拟跟踪,不能用来建模车辆之间的交互。
2)微观交通建模: 模拟单个车辆,模拟的动态变量表示微观属性,如单个车辆的速度和位置等。一种设计和模拟车辆行驶规则的方法是采用元胞自动机(CA)

交通信号控制的状态描述

1)基于信号灯的状态: 表示交叉口周围所有可能的交通状况。因为有太多可能的交通状况,这将导致学习空间爆炸问题。
2)基于车辆的状态: 从单个车辆的角度去描述交通状态。值函数评估单个车辆的等待时间,交叉口控制器Agent决策时考虑交叉口周围的所有车辆。

基于模型的强化学习用于交通信号控制

Wiring等人将基于模型的强化学习方法用于交通信号控制【10,11】,即TC1方法,采用基于车辆的状态描述方法进行交通建模。

Bakker和Kuyer等人在TC1方法的基础上,增加了交叉口之间的协作,提出改进方法。

一种是考虑相邻交叉口的拥堵情况,提出了 TC-SBC、TC-GAC、TC-SG【12,13】。
TC-SBC:增加了一位状态空间,用来标识车辆下一目的车道的拥堵情况
TC-GAC:直接在动作决策阶段计算车辆下一目的车道的拥堵因子c,然后用(1-c)对每个车辆的收益值进行折扣
TC-SG:前两者方法的结合

另一种是基于协作算法。如基于协作图建模和Max-Plus算法。


建立于全局拥堵因子的改进控制方法

在TC1方法中,交叉口控制器单独地进行动作决策。因此可以考虑实现简单的协作。
TC-GAC方法中,只考虑车辆的下一目的车道的拥堵因子。本文认为交叉口之间都是相互影响的,应该对全局拥堵因子进行考虑,考虑车辆从当前位置到目的地所要经过的所有目的车道拥堵因子的线性组合

读书笔记 - 基于强化学习的城市交通信号控制方法研究 - 西电MaxPlus相关推荐

  1. 交通计算机专业硕士论文,基于强化学习的交通拥堵控制方法研究-计算机技术专业论文.docx...

    基于强化学习的交通拥堵控制方法研究摘 基于强化学习的交通拥堵控制方法研究 摘要 由于汽车保有量的持续增长,交通拥堵问题已经成为世界各国城市发展中出 现的公共问题.单纯的基础设施建设能够在一定程度上缓解 ...

  2. 论文阅读|Nash Q-Learning for General-Sum Stochastic Games基于强化学习的多智能体研究(附代码)

    论文:Nash Q-learning for general-sum stochastic games 链接:http://www.jmlr.org/papers/volume4/hu03a/hu03 ...

  3. 读书笔记 - 智能体技术在城市交通信号控制系统中应用综述2014

    <智能体技术在城市交通信号控制系统中应用综述>-2014 文中综述了智能体技术在交通信号控制系统中应用的技术与方法,包括系统架构.控制算法.建模与仿真,以及智能交通集成管理等方面:以及具体 ...

  4. 机器学习读书笔记:强化学习

    文章目录 强化学习基本模型 K-摇臂赌博机模型 ϵ\epsilonϵ-贪心 Softmax 有模型学习 策略评估 策略改进 免模型学习 蒙特卡洛强化学习 采样 策略改进 时态差分学习 值函数近似 模仿 ...

  5. 论文浅尝-综述 | 基于强化学习的知识图谱综述

    转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...

  6. 读书笔记 - 多智能体强化学习在城市交通网络信号的综述2018

    多智能体强化学习在城市交通网络信号 控制方法中的应用综述 交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境, 将每个路口的交通信号控制器看做一个异质的智能体, 非常适合采用无模型.自 ...

  7. 【论文笔记】基于强化学习的机器人手臂仿人运动规划方法

    文章目录 摘要 关键词 0 引言 学者研究 阶段一:采集运动数据,分析运动过程特征 阶段二:设计仿人变量.建立仿人标准和约束 阶段三:用智能算法提升仿人运动机器人性能 本文工作 1 问题描述及方法架构 ...

  8. 【论文笔记】基于强化学习的连续型机械臂自适应跟踪控制

    文章目录 摘要 关键词 0 引言 1 空间连续型机器人动力学模型 1.1 场景假设 (1) 环境假设 (2) 模型假设 1.2 公式分析 2 空间连续型机器人滑模控制器 3 基于强化学习的滑模控制器 ...

  9. 华为诺亚ICLR 2020满分论文:基于强化学习的因果发现算法

    2019-12-30 13:04:12 人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文 ...

最新文章

  1. 使用Python统计Linux系统内存
  2. ngrok linux开机自启动,CentOS 搭建ngrok服务器
  3. CodeForces - 1174D Ehab and the Expected XOR Problem(构造+思维+位运算)
  4. java语言sql接口_Java语言SQL接口
  5. 吴恩达机器学习(十六)机器学习流水线、上限分析
  6. ijkplayer框架详解
  7. Web渗透测试之信息收集
  8. 5年500台达芬奇手术,和睦家实现技术升级
  9. ERP项目组成员及各项目组职责
  10. 中间件系列七 RabbitMQ之header exchange(头交换机)用法
  11. 怎样允许计算机远程桌面连接,win10允许远程桌面连接如何设置_win10怎样设置允许远程桌面连接...
  12. 微信公众号订阅消息 wx-open-subscribe 的实现及闭坑指南
  13. 电池充电电路(TP4059)详解
  14. Oracle 12.2 Flex ASM安装RU后ASM、GIMR等资源未启动, 手动启动提示CRS-2549“it is not a valid candidate as per the place
  15. ROS2—小海龟仿真器基础使用
  16. vue实现调查问卷一页一题,上一题下一题形式
  17. 引力魔方扣费方式是什么?引力魔方有什么功能?
  18. 合约机和裸机的区别介绍 苹果iphone合约机机卡分离方法
  19. 云南艺术学院艺考开考 万人追逐艺术梦
  20. Android:AppBarLayout设置elevation为0,结果消失

热门文章

  1. 项目管理(PMO的作用)
  2. 如何刷新 DNS 缓存 (macOS, Linux, Windows)
  3. 地球出现Bug了?昨天大量网友手机时间集体变慢10分钟
  4. 耶鲁 计算机科学,耶鲁大学计算机科学世界排名2019年最新排名第16(THE世界排名)...
  5. CAD2020学习笔记2
  6. 文件服务器多大内存,文件服务器需要多大内存支持
  7. 基于Tensorflow的BEGAN实现
  8. linux内核c语言笔试,C语言之linux内核--BCD码转二进制与二进制转BCD码(笔试经典)...
  9. 22.11.25打卡 2022河南萌新联赛第(二)场:河南理工大学 AFJL
  10. 解决以太网适配器的驱动程序可能出现问题