No.04

智源社区

强化学习组

R

L

 习

研究

观点

资源

活动

关于周刊

强化学习是当前人工智能领域研究的热点之一,为帮助研究与工程人员了解该领域的进展和资讯,智源社区整理了第4期《强化学习周刊》,本期周刊的主题是“智慧交通”,我们整理了最近一段时间的强化学习在智慧交通方面相关的研究动态、最新论文、研究综述、教程&活动、新工具等。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

(本期贡献者:任黎明,刘延龙)

论文推荐

智慧交通作为建设智慧城市重要一环。其在不同的场景中存在是否是可行驶区域,如何躲避障碍、如何规划最短路线及交通信号、交通流量如何控制等动态决策问题。如何解决这些问题是智能交通的重点也是目前研究的难点。强化学习以马尔可夫决策过程为基础,以奖赏为准则,采取序列决策的形式去达到目的。强化学习能够有效的解决智慧交通中的问题,特别是智慧交通中的高维和无限状态问题。

强化学习在智慧交通领域有着长足的发展,在无人驾驶、交通信号控制等方向都有了深入的应用,本次推荐了6篇与强化学习在智慧交通领域应用相关的论文,内容覆盖了交通信号控制、空中交通管理、自动驾驶、乘车服务等。

标题:使用多主体深度强化学习的全网交通信号控制优化Network-wide traffic signal control optimization using a multi-agent deep reinforcement learning了解详情

简介:低效的交通控制可能会导致许多问题,例如交通拥堵和能源浪费。本文提出了一种新颖的多代理强化学习方法,名为KS-DDPG,通过增强交通信号之间的协作来实现最佳控制。通过引入支持知识共享的通信协议,每个代理可以访问所有代理收集的流量环境的集体表示。通过两个实验分别使用合成数据集和真实数据集对提出的方法进行了评估。与基于最新强化学习和传统运输方法的比较表明,所提出的KS-DDPG在控制大规模运输网络和应对交通流量波动方面具有显着的效率。另外,还证明了引入的通信机制可以在不显着增加计算负担的情况下加快模型的收敛速度。

论文链接:https://www.sciencedirect.com/science/article/pii/S0968090X21000851

标题:空中交通管理的分层多智能体强化学习方案Hierarchical multiagent reinforcement learning schemes for air trafficmanagement了解详情

简介:在这项工作中,文章研究使用分层多智能体强化学习方法来计算策略,以解决空中交通管理领域的拥塞问题。为了解决空域使用需求超过容量的情况,文章考虑了代表航班的代理,他们需要在作战前的战术阶段决定地面延误,以便在遵守空域容量限制的情况下执行其轨迹。通过将任务划分为状态和/或动作的层次结构,层次式强化学习能够处理具有高度复杂性的现实问题。为了定量评估所提出方法的解决方案的质量,并展示分层方法在解决需求-容量平衡问题中的潜力,文章提供了实际评估案例的实验结果,其中测量了每个航班的平均延误和延误航班数。

论文链接:https://link.springer.com/article/10.1007/s00521-021-05748-7

标题:A Bayesian Approach to Reinforcement Learning of Vision-Based Vehicular Control(基于视觉车辆控制的贝叶斯强化学习方法)了解详情

简介:本文提出了用于最先进的自动驾驶性能强化学习方法。该方法同时基于代理执行的动作对代理的感知空间进行聚类。且该学习算法是基于概率贝叶斯模型开发的,使代理能够理解噪音环境中的动作概率。研究结果表明,该方法提高了训练的鲁棒性以及测试性能。

论文链接:https://arxiv.org/pdf/2104.03807.pdf

标题:Improved Deep Reinforcement Learning with Expert Demonstrations for Urban Autonomous Driving(基于改进深度强化学习和专家演示的城市自动驾驶)了解详情

简介:本文通过最大化Q函数和模仿专家的行为来修改城市自动驾驶的运动控制策略网络的更新,并设计了一种自适应的体验重播方法来自适应地从代理的自我探索和专家演示中抽取经验进行策略更新。研究结果表明,该方法在自动驾驶汽车的运动控制策略中具有广阔的应用前景。

论文链接:https://arxiv.org/pdf/2102.09243.pdf

标题:Data-Driven Simulation of Ride-Hailing Services using Imitation and Reinforcement Learning(基于模仿和强化学习的数据驱动乘车服务仿真)了解详情

简介:本文提出了一个新的数据驱动的仿真框架,该框架使用模仿学习和分类深度Q网络来模拟乘车平台中的驾驶员行为进行建模。其在预测整个星期的需求和平台产生的总收入时,误差率不到10%。此外,该框架表明对于任何乘车服务,都可以使用仿真学习进行模拟。

论文链接:https://arxiv.org/pdf/2104.02661.pdf

标题:Adaptive Traffic Signal Control for large-scale scenario with Cooperative Group-based Multi-agent reinforcement learning(基于协作组多智能体强化学习的大规模场景自适应交通信号控制)了解详情

简介:本文提出了“基于协作组的自适应交通信号控制”(CGB-MATSC)的框架,以在真实的城市场景中进行大规模的智能交通灯控制。研究结果表明,该算法在综合路网及真实城市场景应用中表现出较高的有效性和可扩展性,与常规控制方法相比,其在考虑缓解交通拥堵和保护环境的条件下能更好地控制多个交叉路口。

https://www.sciencedirect.com/science/article/pii/S0968090X21000760

研究综述

基于深度强化学习的自动驾驶:研究综述了解详情

随着深度表征学习的发展,强化学习(RL)领域已成为功能强大的学习框架,能够在高维环境中学习复杂的策略。这篇综述总结了深度强化学习(DRL)算法,并提供了采用(D)RL方法的自动驾驶任务的分类法,同时解决了自动驾驶代理在现实世界部署中的关键计算挑战。它还描绘了相关领域但不是经典的RL算法的相邻领域,例如行为克隆,模仿学习,逆强化学习。讨论了模拟器在训练代理中的作用,验证,测试和增强RL中现有解决方案的方法。

论文链接:https://arxiv.org/pdf/2002.00444v2.pdf

标题:Deep Reinforcement Learning for Traffic Signal Control: A Review了解详情

简介:在世界上大多数城市地区,交通拥堵是一个复杂的、令人烦恼的、日益严重的问题。新出现的深度学习方法与传统强化学习方法的结合创造了一种称为深度强化学习(DRL)的高级方法,在解决高维复杂问题(包括交通)方面显示出了良好的效果交通堵塞。文章回顾了交通信号控制(TSC),以及应用于TSC的DRL体系结构和方法,这有助于了解DRL是如何应用于解决交通拥堵和实现性能增强的。该审查还包括仿真平台,复杂性分析,以及指导方针和设计考虑的DRL应用于TSC。最后,本文提出了有待解决的问题和新的研究领域,旨在激发人们对这一研究的新兴趣字段。到据我们所知,这是第一篇关于DRL在TSC中的应用的综述文章。

论文链接:https://www.x-mol.com/paperRedirect/13321731260307619841

新工具

LemgoRL:一个在真实模拟场景中训练交通信号控制强化学习代理的开源基准工具了解详情

本文介绍了LemgoRL,其为一个开源基准测试工具,可以在真实的仿真环境中将RL代理训练为TSC。LemgoRL提供了与众所周知的OpenAI Gym工具包相同的界面,以便在现有的研究工作中轻松部署。该基准工具推动了RL算法向现实世界应用的发展。

DeepMind :可扩展强化学习的Podracer架构了解详情

本文提出了Podracer架构并已经在JAX中实现,其将该架构统称为为支持TPU Pods上可扩展RL研究而构建的研究平台,并且描述两个有效使用TPU进行大规模强化学习研究的架构(Anakin和Sebulba),分别用于训练在线代理和分解的actor-learner代理。其在可扩展性、易于实施和维护之间找到了平衡点。研究结果表明,该框架可以提供卓越的性能,且训练成本更小。

教程

Facebook | 强化学习中的探索与利用了解详情

强化学习(RL)的一个主要挑战是在探索环境以收集信息和利用到目前为止观察到的样本来执行“好的”(近乎最佳的)行动之间进行权衡。在本研讨会中,我们将回顾在连续状态-动作空间中如何将探索技术与函数近似相结合。在整个讲座中,我们将讨论开放性问题和未来可能的研究方向。

Sergey Levine-伯克利《深度强化学习2020》课程视频及ppt分享了解详情

本课程主要讲解深度强化学习相关的基础知识,基础模型;还设计迁移学习、多任务学习和元学习。

课程主页:

http://rail.eecs.berkeley.edu/deeprlcourse/

活动

「行动派」第二季 | 自动驾驶新浪潮:智行者、地平线、文远知行、DeepMotion开讲啦了解详情

在自动驾驶领域,科技公司们又一次践行着“真香”定理!华为、小米、滴滴等巨头陆续参与进智能汽车新浪潮中,一次次的新闻大标题也不禁让人思考:智能汽车背后的驱动力是什么?为此,我们邀请到地平线、文远知行、智行者、DeepMotion与将门-TechBeat人工智能社区一起,联合策划「行动派」技术案例系列第二季——自动驾驶专题,通过一期完整的节目在线分享汽车芯片、高精地图、基础架构、操作系统等技术要点在智能出行领域的应用与发展。

GAITC 2021专题论坛丨智能驾驶:人工智能与汽车的深度交融了解详情

5月29日至30日,由中国人工智能学会主办的2021全球人工智能技术大会(GAITC 2021)将在杭州举办。本届大会重装升级,集会议、展览、大赛三位一体,打造一个立体呈现智能科技创新前沿的综合性平台。大会期间将举办20余场专题论坛,5月30日,由CAAI智能驾驶专委会主任邓伟文教授、CAAI机器学习专委会主任陈松灿教授担任论坛主席的《动态开放环境下的汽车智能驾驶专题论坛》将拉开帷幕。

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→强化学习”)

《强化学习周刊》第4期:强化学习应用之智慧交通相关推荐

  1. 深度学习算法(第5期)----深度学习中的优化器选择

    欢迎关注微信公众号"智能算法" – 原文链接(阅读体验更佳): 深度学习算法(第5期)----深度学习中的优化器选择 上一期,我们一起学习了TensorFlow在训练深度网络的时候 ...

  2. 深度学习三人行(第5期)----深度学习中的优化器选择

    上一期,我们一起学习了TensorFlow在训练深度网络的时候怎么解决梯度消失或梯度爆炸的问题,以及怎么尽可能的减少训练时间. 深度学习三人行(第4期)---- TF训练DNN之进阶 这期我们继续学习 ...

  3. 【组队学习】【24期】数据挖掘实践(智慧海洋)

    数据挖掘实践(智慧海洋) 开源内容: https://github.com/datawhalechina/team-learning-data-mining/tree/master/wisdomOce ...

  4. 深度学习算法(第37期)----如何用强化学习玩游戏?

    上期我们一起学习了强化学习中的时间差分学习和近似Q学习的相关知识, 今天我们一起用毕生所学来训练一个玩游戏的AI智能体. 由于我们将使用 Atari 环境,我们必须首先安装 OpenAI gym 的 ...

  5. 《因果学习周刊》第9期:因果学习中的工具变量

    No.09 智源社区 因果学习组 因 果 学  习 研究 观点 资源 活动 关于周刊 因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  6. 深度学习三人行(第8期)----卷积神经网络通俗原理

    上一期,我们一起学习了深度学习中如何避免过拟合, 深度学习三人行(第7期)----深度学习之避免过拟合(正则化) 接下来我们一起学习下网红网络之卷积神经网络(CNN),我们多多交流,共同进步.本期主要 ...

  7. 深度学习三人行(第10期)----CNN经典网络之LeNet-5和AlexNet

    上一期,我们一起学习了深度学习卷积神经网络中的代码实现,内存计算以及池化层的原理等, 深度学习三人行(第9期)----卷积神经网络实战进阶(附代码) 接下来我们一起学习下关于CNN中比较经典的网络Le ...

  8. 实现车辆检测+安全算法,玩转智慧交通AI应用!AidLux实战训练营第二期圆满收官

    10月下旬,我们联合AI行业大V江大白举办了以智慧安防为主题的AI训练营. 在众多开发者的肯定与呼声之中,我们又在11月下旬开展了新一期的AI实战训练营! 并邀请了国内大厂AI图像资深算法工程师Roc ...

  9. 《强化学习周刊》第40期:PMIC多智能体强化学习、Lazy-MDPs、CTDS

    No.40 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

  10. 《强化学习周刊》第39期:近似最优深度、多智能体广义、角色动画强化学习...

    No.39 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

最新文章

  1. 武汉理工大学计算机复试笔试重要吗,2017武汉理工计算机复试
  2. eas 在linux下安装_有在linux系统安装eas7.5的没???求指点
  3. 【每日一算法】有效的括号
  4. 用python编程、假设一年期定期利率_python,练习题网站.doc
  5. 使用存储过程将文本导入数据库表
  6. springMVC 几种页面跳转方式
  7. Dockerfile文件创建centos:7,配置JDK8的环境变量,与运行springboot的jar包,的镜像
  8. 树形DP求树的最小支配集,最小点覆盖,最大独立集
  9. 请画图说明tcp/ip协议栈_5年Android程序员面试字节跳动两轮后被完虐,请查收给你的面试指南 - Android木子李老师...
  10. JAVA标识符中含小数点可以吗_数值类型小数点后是否可以接零问题
  11. Python3 爬虫学习笔记 C11【数据储存系列 — MongoDB】
  12. 机器人把大龙拉出来_LOL-LPL夏季赛:Wei男枪打野未换惩戒 ES让BLG拿下首胜
  13. UltraNumTextBox【实现所有数字输入的同时,可以控制当控件禁用时ForeColor】
  14. l455在线清零服务器,爱普生epson l455清零软件官方版
  15. 数字图像处理(冈萨雷斯版)期末总复习
  16. kmz转换为dwg_徐州网站设计_seo优化常用技巧:什么软件可以将PDF文件转换为DWG文件...
  17. linux运行blast,Linux下BLAST的使用
  18. stm32 /*定时器ETR外部时钟初始化配置
  19. php 一键wifi,懒人全自动脚本,一键自动swap2c一键3d加速,一键wifi加速等等.doc
  20. 乐拼拼购系统开发(源码成品)

热门文章

  1. python框架flask系列(2),Python的Web框架之Flask(2)
  2. ftp 追加远程文件_ftp上传,完成ftp定时上传、下载只需3步
  3. win2008 mysql优化_SQL server 2008 数据库优化常用脚本
  4. vs发生生成错误_S7报告系统错误:
  5. Spark采坑系列(三)Spark操作Hive的坑
  6. 安装Visual C ++进行跨平台移动开发
  7. Exchange Server 2010 全新部署篇九:CASHUB中客户端访问功能配置篇
  8. 大数据处理语言U-SQL介绍
  9. struts2的文件上传和文件下载
  10. pop弹框 点击弹出外任意区域消失