来源：海豚数据科学实验室

深度强化学习是近年来热起来的一项技术。深度强化学习的控制与决策流程必须包含状态，动作，奖励是三要素。在建模过程中，智能体根据环境的当前状态信息输出动作作用于环境，然后接收到下一时刻状态信息和奖励。

以众所周知的AlphaGo为例，盘面就是当前的状态，动作就是下一步往哪里落子，奖励就是最终的输赢。整个强化学习过程就是不断与环境交互，在交互的过程中产生数据，并利用这些交互产生的数据来学习的过程。正是在深度强化学习的帮助下，AlphaGo得以横扫世界级顶尖棋手。所以相比于有监督学习方法，深度强化学习在特定场景下可以达到超越人类的水准。

在围棋领域大放异彩之后，深度强化学习也在不断地拓展着自己的疆域，游戏、金融等越来越多的领域也出现了深度强化学习的身影。现代城市作为人类生产、生活的核心区域，是一个汇聚了交通、物流、能源等多个产业的复杂综合体。如果能够优化这种复杂结构，那么将会带来巨大的社会价值。而强化学习恰好可以做到这件事情。本文将为大家介绍几个强化学习在智能城市领域的应用案例。

智能交通

在城市各种各样的交通场景中，会遇到各种各样的资源配置和交通调度难题。如图3（a）所示，在一个典型的救护车辆调度场景中，救护车需要不断地往返于患者和救护车站点。救护车的接车时间在很大程度上取决于移动救护车的动态重新部署策略。也就是说，在救护车可用之后，应该把它调到哪个车站。重新调配现有救护车会影响未来接载病人的时间。例如在图3（b）中，未来将有3名患者来到1号站附近，因此将现有的救护车1号重新部署到1号站，通过从1号站派遣救护车，可以使这些患者迅速被接走。

图1 救护车调度场景

这一问题依然可以利用强化学习的方法来求解。文章将需要调度的救护车都被作为智能体，建模的核心就是确定相应的状态、动作以及奖励。在这一场景中，影响救护车效率的因素主要包括未来车站附近的病人数量、车站救护车的数量以及救护车与车站的距离等。将这些指标进行一定的转化，就可以提炼出病患密度、旅程时间等多个相关因子。这些相关因子就可以被作为输入状态。在这一场景中，决策变量，也就是救护车在完成接送任务后，被部署到不同的站点，就是智能体的动作。而优化目标，也就是将接载病人的时间，就是智能体的奖励，时间越短，奖励越大。理想情况下，每一辆救护车智能体都能够找到一种优势策略，让平均接送时间最短。接下来，文章引入深度强化学习算法，对这一场景进行很好地求解。

文章使用在真实世界中收集的数据集来评估动态救护车重新部署方法。实验结果表明，基于深度强化学习的救护车的重新部署方法明显优于最先进的基准方法。具体来说，与基准方法相比，基于深度强化学习的方法可以将10分钟内接诊的患者比例从0.786提高到0.838，节省平均接诊时间约20%(约100秒)。为了能够增加及时拯救病人的可能性，每一秒都是至关重要的。

在交通场景中，还有很多与之相似地调度问题，例如共享单车调度、公交车辆路线规划、出租车/网约车调度等。在这些场景中，都可以使用与之相类似的方法。此外，随着物联网技术的发展，未来各行各业的管理将进一步扁平化。一大批新的场景也会涌现出来。例如，交通信号灯的控制优化、自动驾驶的控制于决策，无人车辆的调度都属于深度强化学习的应用场景。所以，强化学习技术在未来将会在未来的智能交通中起到重要作用。

智能物流

物流的发展极大地方便了人们，促进了电子商务的发展。但庞大的运单量却带来了很多管理问题，行业派单效率和配送效率普遍低下，导致了大量劳动力浪费。在快递领域，配送员的任务量不均衡现象是普遍存在的。这导致部分快递员任务量过饱和或不足。如果能够根据任务的不同，动态规划出每一个快递员的任务进行规划，那么就可以减弱这种资源不均衡现象，来提高资源利用率和任务完成率。但在现实中，快递员需要同时肩负配送和取件两项职能，还要兼顾整体地配送效率更高，这无疑会增加问题的复杂度。文章[2]利用深度强化学习来解决这一问题。

在文章中，作者将整个空间粗略地划分成若干小区域，由图4中的小方格来表示。其中A、B、C分别表示三个快递员c1、c2、c3在每一个小区域的剩余配送量，其中阴影的小区域表示快递员当前的位置。D和G表示每一个小区域待取件的数量。F和H分别表示以快递员c1、c2为视角，其他快递员的位置。E表示快递员c1由位置g3到达位置g2。在真实场景中，影响快递员路线规划的因素，包括剩余的配送位置、待取件的位置、队友的位置、队友的行进路线等，基本都可以被这一图结构表达出来。所以这一图结构就作为智能体的状态。而智能体的动作则是快递员的前进方向，如向左还是向右，奖励就是为快递员完成的任务量。完成的任务越多，奖励越大。同样，在确定了这三维核心指标后，就可以引入深度强化学习算法来求解。

图2

我们可以推断出，除了快递员的路径选择，车辆的运输、调度，也属于相似的场景，也可以使用相似的方法来解决。甚至大型物流仓储管理，也可以利用强化学习来建模。

智能能源

锅炉燃烧优化是一个典型的智能控制场景。电站锅炉系统高度复杂，包含磨煤、燃烧、水汽循环等多个环节，一个普通600MW中型火电机组就拥有上万个传感器测点，内部涉及燃烧、风烟、水热循环等众多物理化学过程非常复杂。纯粹使用机理建模的方法很难对如此复杂的系统做精准化建模，导致系统描述失准，影响优化效果。

从控制优化角度来讲，火电燃烧优化涉及上百个主要控制量（例如机组内部各种锅炉给煤量、各种风门、阀门开度等），而且这些变量均为连续变量（例如某个阀门开度20%和开度25%可能对机组运行带来非常不同的影响）。与此同时，当前动作所造成的影响往往不能够实时反馈，所以还需要考虑到长期的影响。对于如此复杂的场景，即便是有多年丰富经验的运行人员，也很少能够总结出一套高效的调节策略。所以此类复杂系统高维连续变量控制优化问题是世界性的难题。

图3 火电锅炉运行流程

而深度强化学习恰恰适合来做这件事情。图2展示了我们基于强化学习的建模流程。对于一个典型的锅炉环境，我们可以得到很多的传感器提供系统的状态描述，例如锅炉中各种温度、风量、水量、压力等监测值。我们可以把这些实时反馈的监测值作为状态，也就是智能体能够“看到”的东西。然后我们将给煤量、各种风门、阀门开度等控制变量作为动作。

在确定了状态和动作，我们利用一个业务指标（燃烧效率）作为奖励。智能体依据当前的状态输出动作，对锅炉控制参数进行调节，锅炉环境就会产生一个变化，到达一个新的状态，如果燃烧效率朝着好的方向变化，我们就给一个正向的奖励，如果是不好的变化，我们可以给一个负向的奖励。在完成了建模工作后，我们接下来通过合理的学习算法，就可以学习出更好的策略。

学习算法通过观察很多的从状态和动作到下一个状态的变化过程，从中抽象状态——动作——奖励的对应模式，最终找到一个最佳的控制策略，可以从当前的状态映射到最佳的控制（动作）变量，实现长期平均奖励的最大化。

在上机实测过程中，基于强化学习的控制策略相比于人类操作达到了0.5%的效率提升，对于一台600MW机组，相当于年经济效益240万元。与此同时，我们已经实现了对于AI模型的产品化，具备了批量复制的能力，并在多个电厂落地并完成了验收。

图4 基于强化学习的燃烧优化智能体

除了燃烧优化场景意外，在火电中，我们也已经将强化学习方法用在了磨煤机控制优化、冷端优化等场景中，并取得了很好的效果。上文所述的控制场景，强化学习也可以在温度控制、电网调度、能源管理等领域得到应用。另外，火电锅炉的控制属于典型的过程控制。在工业生产中，水泥生产过程中的磨机控制，机场ACDM系统中的车辆与人员调度、停机位优化，以及钢铁制造、化工等工业场景也均属于相似的场景。在这些场景中，可以提炼出来大量的控制与优化问题，深度强化学习技术也具有着广阔的空间。

通过案例我们可以看到，对于一个现实中的场景，如果能够确定影响的相关因素、优化动作以及优化目标，深度强化学习技术将可以隆重登场了。而这些场景在我们的生产生活中是大量存在的。所以在未来的智能城市与产业中，深度强化学习技术会起到重要的作用。但是就目前来说，深度强化学习的落地仍存在一些局限。这其中一部分原因是算法的学习效率仍不够高效，适应场景也较为狭窄，另外一部分原因是目前很多行业的数字化程度还比较低。但随着物联网时代的到来，这一问题将会被逐步解决。与此同时，随着大批研究人员的前仆后继，深度强化学习本身的技术也在不断地迭代发展，算法适用的范围也越来越广泛。未来的发展一定越来越好。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏近千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

20210716未来智能实验室收录资料

特别推荐：置顶收录未来智能实验室在人民日报《学术前沿》发表的城市大脑最新综述研究论文和报告《城市大脑的起源、发展与未来趋势》

本期收录前沿科技进展材料52篇

1.《科学》：媲美AlphaFold2的蛋白质结构预测新工具问世，一台游戏计算机十分钟出结果，完全免费

2.清华团队综述全面解读图神经网络理论方法与应用

3.芯片行业76个细分领域企业（国内对比国外）

4.前沿丨DeepMind最新论文：强化学习“足以”达到通用人工智能

5.元宇宙深度研究报告：元宇宙是互联网的终极形态？

6.5G+AI专题研究报告：复盘华为小米、苹果高通布局AIoT，把握万物互联、万物智能的黄金十年 | 附完整报告下载

7.计算机起源的数学思想

8.《中国互联网发展报告（2021）》发布：2020年我国大数据产业规模达718.7亿元，增幅领跑全球

9.服务机器人能为智慧城市做什么？

10.迈向纠错量子计算机 |《自然》论文

11.AIIA 发布《脑机接口技术在医疗健康领域应用白皮书》

12.谷歌量子计算团队再发Nature！逻辑错误抑制实现100倍增长，或为容错量子计算机研发铺平道路

13.DNA数字信息存储：造梦、追梦与圆梦

14.2021年上半年全球网络空间发展态势综述

15.人脑启发AI设计：让神经网络统一翻译语音和文本

16.RISC-V生态未来的三种可能~

17.中国互联网发展报告（2021）

18.全球智能制造趋势

19.详解数字孪生应用的十大关键问题！

20.中国信通院发布《下一代数据存储技术研究报告（2021年）》（附pdf）

21.Neuron：大脑如何调整适应环境的变化？最新研究揭示目标导向行为的调控作用机制

22.漫谈实时操作系统！

23.蔚来、小鹏、理想自动驾驶能力的纵向演进与横向比较

24.深度学习精炼图笔记总结

25.Hinton，Lecun 和 Bengio 三巨头联手再发万字长文：深度学习的昨天、今天和明天

26.深度学习精炼图笔记总结

27.RISC-V生态未来的三种可能~

28.长航时无人机关键技术研究进展

29.人脑启发AI设计：让神经网络统一翻译语音和文本

30.华为最新发布：AI 赋能智慧城市白皮书（附下载）

31.深度解析：氢能产业链全景梳理

32.OPPO：AI-Cube赋能的6G网络架构

33.首篇NLP领域图神经网络综述：127页，从图构建到实际应用面面观

34.2021认知智能发展研究报告

35.我们是不是对AI过于乐观了？关于AI认识的4个误区

36.深度解析：氢能产业链全景梳理

37.时空人工智能赋能数字孪生城市白皮书（2021）

38.【SIGMOD2021-清华】数据库与人工智能交叉技术综述: AI4DB和DB4AI，附Slides与论文

39.面向未来的智能驾驶关键设计要素：融合定位

40.为AI开辟新路径，科学家提出新型人造纳米线神经形态网络

41.神经网络的工作原理介绍

42.CCCF专栏 | 李国杰：有关人工智能的若干认识问题

43.AI 显微镜：更清晰、更快速、更精确

44.数学哲学：对数学的思考

45.数学哲学

46.前沿丨DeepMind最新论文：强化学习“足以”达到通用人工智能

47.脑磁图仪的前世今生与未来

48.数字孪生园区总体建设方案(ppt)

49.液态金属传感器与人工智能：让假肢手具备更好的触觉！

50.2021年认知智能发展研究报告（附42页PDF全文）

51.GPU的发展历程、未来趋势及研制实践

52.深度强化学习在智能城市领域应用介绍

深度强化学习在智能城市领域应用介绍相关推荐

时空AI技术：深度强化学习在智能城市领域应时空AI技术：深度强化学习在智能城市领域应用介绍...
来源:海豚数据科学实验室作者:京东科技时空AI团队深度强化学习是近年来热起来的一项技术.深度强化学习的控制与决策流程必须包含状态,动作,奖励是三要素.在建模过程中,智能体根据环境的当前状态信息输 ...
时空AI技术：深度强化学习在智能城市领域应用介绍
深度强化学习是近年来热起来的一项技术.深度强化学习的控制与决策流程必须包含状态,动作,奖励是三要素.在建模过程中,智能体根据环境的当前状态信息输出动作作用于环境,然后接收到下一时刻状态信息和奖励.以众 ...
基于深度强化学习的智能船舶航迹跟踪控制
基于深度强化学习的智能船舶航迹跟踪控制人工智能技术与咨询昨天本文来自<中国舰船研究> ,作者祝亢等关注微信公众号:人工智能技术与咨询.了解更多咨询! 0. 引言目前,国内外 ...
基于深度强化学习的智能汽车决策模型
1.基于深度强化学习的智能汽车决策模型以神经网络为核心的智能体最主要的优势在于其依靠大量的数据自主学习的能力,通过数据驱动智能体可以应对各种未经历过的复杂环境.强化学习是一种经典的智能系统设计方案, ...
AI 大战 AI，一个深度强化学习多智能体竞赛系统
小伙伴们快看过来!这是一款全新打造的 ⚔️ AI vs. AI ⚔️--深度强化学习多智能体竞赛系统. 这个工具托管在 Space 上,允许我们创建多智能体竞赛.它包含三个元素: 一个带匹配算法的 S ...
DeepMind 综述深度强化学习：智能体和人类相似度竟然如此高！
来源:AI科技评论近年来,深度强化学习(Deep reinforcement learning)方法在人工智能方面取得了瞩目的成就,从 Atari 游戏.到围棋.再到无限制扑克等领域,AI 的表现都 ...
Github 1300+ 星！旷视开源的深度强化学习绘画智能体论文解读
借助于强化学习,AI也能画画了.上图为旷视提出的绘画机器人画故宫的过程. 本文中旷视研究院介绍了团队在机器仿人类绘画方面的最新研究,方法在四个大型数据集上表现优异.通过结合深度强化学习方法和神经网络渲 ...
基于深度强化学习的智能车间调度方法研究
摘要: 工业物联网的空前繁荣为传统的工业生产制造模式开辟了一条新的道路.智能车间调度是整个生产过程实现全面控制和柔性生产的关键技术之一,要求以最大完工时间最小化分派多道工序和多台机器的生产调度.首先, ...
中科院自动化所介绍深度强化学习进展：从AlphaGo到AlphaGo Zero
来源:德先生概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展: 从AlphaGo ...

深度强化学习在智能城市领域应用介绍

智能物流

深度强化学习在智能城市领域应用介绍相关推荐

最新文章

热门文章