Towards Smart Transportation System:A Case Study on the Rebalancing Problem of Bike Sharing System Based on Reinforcement Learning

作者：
Li, GF (Li, Guofu) ; Cao, N (Cao, Ning) ; Zhu, PJ (Zhu, Pengjia) ; Zhang, YW (Zhang, Yanwu) ; Zhang, YY (Zhang, Yingying) ; Li, L (Li, Lei) ; Li, QY (Li, Qingyuan) ; Zhang, Y (Zhang, Yu)
期刊：IGI Glob ，链接
doi: 10.4018/JOEUC.20210501.oa3
关键字：Bike Sharing System, Machine Learning, Optimal Transportation Problem, Rebalancing Problem, Reinforcement Learning, Smart Transportation

摘要

智能交通系统是一个跨领域的研究课题，涉及管理大规模系统的组织和享受这些服务的个人最终用户。基于机器学习的算法的最新进展使其能够或改进了广泛的应用，因为它在以最少的领域知识和强大的泛化能力对复杂问题进行精确预测方面具有优势。这些优良的特性意味着在构建智能交通系统方面的潜力。本文研究了如何使用深度强化学习deep reinforcement learning（DRL）来优化现代自行车共享系统中的操作策略。作为案例研究，作者通过展示基于策略梯度的强化学习方法来解决自行车共享系统中的再平衡问题，展示了现代DRL的潜在威力，该方法可以同时改善用户体验和降低运营成本。

1. INTROdUCTION

新出现的智能（或智能）交通系统概念为作为最终用户的个人公民和作为服务提供商的大型组织带来了好处。构建智能交通系统涉及物理基础设施建设、完善法律法规、完善管理和运营政策等（Albino、Berardi和Dangelico，2015）。因此，这类服务需要的不仅仅是相关对象的网络连接，而在软件和管理层（Zhang，Thomas，Brussel&van Maarseveen，2016）系统内部构建的智能也是至关重要的。例如，优化自行车共享系统可能需要一长串决策，比如自行车站的最佳数量和位置（Lin&Yang，2011）。

智能交通系统最近的成就主要归功于物联网技术的发展，物联网技术将分散的物理物体连接成一个大规模网络。这种网络的规模吸引了BigData研究领域的兴趣（Hashem，Chang，Anuar等人，2016；Chourabi，Nam，Walker等人，2012）。基于这些基础设施，现在的问题是如何实现“智能”行为。依靠技术来实现“智能”的传统方法需要在问题建模和变量选择方面进行细致的人工劳动（Villani，2008；Zhang，Wang，et al，2011；Lippi，Bertini&Frasconi，2013），这很难概括和传递。相比之下，基于现代深度学习的方法由于其通用函数逼近和端到端学习的能力，能够统一解决各种问题（Lecun，Bengio&Hinton，2015），因此提供了一个弥补这一缺失的绝佳机会。在本文中，我们特别关注智能交通系统中的策略优化问题，这对用户体验和组织运营成本都至关重要。

强化学习Reinforcement learning（RL）作为机器学习的一个分支，旨在优化长期总体回报，并已在优化交通系统中进行了研究（Arel，Liu，Urbanik&Kohls，2010；Khamis&Gomaa 2014；Zolfpour Arokhlo，Selamat，Hashim&Afkhami，2014）。本文认为，DRL 在优化大型交通系统中的资源分配和调度方面具有特殊优势，并在自行车共享系统 bike sharing system（BSS）的再平衡问题上进行了测试（Demaio，2009；Shaheen，Guzman&Zhang，2010）。与之前的方法，如最优运输 Optimal Transportation（OT）（Villani，2008；Courty，Flamery，Remi等人，2015）或提货和交付问题Pickup and Delivery Problem （PDP）（Savelsbergh，Sol&1995）相比，RL方法只需要很少的环境动力学先验知识，更灵活地满足不同的目标。

2. BACKGROUNd

智能交通服务的一个新兴类别基于共享经济的理念，以自行车共享系统（BSS）为代表。自行车共享系统是一种服务，在这种服务中，个人用户可以以相对较低的价格临时共享自行车。它最近的成功主要是由物联网和无线传感器网络推动的现代跟踪技术推动的（O’Brien，Cheshire&Batty，2014）。同时，大系统的管理政策也对服务的各个方面产生了巨大的影响，尤其是其运营成本。

The Rebalancing Problem

为了了解用户租用和归还行为的特点，我们探索了移动BSS开放数据存储库的数据，该存储库由北京市大约两周的使用跟踪日志组成。图1显示了用户租赁请求和退货操作的总体分布。我们可以从图1中推断出一些明显的模式：

有几个优秀的枢纽占据了整个群体的很大一部分，用于租金请求和退货行动。假设这些枢纽应符合城市地标（例如，购物中心、地铁线路终端等）（图2）。
请求中心request hubs的位置通常与返回中心 return hubs的位置非常接近，但并不完全相同。

研究人员建议，有两种广泛的方法来对自行车共享系统中的再平衡问题进行分类（Contardo、Morency和Rousseau，2012年）：

. 根据执行重新定位行为的实体类型：

a. Operator-based rebalancing 由运行服务的组织进行
b. User-based rebalancing 由最终用户进行，在某种激励下将自行车返回到请求的附近位置；

根据重新定位的时间：

a. Static rebalancing 在系统相对静止时进行，例如在午夜
b. Dynamic rebalancing: 在业务仍在运行且自行车分布不断变化的白天进行。

在本文中，我们对基于操作员的静态再平衡场景的简单情况感兴趣，因此分布的日间行为更有意义。我们将时间窗口缩短到一个较短的时段，以研究图3所示的每日租金和回报之间的差距。类似的模式很容易发现。这使我们能够对解决再平衡问题形成一些基本的直觉。

可能有无数种方法来重新平衡BBS存储库状态，每种方法都有不同的成本和回报。定义“良好的再平衡计划”的最重要的一点是用户满意度和成本的平衡，这样用户在必要时几乎总能在附近找到可用的自行车，而移动自行车所需的运输成本是可以接受的。

3. EXISTING METHOdS

Optimal Transportation Theory

假设我们对自行车租金和回报的分配有很好的了解。然后，制定问题的最自然的方式是找到一个运输计划，以最小的成本将收益分配推到租金分配，这正是经典最优运输的研究目标。最佳运输（OT）理论首先由Gaspard Monge（Villani，2008）正式提出，用于解决一类规划问题，其目的是找到以最小的努力将一堆土移动到坑中的最佳方法。这个问题的解决方案与运输领域内外的一大类问题有关。

Monge将此问题表述为，给定两个基于度量空间ΩS\Omega_SΩS的概率度量μS\mu_SμS和基于度量空间ΩT\Omega_TΩT的概率度量μT\mu_TμT,找到一个映射 T:ΩS→ΩTT:\Omega_S \to \Omega_TT:ΩS→ΩT，去最小化总的移动成本moving cost:

其中 ΩS∈RdS\Omega_S \in R^{d_S}ΩS∈RdS,ΩT∈RdT\Omega_T \in R^{d_T}ΩT∈RdT, 和c:ΩS×ΩT→[0,∞]c : \Omega_S \times \Omega_T \to [0, \infty ]c:ΩS×ΩT→[0,∞]是一个成本函数cost function.

Monge公式的一个主要缺陷是它的非凸性和难处理性。此外，在Monge的公式中，映射的存在并不总是得到保证（例如，当µsµ_sµs是Dirac而µTµ_TµT不是Dirac，或者µsµ_sµs和µTµ_TµT在不同数量的Dirac上支持时）。后来，Kantorovitch的OT问题版本通过使用具有凸松弛的公式修正了这些缺陷，并可以表示为发现ΩSΩ_SΩS和ΩTΩ_TΩT：

其中 π\piπ是所有联合概率在P(ΩS×ΩT)P(\Omega_S\times \Omega_T)P(ΩS×ΩT)的集合，是边界μS\mu_SμS和μT\mu_TμT的联合分布。

Monge问题

参考资料：《Monge问题，Kantoroich，对偶理论和Brenier极分解》
有两个完备可分的空间X,Y ，定义概率测度μ∈P(X),v∈P(Y)满足\mu \in \mathcal{P}(X),v\in \mathcal{P}(Y) 满足μ∈P(X),v∈P(Y)满足\mu(X)=v(Y)$ ，以及传输代价 c:X×Y→[0,+∞]c :X\times Y \to [0,+\infty]c:X×Y→[0,+∞] ，需要找到一个映射 T:X→YT:X\to YT:X→Y ，诱导推前映射 T#μ=vT_{\#\mu}=vT#μ=v.
使得∀A⊂Y\forall A \subset Y∀A⊂Y 有μ(T−1(A))=v(A)\mu(T^{-1}(A))=v(A)μ(T−1(A))=v(A) ，满足传输代价C(T):=∫Xc(x,T(x))C(T):=\int_X c(x,T(x))C(T):=∫Xc(x,T(x)) 最小，
该问题用数学语言描述为：(MP):inf{M(T):=∫Xc(x,T(x))dμ:T#μ=v}(MP): inf\{M(T):= \int_X c(x,T(x))d\mu :T_{\#\mu}=v\}(MP):inf{M(T):=∫Xc(x,T(x))dμ:T#μ=v}.

x∈X,T(x)∈Y,c(X×Y)x \in X, T(x) \in Y, c(X \times Y)x∈X,T(x)∈Y,c(X×Y)为传输代价。∫X\int_X∫X是对传输代价求积分(求和)
KL 散度，是一个用来衡量两个概率分布的相似性的一个度量指标。

由此，Monge问题的解，实际上就是最优传输映射，
我们将这个最小的传输代价定义为Wasserstein距离：$W_c(T)=inf_{T_{#\mu=v}}C(T) ，
这个距离可以用于衡量两个分布之间的距离，这个衡量比《KL散度》更为精细.

考虑三个分布，由于μ,v,w\mu ,v,wμ,v,w 的《支撑集》没有相交，因此他们的KL散度为0，同理μ,w\mu,wμ,w 的KL散度也为0，但是如果衡量Wasserstein距离可以发现，将 μ\muμ 搬运成 vvv 的代价小于将μ\muμ 搬运成www 的代价
Monge问题求解极为困难，Kantoroich将它问题进行放松，将最优传输问题放松为最优传输方案:

左图为Monge问题，右图为Kantoroich问题对于Monge问题，由于需要求解一个映射，实际上只能允许多对一(或者一对一)，Kantoroich问题将映射放松，允许一对多，从而将原来问题进行简化。

我们定义Kantoroich问题：定义联合概率分布γ∈P(X×Y)\gamma \in \mathcal{P}(X \times Y)γ∈P(X×Y) ，其边缘概率密度定义为推前映射(πx)#=∫Yγ(x,y)dy(\pi_x)_{\#}=\int_Y \gamma(x,y)dy(πx)#=∫Yγ(x,y)dy ，同理 (πy)#=∫Xγ(x,y)dy(\pi_y)_{\#}=\int_X \gamma(x,y)dy(πy)#=∫Xγ(x,y)dy ，他们将概率测度γ\gammaγ ,分别推前成μ,v\mu,vμ,v ，写为(πx)#γ=μ,(πy)#γ=v(\pi_x)_{\#}\gamma=\mu,(\pi_y)_{\#}\gamma=v(πx)#γ=μ,(πy)#γ=v ，即π(μ,v)={γ∈P(X×Y):(πx)#γ=μ,(πy)#γ=v}\pi(\mu,v)=\{\gamma \in \mathcal{P}(X\times Y):(\pi_x)_{\#}\gamma=\mu,(\pi_y)_{\#}\gamma=v\}π(μ,v)={γ∈P(X×Y):(πx)#γ=μ,(πy)#γ=v}.
找到一个联合概率密度γ\gammaγ ，
使得传输代价最小，即 (KP)inf{K(γ):=∫X×Yc(x,y)dγ(x,y):γ∈π(μ,v)}(KP) inf\{K(\gamma):=\int_{X\times Y} c(x,y) d_{\gamma}(x,y):\gamma\in \pi(\mu,v) \}(KP)inf{K(γ):=∫X×Yc(x,y)dγ(x,y):γ∈π(μ,v)}
实际上KP问题是一个线性规划问题:
{μ=∑μiδ(x−xi)v=∑viδ(y−yi)\begin{cases} \mu =\sum \mu_i \delta(x-x_i) \\ v =\sum v_i \delta(y-y_i)\end{cases}{μ=∑μiδ(x−xi)v=∑viδ(y−yi)
最小化:K(γ)=∑ijγijδ(x−xi)δ(y−yi)K(\gamma)=\sum_{ij}\gamma_{ij}\delta(x-x_i)\delta(y-y_i)K(γ)=∑ijγijδ(x−xi)δ(y−yi) ，
可以证明这个问题的解是存在的，具体证明可以参看顾险峰教授的最优传输课程。

关于最优交通的研究来自物理世界，但其抽象形式的问题建模及其简洁的解决方案在交通领域之外产生了更大的影响（Courty，Flamery，Tuia&Rakotomonjy，2015）。另一方面，将坎托罗维奇的方法直接应用于再平衡任务可能会遇到一些现实世界中的困难。例如，道路网络不构成度量空间。

PDP-Based Approaches

目前对BSS再平衡问题的大部分研究将其建模为一种提货和交货问题pickup and delivery problem（PDP）(Benchimol, Benchimol, Benoit et al., 2011; Raviv & Kolka, 2013; Forma, Raviv & Tzur, 2015).一般形式的提货和交货问题（也称为一般提货和交付问题General Pickup and Delivery Problem，或GPDP）是一个典型的资源分配问题，其中系统需要分配一组车辆，为每个车辆构建一条路线，以满足一定数量的运输请求，并具有一定的约束和优化目标。在运输系统场景中，一般提货和交货问题（GPDP）（Savelsbergh&Sol，1995）涵盖了与计划优化相关的一系列现实问题。GPDP有几个子类型，一个简单的分类方案由（Savelsbergh&Sol，1995）提出。此外，Parragh，Doerner&Hartl（2008）提出了一种更精细的分类方案，包括四个层次。

【论】Towards Smart Transportation System: A Case Study on the Rebalancing Problem of Bike Sharing Sys相关推荐

Case study: IIoT effectiveness on the plant floor
Case study: IIoT effectiveness on the plant floor案例研究:工厂车间的IIoT效果 Collect data to augment equipment ...
Case Study. Technical and Commercial understating. Internal use only.
Case Study. Technical and Commercial understating. Internal use only. You're a consultant for a Tech ...
Deep Learning-Based Video Coding: A Review and A Case Study
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 1.Abstract: 本文主要介绍的是2015年以来关于深度图像/视频编码的代表性工作,主要可以分为两类:深度编码方案以及基于传统编码方 ...
Data Visualization – Banking Case Study Example (Part 1-6)
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
Web Service Case Study: 认证考试申请服务
本文是Web Service Case Study系列文章的第二篇.在这篇文章中,我将围绕一个认证考试申请系统展开设计和讨论,这个应用与本文的系统不同,主要是面向B2C模式的应用,着眼点在于如何将这个 ...
HDU 4940 Destroy Transportation system(无源汇上下界网络流)
Problem Description Tom is a commander, his task is destroying his enemy's transportation system. Le ...
Case study：在数据库网页中设计数据排序工具
一.目的该笔记的目的是引导读者在已搭建的数据库网页的基础上,利用JS设计数据排序工具.其效果如图1所示."Order by"下拉列表框由一系列字段组成,如"Locati ...
Case Study: 利用PHP获取关系型数据库中多张数据表的数据
一.目标该笔记的目的是引导读者借助WampServer平台和MySQL数据库,利用HTML/CSS/JS/PHP设计一个多数据表关联的网页.在上一个案例(Case Study: 利用JS实现数据库网 ...
Case Study: 利用JS实现数据库网页的数据分页、数据选择、数据详细信息查看功能
一.目标该笔记的目的是引导读者借助WampServer平台和MySQL数据库,利用HTML/CSS/JS/PHP设计一个能够进行实现数据分页显示.数据选择.数据详细信息查看功能的数据库网页.该数据库 ...

【论】Towards Smart Transportation System: A Case Study on the Rebalancing Problem of Bike Sharing Sys