A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems

摘要

自行车共享为旅行提供了一种环保的方式，并在世界各地蓬勃发展。然而，由于用户出行模式的高度相似性，自行车不平衡问题不断发生，尤其是对于无停靠自行车共享系统，对服务质量和公司收入造成重大影响。因此，如何有效地解决这种不平衡已经成为自行车共享运营商的一项关键任务。在本文中，我们提出了一个新的深度强化学习框架来激励用户重新平衡这样的系统。我们将问题建模为一个马尔可夫决策过程，并考虑了空间和时间特征。我们开发了一种新的深度强化学习算法，称为分层强化定价(Hierarchical Reinforcement Pricing)(HRP)，它建立在深度确定性策略梯度算法( Deep Deterministic Policy Gradient algorithm.)(DDPG)的基础上。与通常忽略空间信息并严重依赖精确预测的现有方法不同，HRP使用带有嵌入式本地化模块的分治结构(divide-and-conquer structure) 来捕获空间和时间依赖性。我们进行了广泛的实验来评估HRP，基于中国主要的无码头自行车共享公司Mobike数据集。结果表明，HRP的性能接近24时隙前瞻优化，在服务水平和自行车分配方面都优于最先进的方法。当应用于看不见的区域时，它也能很好地传输.
abstract
Bike sharing provides an environment-friendly way for traveling and is booming all over the world. Yet, due to the high similarity of user travel patterns, the bike imbalance problem constantly occurs, especially for dockless bike sharing systems, causing significant impact on service quality and company revenue. Thus, it has become a critical task for bike sharing operators to resolve such imbalance efficiently. In this paper, we propose a novel deep reinforcement learning framework for incentivizing users to rebalance such systems. We model the problem as a Markov decision process and take both spatial and temporal features into consideration. We develop a novel deep reinforcement learning algorithm called Hierarchical Reinforcement Pricing (HRP),which builds upon the Deep Deterministic Policy Gradient algorithm. Different from existing methods that often ignore spatial information and rely heavily on accurate prediction, HRP captures both spatial and temporal dependencies using a divide-and-conquer structure with an embedded localized module. We conduct extensive experiments to evaluate HRP, based on a dataset from Mobike, a major Chinese dockless bike sharing company. Results show that HRP performs close to the 24-timeslot look-ahead optimization, and outperforms state-of-the-art methods in both service level and bike distribution. It also transfers well when applied to unseen areas.

1. Introduction

[待修改】
自行车共享，尤其是无码头自行车共享，正在全世界蓬勃发展。例如，中国自行车共享巨头Mobike已经在国内外部署了700多万辆自行车。自行车共享作为一种环保方式，通过在用户之间共享公共自行车，为人们提供了一种方便的通勤方式，并解决了“最后一英里”的问题(沙欣、古兹曼和张2010)。与传统的对接自行车共享系统(BSS)不同，例如Hubway，自行车只能出租和归还在固定的停靠站，用户可以在任何有效的地方访问和停放共享自行车。这减轻了用户的担心，当他们想使用自行车时，他们会找到空的码头，或者当他们想归还自行车时，他们会进入完全被占用的车站。

然而，由于大多数用户的出行模式相似，BSS的租赁模式导致自行车不平衡，尤其是在高峰时段。例如，人们大多在早上高峰时间从家里骑车去上班。这导致住宅区的自行车非常少，这反过来抑制了潜在的未来需求，而地铁站和商业区由于共享自行车的压倒性数量而瘫痪。由于用户停车位置不受限制，这个问题对于无停靠基站来说被进一步夸大了。这种不平衡不仅会给用户和服务提供商带来严重问题，也会给城市带来严重问题。因此，对于自行车共享提供商来说，高效地重新平衡自行车至关重要，以便更好地为用户服务，并避免堵塞城市人行道和造成自行车混乱。

自行车再平衡面临几个挑战。

【论】A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems相关推荐

[未]DRN: A Deep Reinforcement Learning Framework for News Recommendation
DRN: A Deep Reinforcement Learning Framework for News Recommendation DRN:一个新闻推荐的深度强化学习框架参考链接:https: ...
DRN: A Deep Reinforcement Learning Framework for News Recommendation (2018)
文章目录 1. DRN: A Deep Reinforcement Learning Framework for News Recommendation (2018) (0) 个人小结 (1) 研究目 ...
论文阅读：DRN: A Deep Reinforcement Learning Framework for News Recommendation
文章目录摘要一.Introduction 1.引入原因 2.结构框架二.相关工作 1.新闻推荐算法 2.推荐中的强化学习 3.问题定义三.实现原理 1.模型框架 2.特征构造 3.深度强化推荐 ...
ActionSpotter Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos
ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos 论文阅读笔记 1 ...
9.DRN: A Deep Reinforcement Learning Framework for News Recommendation论文详解
摘要这篇文章是微软18年发的基于强化学习来做推荐系统的文章. 一.引言新闻领域的个性化推荐十分重要,传统的方法如基于内容的方法.协同过滤.深度学习方法在建模user-item交互关系时,经常面临以 ...
DRN: A Deep Reinforcement Learning Framework for News Recommendation学习
欢迎转载,请注明出处https://blog.csdn.net/ZJKL_Silence/article/details/85798935. 本文提出了(基于深度Q-learning 的推荐框架)基于 ...
DRN: A Deep Reinforcement Learning Framework for News Recommendation理解
这篇文章是微软18年发的基于强化学习来做推荐系统的文章. 研究推荐系统一个月有余,总觉得自己的模型过分简单,单纯的无脑过FC把人都整的蠢蠢的,于是就搜寻了一下有没有别的方式来做推荐,就发现了这一篇文章 ...
DRN ：A Deep Reinforcement Learning Framework for News Recommendation论文解读
文章目录 1. 论文贡献 2. 模型架构 2.1. 特征构造 2.2. 深度强化学习模型 2.3. 用户的主动反馈 2.4. 探索策略 1. 论文贡献该论文提出了一个基于DQN的推荐框架,用于解决以 ...
DRN: A Deep Reinforcement Learning Framework for News Recommendation
文章目录总结细节实验总结 dqn,reward增加了用户return 细节提出一个针对新闻推荐的drl框架旧方法的问题新方法的应对措施新闻动态变化快 DQN 只考虑ctr,不考虑用户回 ...

【论】A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems

A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems

摘要

1. Introduction

【论】A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems相关推荐

最新文章

热门文章