A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems

摘要

自行车共享为旅行提供了一种环保的方式,并在世界各地蓬勃发展。然而,由于用户出行模式的高度相似性,自行车不平衡问题不断发生,尤其是对于无停靠自行车共享系统,对服务质量和公司收入造成重大影响。因此,如何有效地解决这种不平衡已经成为自行车共享运营商的一项关键任务。在本文中,我们提出了一个新的深度强化学习框架来激励用户重新平衡这样的系统。我们将问题建模为一个马尔可夫决策过程,并考虑了空间和时间特征。我们开发了一种新的深度强化学习算法,称为分层强化定价(Hierarchical Reinforcement Pricing)(HRP),它建立在深度确定性策略梯度算法( Deep Deterministic Policy Gradient algorithm.)(DDPG)的基础上。与通常忽略空间信息并严重依赖精确预测的现有方法不同,HRP使用带有嵌入式本地化模块的分治结构(divide-and-conquer structure) 来捕获空间和时间依赖性。我们进行了广泛的实验来评估HRP,基于中国主要的无码头自行车共享公司Mobike数据集。结果表明,HRP的性能接近24时隙前瞻优化,在服务水平和自行车分配方面都优于最先进的方法。当应用于看不见的区域时,它也能很好地传输.
abstract
Bike sharing provides an environment-friendly way for traveling and is booming all over the world. Yet, due to the high similarity of user travel patterns, the bike imbalance problem constantly occurs, especially for dockless bike sharing systems, causing significant impact on service quality and company revenue. Thus, it has become a critical task for bike sharing operators to resolve such imbalance efficiently. In this paper, we propose a novel deep reinforcement learning framework for incentivizing users to rebalance such systems. We model the problem as a Markov decision process and take both spatial and temporal features into consideration. We develop a novel deep reinforcement learning algorithm called Hierarchical Reinforcement Pricing (HRP),which builds upon the Deep Deterministic Policy Gradient algorithm. Different from existing methods that often ignore spatial information and rely heavily on accurate prediction, HRP captures both spatial and temporal dependencies using a divide-and-conquer structure with an embedded localized module. We conduct extensive experiments to evaluate HRP, based on a dataset from Mobike, a major Chinese dockless bike sharing company. Results show that HRP performs close to the 24-timeslot look-ahead optimization, and outperforms state-of-the-art methods in both service level and bike distribution. It also transfers well when applied to unseen areas.

1. Introduction

[待修改】
自行车共享,尤其是无码头自行车共享,正在全世界蓬勃发展。例如,中国自行车共享巨头Mobike已经在国内外部署了700多万辆自行车。自行车共享作为一种环保方式,通过在用户之间共享公共自行车,为人们提供了一种方便的通勤方式,并解决了“最后一英里”的问题(沙欣、古兹曼和张2010)。与传统的对接自行车共享系统(BSS)不同,例如Hubway,自行车只能出租和归还在固定的停靠站,用户可以在任何有效的地方访问和停放共享自行车。这减轻了用户的担心,当他们想使用自行车时,他们会找到空的码头,或者当他们想归还自行车时,他们会进入完全被占用的车站。

然而,由于大多数用户的出行模式相似,BSS的租赁模式导致自行车不平衡,尤其是在高峰时段。例如,人们大多在早上高峰时间从家里骑车去上班。这导致住宅区的自行车非常少,这反过来抑制了潜在的未来需求,而地铁站和商业区由于共享自行车的压倒性数量而瘫痪。由于用户停车位置不受限制,这个问题对于无停靠基站来说被进一步夸大了。这种不平衡不仅会给用户和服务提供商带来严重问题,也会给城市带来严重问题。因此,对于自行车共享提供商来说,高效地重新平衡自行车至关重要,以便更好地为用户服务,并避免堵塞城市人行道和造成自行车混乱。

自行车再平衡面临几个挑战。

【论】A Deep Reinforcement Learning Framework for Rebalancing Dockless Bike Sharing Systems相关推荐

  1. [未]DRN: A Deep Reinforcement Learning Framework for News Recommendation

    DRN: A Deep Reinforcement Learning Framework for News Recommendation DRN:一个新闻推荐的深度强化学习框架 参考链接:https: ...

  2. DRN: A Deep Reinforcement Learning Framework for News Recommendation (2018)

    文章目录 1. DRN: A Deep Reinforcement Learning Framework for News Recommendation (2018) (0) 个人小结 (1) 研究目 ...

  3. 论文阅读:DRN: A Deep Reinforcement Learning Framework for News Recommendation

    文章目录 摘要 一.Introduction 1.引入原因 2.结构框架 二.相关工作 1.新闻推荐算法 2.推荐中的强化学习 3.问题定义 三.实现原理 1.模型框架 2.特征构造 3.深度强化推荐 ...

  4. ActionSpotter Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos

    ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos 论文阅读笔记 1 ...

  5. 9.DRN: A Deep Reinforcement Learning Framework for News Recommendation论文详解

    摘要 这篇文章是微软18年发的基于强化学习来做推荐系统的文章. 一.引言 新闻领域的个性化推荐十分重要,传统的方法如基于内容的方法.协同过滤.深度学习方法在建模user-item交互关系时,经常面临以 ...

  6. DRN: A Deep Reinforcement Learning Framework for News Recommendation学习

    欢迎转载,请注明出处https://blog.csdn.net/ZJKL_Silence/article/details/85798935. 本文提出了(基于深度Q-learning 的推荐框架)基于 ...

  7. DRN: A Deep Reinforcement Learning Framework for News Recommendation理解

    这篇文章是微软18年发的基于强化学习来做推荐系统的文章. 研究推荐系统一个月有余,总觉得自己的模型过分简单,单纯的无脑过FC把人都整的蠢蠢的,于是就搜寻了一下有没有别的方式来做推荐,就发现了这一篇文章 ...

  8. DRN :A Deep Reinforcement Learning Framework for News Recommendation论文解读

    文章目录 1. 论文贡献 2. 模型架构 2.1. 特征构造 2.2. 深度强化学习模型 2.3. 用户的主动反馈 2.4. 探索策略 1. 论文贡献 该论文提出了一个基于DQN的推荐框架,用于解决以 ...

  9. DRN: A Deep Reinforcement Learning Framework for News Recommendation

    文章目录 总结 细节 实验 总结 dqn,reward增加了用户return 细节 提出一个针对新闻推荐的drl框架 旧方法的问题 新方法的应对措施 新闻动态变化快 DQN 只考虑ctr,不考虑用户回 ...

最新文章

  1. 企业为什么要开通银企直联_为什么要开通小红书企业号?——山东同乐电商培训基地...
  2. 机器学习案例:scikit-learn实现ebay数据分析
  3. 胡浩:人人能学的AI《从零开始机器学习》苏州.NET俱乐部课程分享
  4. Atitit mybatis快速开发 的sql api接口
  5. (转)最大流最小割定理
  6. engineercms整合mindoc
  7. lineout是什么接口
  8. 100天精通Andriod逆向——第5天:app逆向流程简介
  9. 25岁,一个北漂程序员,如果不想35 岁被淘汰,请把它当成一种信仰!
  10. Material Design控件使用(一)
  11. 190403内置模块
  12. python爬取胡歌相关视频弹幕,分析并制作词云
  13. 【虾仁猪心!!】--1
  14. 什么叫矫顽力(bHc),什么叫内禀矫顽力(jHc)?
  15. 分享Canvas简笔画小程序源码
  16. 全球首家BAYC NFT主题餐厅BoredHungry开业,可使用APE和ETH支付
  17. MODIS地表温度产品获取处理
  18. 软件测试面试题整理(七)之性能安全篇
  19. Oracle OEM 重建 及 案例 说明
  20. spring6启示录

热门文章

  1. 对计算机系相关人物进行访谈,瑶湖计算机系副主任姚华访谈录
  2. oracle 临时表空间语句,oracle的临时表空间
  3. 乐视手机恢复出厂设置后卡账户登录页面,刷入miui系统后妥妥的开发手机
  4. 自治,甲骨文继续领先的开始?
  5. 怎么实现在FireFox IE Opera Safari 都可以正常播放WMV和MOV的网页播放器代码
  6. bigwig归一化方式详解
  7. 嵌入式Linux系统镜像制作(基于SD卡)
  8. 7-3 计算年龄 (10 分)
  9. 《寒江独钓 Windows内核安全》——串口的过滤
  10. maya加载不了arnold的mtoa可能是这个低级错误!