文章信息

本周阅读的论文是题目为《Predicting traffic demand during hurricane evacuation using Real-time data from transportation systems and social media》的一篇2020年发表在《Transportation Research Part C》的涉及到手机信令数据处理的文章。

摘要

近段时间,飓风“马修”、“哈维”和“艾玛”在美国多个州扰乱了数百万人的生活。在飓风疏散时,高效的交通运营可以最大限度地利用交通基础设施,减少疏散时间和因大规模拥堵造成的压力。疏散交通流量预测是制定有效的交通管理策略的关键。然而,由于疏散参与者的复杂性和动态性,提前较长时间预测疏散交通需求是一项非常具有挑战性的任务。各种来源的实时信息可以极大帮助我们可靠地预测疏散需求。在本研究中,我们使用“马修”和“艾玛”飓风期间的交通传感器和Twitter数据来预测疏散期间更长时间(大于1小时)的交通需求。我们提出了一种基于长短时循环神经网络(LSTM)的机器学习方法,利用飓风疏散期间(飓风“艾玛”和“马修”)的真实交通数据,使用不同组合的输入特征和预测视野,对模型进行训练。我们将我们的预测结果与基线预测以及现有的机器学习模型进行比较。结果表明,该模型能较好地预测疏散前24h的交通需求。文章提出的LSTM模型对未来的疏散交通管理具有重要意义。

文章介绍

1. Introduction

首先讲述实时信息对于飓风疏散需求预测的重要性,进而对目前需求预测方法的局限进行说明,即很少考虑事件的时空动态性,无法对实时信息及时做出反应。接着提出一种考虑了实时交通数据和社交媒体数据的长短时循环神经网络模型结构(LSTM)来预测较长时段内的交通需求,相较于其他基准模型,该模型可以捕捉交通需求的不规则性,预测效果更佳。最后简单描述了文章主要解决的四个问题:

  • 如何在飓风疏散时,利用实时交通传感数据和社交媒体数据预测更长时间的交通需求?文章收集了两次飓风疏散期间的交通数据和推特数据,并使用这两个数据集预测未来更长时间段内的交通需求。

  • 使用实时数据可以提前预测多长时间的交通需求?通过文章提出的模型预测从1小时到30小时的交通需求,并对预测效果进行比较。

  • 当部分数据不可使用时,预测模型的表现会变成怎么样?文章使用不同的数据特征组合(仅使用交通数据、仅使用社交媒体数据或者都使用)进行预测并比较不同数据组合的预测效果。

  • 我们如何在疏散时对不确定的交通需求进行预测?文章提出了一种机器学习模型去预测在预测过程中可能出现的误差并给出90%的预测置信区间

2. Literature review

首先介绍以往关于飓风疏散的研究,大部分主要集中在研究影响疏散过程的相关因素,并指出这些影响因素很难适用于需求预测。接着对以往关于疏散需求预测的方法进行总结,并指出这些方法高度依赖于调查数据,而这些数据没办法在飓风来临时实时获取。同时目前大部分的预测仅仅是短时需求预测,在飓风期间不足以采取主动的交通管制策略,且单凭历史数据和交通状况不足以预测更长时间段的需求。另外介绍了社交媒体数据在自然灾害、检测流行病等方面的应用,说明社交媒体数据作为数据源的有效性。最后指出目前关于交通需求预测的模型由于没有考虑动态特征并不适用于疏散场景,提出一种利用交通传感数据和推特数据预测飓风疏散时较长时间交通需求的模型。

3. Data sets and study area description

文章主要使用了交通流量数据和推特数据,收集了美国I-75和I-95两条州际公路每15分钟的断面流量数据。对于社交媒体数据,文章搜集了包含飓风“马修”和“艾玛”等关键字的推特数据。分别如下图所示:

图1 飓风“马修”和飓风“艾玛”期间I-75和I-95公路15分钟粒度下交通流量数据

图2 飓风“马修”和飓风“艾玛”的推特数据统计

接着是对数据进行预处理,把两条公路的交通流量数据进行相加以获取相关区域疏散期间的总体交通需求,另外按照每15分钟的间隔统计推特条数,使时间间隔与交通流量数据保持一致,同时利用线性插值的方法补全缺失值并标准化数据。最终一共获得716个小时的观测数据,263个小时来自“马修”,453个小时来自“艾玛”。

4. Methodology

文章的这部分内容首先介绍了长短时循环神经网络(LSTM)的原理和基本构架。由于LSTM网络在时间序列预测上的良好效果,提出了基于LSTM网络的飓风疏散交通需求预测模型,便于捕捉交通数据的时空特性,预测更长时间段的交通需求。

5. Results

该章节对模型运行的结果进行讨论分析。文章分别进行了以1-30小时为预测时段的预测实验,同时针对4种不同的场景进行预测,对预测效果分别进行讨论分析,探讨最优的模型运行场景。

6. Limitations and future research directions

该章节讨论了本文研究存在的局限性,文章仅选择了两条公路的交通流量来确定交通疏散期间的总交通需求,实际上疏散时,居民可能选择其他路线,这使得需求预测可能存在误差;另外推特数量可能会受到地域影响,个别区域可能会发布更多相关推文,因此需要对推文的偏差进行校对矫正。同时文章主要研究区域间的疏散需求,对于区域内部疏散行为没有涉及,这需要在以后展开进一步研究。

7. Conclusions

总结文章的研究,对文章提出的基于LSTM网络的飓风疏散交通需求预测的预测效果进行说明,模型在15小时预测范围内具有最佳预测能力。最后,对该模型的应用提出展望。

模型架构

本研究旨在根据交通流数据和推特数据构建长短时循环神经网络(LSTM)来预测飓风期间的交通需求,具体的长短时循环神经网络结果如下图所示:

图3 LSTM单元结构

LSTM的记忆单元(Block)相较传统的RNN更加复杂,模型中增加了状态,称为单元状态(cell state),用来保存长期的状态,而LSTM的关键,就是怎样控制长期状态,LSTM使用三个控制开关,第一个开关负责控制如何继续保存长期状态,第二个开关负责控制把即时状态输入到长期状态,第三个开关负责控制是否把长期状态作为当前的LSTM的输出。接下来细说三个门的功能和原理。

 1. 遗忘门

遗忘门的主要作用是决定了上一时刻的单元状态有多少保留到当前时刻,根据前一时刻的状态和当前时刻的输入决定多少信息要被遗忘,具体公式如下:

2. 输入门

输入门主要是决定当前时刻网络的输入有多少保存到单元状态。首先通过sigmoid层决定哪些变量需要更新,接着将数值通过tanh层转为矩阵,最后更新旧的单元状态为新的状态。具体公式如下:

3. 输出门

输出门则主要控制长期记忆对当前输出的影响,由输出门和单元状态共同决定。具体公式如下:

研究方法

由于LSTM网络在处理时间序列预测时具有良好的表现,因此文章选择LSTM网络作为需求预测的模型。把预测问题定义为:给定了t时刻的交通流数据或推特数据,预测时间间隔h小时后的交通流量数据。

文章充分考虑了飓风期间与需求预测相关的十个特征,采取不同的特征组合方式作为输入进行预测,研究不同输入组合对模型预测精度的影响,同时观察以一个小时为间隔由1h-30h预测时段的模型预测效果来研究哪个预测时段下模型预测效果最佳。

为了比较该模型与其他基准模型的预测优异程度,文章选择了KNN、SVR、GBR、XGBR作为对比,验证LSTM模型的预测效果。至于评价指标的选取,文章还是以常用的均方根误差和平均绝对误差作为评判指标。各个模型在最优效果下的运行参数表如下:

表1 模型参数总结

另外,文章基于中心极限定理,提出了一种计算预测所得的交通流量的置信区间的方法。通过计算当前时刻t在未来时段h的预测值的均值和方差求得预测值置信度为90%的置信区间。具体实现如下:

首先计算均值:

接着,计算预测值的方差:

最后,得到置信度为90%的置信区间的上下界:

结论与验证

 1. 不同输入特征与预测时间段的关系

文章选取了4种不同场景考量模型预测的效果,分别是仅使用交通传感数据、仅使用社交媒体数据、两者都使用以及使用四种影响因子最大的特征属性的场景,同时还分别预测了未来1-30小时的交通需求,最终总结得到不同预测时段下所有特征的特征重要性如下图所示:

图4 不同预测时段特征重要性分布图

从图中可以发现,在较短的预测时段(1~5小时)内,交通流量对模型预测精确性的影响程度最大;随着预测时段的增加(7~30小时),飓风的登陆时间差的重要程度不断增加,这说明在预测未来较长时间的疏散交通需求时,飓风登陆的时间差起着重要的作用;至于推特数据对于预测时段的影响,主要体现在11~15小时的范围内,对短时的交通需求预测几乎没有任何影响,这也符合人们在实际疏散前发布疏散消息的行为特征比较吻合。

2. 模型运行指标分析(RMSE和MAPE)

文章以不同预测时段(1-30h)和不同输入特征对模型的预测效果进行分析研究,以KNN、SVR等常见的机器学习模型作为基准模型比较预测效果,采用回归预测问题中最常见的两个指标(RMSE和MAPE)进行评价,最终整理得到模型运行指标热力图如下:

图5 模型运行指标热力图

根据指标热力图分布图可得,除了仅仅以推特数据作为输入特征的情况外,模型一小时预测时段下的RMSE和MAPE值最低,这与预期的相一致。因为在这种情况下,输入的各种信息对于该时段而言是最新的,自然预测精度就更高。

具体分析,当预测时段为1~12小时时,仅使用交通传感数据预测效果会优于仅使用推特数据或者两种数据,而在10~19小时预测时段内,仅使用推特数据的预测效果会最优,这是因为人们往往会在疏散前发布他们的疏散消息。另外,在包含所有可用的特征作为模型输入进行训练时,模型的预测效果会不佳,在这种情况下,添加不必要的特征会影响模型的运行性能。

经过总结分析,可以发现文章提出的LSTM模型在使用重要特征或者仅使用传感器特征训练时,一小时的预测时段预测效果最佳(RMSE = 110, MAPE = 13%);仅使用推特数据训练时,模型在15小时的预测时段效果最佳(RMSE = 203, MAPE = 28%)。

 3. 模型预测性能和鲁棒性分析

为了评估模型在飓风疏散预测中的预测性能和鲁棒性,文章还进行了两个不同实验。第一个实验,研究者使用飓风“马修”完整的数据以及飓风“艾玛”部分数据作为训练数据,以余下的飓风“艾玛”的数据作为测试数据对不同预测时段的模型性能进行研究;第二个实验,我们使用飓风“马修”和飓风“艾玛”的部分数据作为训练数据,并以剩下部分作为测试数据,预测不同时间段的交通需求,这两次实验都仅仅以重要特征作为输入进行预测。具体预测效果如下:

图6 不同预测时段下模型预测效果图(实验一)

图7 不同预测时段下的模型预测效果图(实验二)

实验结果表明,模型1小时预测时段会比24小时预测时段的拟合度更好,能够很好捕捉趋势;同时该模型对飓风“艾玛”测试数据的预测会优于飓风“马修”的测试数据,因为存在更多关于飓风“艾玛”的测试数据。因此,可以通过记录多次飓风来临时疏散交通量关于时间变化的趋势来改善预测结果。同时文章计算出了具有90%置信度的置信区间,便于更可靠的解释预测结果。

总结

文章基于交通传感器得到的交通流数据以及推特数据,搭建了LSTM网络来预测未来较长时段的疏散交通需求,并研究了不同输入特征下,模型在不同预测时段的预测效果,并实现了预测由模型预测得到的交通需求的置信区间。该模型有利于提高相关部门预测飓风疏散期间交通需求的可靠性,进一步构建主动、高效的需求响应疏散车流管理系统。

ATTENTION

如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

利用交通实时数据和社交媒体数据对飓风疏散期间的交通需求进行预测相关推荐

  1. 大数据对社交媒体的影响_数据如何影响媒体,广告和娱乐职业

    大数据对社交媒体的影响 In advance of our upcoming event - Data Science Salon: Applying AI and ML to Media, Adve ...

  2. 借助大数据进行社交媒体营销,企业们得这么玩!

    作者 | Annie Qureshi 译者 | 火火酱,责编 | Carol 出品 | CSDN 云计算(CSDNcloud) 封图 | CSDN 付费下载自视觉中国 自上世纪80年代以来," ...

  3. 如何借助大数据进行社交媒体营销

    如果企业对查看和处理的大量数据感到无能为力,那么需要进行一些调整和提示.如果利用大数据的真正潜力,那么应该能够与市场上的强劲对手进行竞争.因此需要更深入地研究,以便更好地了解如何将大数据用于社交媒体营 ...

  4. 自然语言处理实战——巧用 Amazon Comprehend 分析社交媒体数据

    摘要 自然语言处理 (NLP) 是语言学.计算机科学和人工智能的一个子领域,涉及计算机与人类语言之间的交互 (引自维基百科)[1].NLP 的目标是让计算机理解人类所说和所写的内容,并以同样的方式进行 ...

  5. python数据分析(分析文本数据和社交媒体)

    前言:推荐下我自己建的人工智能Python学习群:[809160367],群里有我整理的一份关于pytorch.python基础,图像处理opencv\自然语言处理.机器学习.数学基础等资源库,想学习 ...

  6. 2020年最佳的5种社交媒体的数据抓取/网络爬虫工具

    2020年最佳的5种社交媒体的数据抓取/网络爬虫工具 查看原文章: 2020年最佳的5种社交媒体的网络爬虫工具 社交媒体数据抓取工具通常是指一种自动化网络爬虫工具,可从社交媒体渠道提取数据.它不仅包括 ...

  7. 社交媒体中有哪些有趣的数据?能挖掘出哪些价值?

    导读:社交媒体在当今的重要性不用多说,大量的用户每天都在创造数不清的数据.从这些数据中,我们能挖掘出哪些价值?又该怎样做?本文将为你科普一些相关的常识. 作者:加博尔·萨博(Gabor Szabo). ...

  8. 媒体数据中台建设方法论和落地实践

    编者按 媒体融合下半场的重心将向智能化趋势发展.如何打造实用有效的媒体数据产品和服务,继而完成数智化转型,已成为媒体行业当前最为关注的问题. 本文围绕当前媒体机构的转型需求,百分点科技大数据技术团队系 ...

  9. 信息革命2.0时代 数据将成媒体转型关键

    在2016"一带一路"媒体合作论坛新媒体新技术分论坛上,来自阿里巴巴集团和中兴通信公司的高管均谈及当今信息技术发展的最新趋势. 阿里巴巴集团公司阿里云事业群业务总经理刘松表示,20 ...

最新文章

  1. IPv4的核心管理功能/proc/sys/net/ipv4/*
  2. 【CF1063B】Labyrinth [最短路? 01BFS]
  3. 【小白学习PyTorch教程】十四、迁移学习:微调ResNet实现男人和女人图像分类
  4. 从当前元素继续寻找_169. 多数元素
  5. 07MySQL综合应用
  6. 如何使用SQL查询视图,Postico使用技巧分享~
  7. 【转载】卸载Sql Server 2014数据库
  8. uva_816 Abbott's Revenge(BFS求解最短路、结点状态由坐标和方向表示)
  9. No serializer found for class
  10. 京东app优惠券python抓取_备战双十一,scrapy框架爬取京东优惠券信息
  11. 音视频剪辑 DIY:用 Python 快速入门音视频剪辑
  12. iOS之crash分析篇--符号化
  13. 八月为什么有31天?
  14. 《数据库原理与应用》分章节测试题一、二、三章
  15. 【Java网络编程】:JDK API实现OIO和NIO
  16. 商标申请通常是新产品或创新的重要标志
  17. ts 在vue中的使用总结
  18. 双人成型无法连接远程计算机,《双人成行》无法连接到EA服务器怎么办 无法连接到EA服务器解决办法...
  19. TCP快速连接(tfo,TCP fastopen)
  20. 大江东去浪涛尽,千古风流人物故垒西边。

热门文章

  1. 喜欢吃鱼的朋友一定要存哦
  2. 全智通A+常见问题汇总解答—A+修正维修详情页面打印派工清单和领料清单按钮无效
  3. mysql 查询结果取别名_mysql合并查询结果及为表和字段取别名
  4. 【校招Web前端面试干货分享】
  5. LeetCode刷题指南
  6. 6、域渗透中查询域用户对域成员机器关系
  7. 工作人员做好项目协调服务器,项目团队协作做好三件事
  8. Leetcode——860.柠檬水找零——题解—+代码实现
  9. python定义一个数组,如何在Python中创建一个整数数组?
  10. 给自己分一个 MAC地址--locally administered address