2019年12月,我国出现了新型冠状病毒引发的多起病例,全国逐渐开启疫情防疫监控,严重地区甚至实施封闭管理。而此次疫情正好恰逢春运期间,大规模的跨地区人口流动会助长病毒传播,甚至传染到全球范围。因此,科学管理人口流动成为疫情防控关键。

基于疫情防控下的人口流动问题,京东城市给出了一套完整的利用轨迹数据对人口流向进行精确分析与追踪的技术方案。即通过大数据技术进行GPS轨迹数据挖掘,分析在病毒传播源地区有过到访记录的人群在当前城市的分布情况。

一、问题背景

随着社会的发展、交通方式的高度便利,人口流动的规模越来越庞大,与此同时,人口迁移、人口流向分析等受到高度关注。人口迁移是一种地理现象,更与社会经济发展紧密相连。人口迁移会同时影响迁入地和迁出地的人口结构,进而影响自然环境,推动或抑制社会经济的发展。另一方面,一个地区的经济发展水平,生活环境等因素会推动人口的迁入或迁出。所以,人口迁移空间分布和时空动态演进的相关研究变得越来越重要。对人口迁移因素、迁移空间变动的研究都将为城市建设,经济结构调整等提供政策决策依据。尤其在新冠肺炎疫情这类重大突发公共卫生安全事件发生的时候,进行精确的人口流向分析和追踪意义重大。

本文以抗击新冠肺炎疫情中的应用为例,给出了一套完整的基于轨迹数据对人口流向进行精确分析的技术方案。在疫情防控初期,各地的健康信息填报系统还不够完善,无法依据用户主动上报的位置信息实现精准的定位和追踪。然而,广泛使用的GPS定位技术为获取人口的精确位置信息提供了技术基础,车辆的GPS数据、用户的手机GPS数据等均可反映人口的精确位置信息。如何利用大数据技术从海量的GPS轨迹数据中分析人口的流向,进而在病毒传播链的追踪等相关疫情防控举措中提供精准有效的依据是一个紧迫的需求。

二、 问题定义

本文旨在解决这样一个问题:在病毒传播源地区有过到访记录的人群在当前城市的分布情况如何?比如,分析某特定时间段在武汉有过旅居史的人员目前在北京的分布情况。

数据输入:传染源地区和当前城市的用户轨迹数据。如图1所示为选定武汉市在特定时间范围内的一个矩形区域作为传染源区域,用于提取该区域在选定时间范围内的轨迹数据。

结果输出:来自传染源的人群在当前城市的分布情况,包括在不同空间网格内的分布和不同时间段内的分布,以及这些人曾经在传染源的具体到访位置和时间。图2展示的是在当前城市的特定区域、特定时间范围内,高危人群的分布情况。

图1 传染源的时间和空间范围选取

图2 当前城市特定区域的高危人群分布

三、解决方案

我们前期的工作为海量轨迹数据在HBase中的存储管理提供了高效的解决方案[1]。基于此,我们使用Spark分布式分析引擎对大量的轨迹数据进行分析,获取人群的时空分布情况,进而筛选出到访过传染源区域的高危人群,基于高危人群在当前城市的分布情况,政府决策人员可采取及时精准的追踪和医学观察措施,从而防止疫情在当地的传播蔓延。

四、技术实现

完整的技术实现方案包括以下3个步骤。

1. 轨迹数据存储

该方案选用HBase作为轨迹数据的分布式存储引擎。原始的轨迹数据都是以GPS记录的形式存储的,如图3(a)中所示,我们称这种存储方式为纵向存储,该存储方式的不足在于一个点就是一条记录,破坏了轨迹的连续性特征,同时无法实现以轨迹为单位的压缩和查询,存储空间过大,查询效率过低。基于此,我们提出了图3(b)所示的横向轨迹数据存储格式,该格式以一条完整的轨迹作为一条记录,在存储前做了高效的压缩,降低轨迹存储容量。同时提取轨迹的空间边界和时间范围等特征,据此创建轨迹的时空存储索引,用于实现高效的时空范围查询。具体实现细节可参考[1]。

图3 轨迹数据存储格式

2. 轨迹数据分析

我们使用Spark分布式内存分析引擎对大量的轨迹数据进行分析。同时,在该解决方案中,以OID来唯一标识产生轨迹的主体(人)。

首先,需要将整个空间范围划分成等大的空间网格,将每条轨迹投影到与其相交的空间网格内,得到OID在空间网格内的分布信息,如图4所示, (OID,GridId, EnterTime,LeaveTime)表示OID在EnterTime时刻进入网格GridId内,并于LeaveTime时刻离开。对于传染源地区的轨迹数据集Ts和当前城市的轨迹数据集Tc,分别统计分析出OID的时空分布情况,用集合Ds和Dc表示。

图4 轨迹数据投影与人群时空分布统计

对时空分布集合Ds和Dc,以OID为Key,其他属性为Value组织成(Key,Value)对,然后利用Spark的join算子(内连接)计算出同时出现在Ds和Dc中的OID及相关属性,分析结果如表1所示。至此,已经获取到3.1问题定义中要找的来自病毒传播源地区的人员,以及他们在传染源地区和当前城市的驻留位置和时间信息。

表1 目标人群分析的中间结果

3. 分析结果输出

为了满足不同的用途,需要对分析所得的中间结果进行分流处理。
首先,将用户在传染源地区的驻留信息提取出来,存储在一张HBase表中,如图5(a)所示,该表以OID+EnterTime作为Key,GridId+LeaveTime作为Value,提供高效的OID或OID+时间范围查询,用于快速追溯一个人在传染源地区的驻留信息。

其次,将用户在当前城市的驻留信息提取出来,并在时间维度上以小时为单位进行分割,基于GridId和TimeBucket做聚合统计,得出每个空间网格每小时内来自传染源地区人员的数量Count和人员的OID集合,存储在一张HBase表中,如图5(b)所示,该表以GridId+TimeBucket为Key,Count+OIDs为Value,提供GridId查询或GridId+时间范围查询,用于快速查询来自传染源区域的人员在当前城市每个时间段内的空间分布情况。

图5 分析结果存储表结构

基于图5(b)所示的分析结果,可以快速查询当前城市各区域在各时间段内高危人群的分布情况,并且可以基于Count实现直观的热力图展示效果。同时还可以通过OID追溯一个人在传染源地区的详细驻留信息,如图5虚线所示。

五、总结

本文介绍了一套基于轨迹数据的人口流向分析方案。该方案使用HBase分布式存储引擎和Spark分布式内存计算引擎,以大量轨迹数据为基础,分析来自某一地区的人口在当前城市的时空分布情况。以此分析结果为依据,政府部门可以在类似新冠肺炎疫情防控等重大事件中采取准确及时的举措,同时也为研究地方人口结构,经济发展状况,以及城市建设规划等多领域提供有价值的决策依据。

作者:JUST团队-王如斌
文章来源:“京东数科技术说”微信公众号
原文链接: https://mp.weixin.qq.com/s/kOs_wou5OiPtOkH1hU4isQ
更多技术干货欢迎关注“京东数科技术说”微信公众号,我们只凭技术说话!

基于轨迹数据的人口流向分析技术,精准病毒传播追踪相关推荐

  1. 基于大数据的网站日志分析系统

    本文没有任何代码,只有各个模块工作的大体机制和整体流程.算是一个科普文吧,我也对原理一知半解. 基于大数据的网站日志分析系统 1. 日志数据格式 1.1 访问日志 1.1.1 log_format 1 ...

  2. 基于HEC-RAS数值模拟与GIS水文分析技术的洪水危险性及风险评估

    基于HEC-RAS数值模拟与GIS水文分析技术的洪水危险性及风险评估 直播时间:10月30日-31日   11月6日(3天) 教学特色: 1.原理深入浅出的讲解: 2.技巧方法讲解,提供所有案例数据及 ...

  3. 启明星辰阐释基于大数据的异常行为分析

    2015年中国电机工程学会年会于11月17日至20日在武汉召开.本次年会的主题为"能源革命与电力发展".会议期间,中国电机工程学会还安排了3场技术论坛和4场专题研讨会,包括在11月 ...

  4. 基于大数据的中文舆情分析

    本文出自我的公众号:程序员江湖. 满满干货,关注就送. 基于大数据的中文舆情分析 助力企业洞察商机 社交媒体发展日益瞩目,在这个社会化媒体时代,用户成为企业最好的品牌推广大使.本文以新浪微博上某大型商 ...

  5. 基于大数据POI基因图谱的再生技术研究

    摘要:本文从海量POI数据中找出再生特征,构建基因图谱,基于大数据技术提出了POI数据横向扩展.地理描述纠正.错误信息的最优处理标准和方案. 关键词:大数据 POI再生技术 1.引言 伴随着网络数字地 ...

  6. sqlplus几个存储过程执行变量值窜掉了_基于大数据的冷连轧过程控制优化技术研究...

    作者:郭立伟, 王彦辉 , 王佃龙,宋浩源,刘海超,曹静 摘要:针对冷连轧过程控制模型系统目前存在的问题,以摩擦系数模型参数优化和平坦度控制参数优化为例,本文阐述了在完整.准确和可靠的工艺实时数据基础 ...

  7. 人口流向数据_人口流向图正在悄然改写,谁会是新的机遇之城?

    风起于青萍之末,浪成于微澜之间,时代大变革出现的时候,你可能浑然不觉. 种种数据显示,今天的中国很可能正在上演一场深刻的人口流向逆转大潮,这场逆转事关东西部地区的力量格局,也事关每一个中国人的就业选择 ...

  8. 物流大数据平台-物流流向分析(二)

    接上一讲用BI工具FineBI,实现物流BI大数据平台的搭建.针对物流行业平台搭建问题,可通过构建快通流向分析仪表板,选取关键指标进行可视化分析,分析的问题如表所示. 分析主题 分析问题 分析指标 可 ...

  9. 基于签证数据的国际关系分析研究

    摘 要 摘要内容:这次实验采用"世界-区域-国家"的数据立方体思想,从宏观到微观的分析角度分析签证政策与国际形势的联系.依据全世界199个国家和地区的签证数据,通过Gephi.po ...

最新文章

  1. TensorFlow+TVM优化NMT神经机器翻译
  2. unix更喜欢进程,可是...
  3. monkey测试===ios-monkey测试工具
  4. halcon区域腐蚀膨胀算子_超越halcon速度的二值图像的腐蚀和膨胀,实现目前最快的半径相关类算法(附核心源码)。...
  5. 螺钉装弹垫平垫机器人_一种批量组装螺钉、弹垫、平垫的工装及使用方法_2
  6. Python之深入解析Vulture如何一键找出项目中所有无效的代码
  7. 【第6章 循环】while语句
  8. JQzoom的一些问题
  9. windows下用navicat远程链接虚拟机Linux下MySQL数据库
  10. c语言算无限小数,随机算式的除法如果答案是无限循环小数,怎么加精度?
  11. 微信开发之测试号申请
  12. 台式计算机亮度怎么调节快捷键,详解电脑调亮度快捷键如何调整屏幕亮度呢?...
  13. fread函数和fwrite函数的用法
  14. 企业为什么要建立独立电商网站?
  15. 如何让百度搜索到我的博客或者网站
  16. 新品周刊 | 可口可乐与时尚包袋品牌Kipling推出联名系列;阿迪达斯推出电竞灵感跑鞋...
  17. linux下管理显卡,Linux中显卡用户管理相关应用及命令行
  18. linux|基本命令总结
  19. BC807G-25 SOT-23 T/R 友顺UTC
  20. 多重共线性问题 -- 岭回归方法

热门文章

  1. 检测四川麻将是否胡牌算法的实现
  2. c 浏览器语言,让C代码在浏览器中运行
  3. 自定义View之模仿AppleWatch手表
  4. codeforces 274A. k-Multiple Free Set【二分】
  5. T35:统计一个数字在排序数组中出现的次数
  6. Electron实现跨平台全能视频播放器
  7. 捋一捋Python中的数学运算math库(上篇)
  8. 不平衡分类(二)-过采样(SMOTE)【Synthetic Minority Over-Sampling Technique ,“人工少数类过采样法“】
  9. CCL 2021 学生研讨会参会记录 (关键slides以及精炼心得)
  10. CCLink模块使用FX5-CCL-MS