什么是时空数据(Spatio-Temporal Data, ST)

在论文 Deep learning for Spatio-Temporal Data Mining: A Survey 中,将时空数据分成以下几种类型:

1)事件数据

事件数据包括在地点和时间发生的离散事件(例如城市中的犯罪事件和交通网络中的交通事故事件)。通常,事件的特征可以是点的位置和时间,分别表示事件发生的位置和时间。例如,犯罪事件的特征可以是这样的元组(ei,li,ti),其中ei是犯罪类型,li是犯罪发生的地点,ti是犯罪发生的时间。

下图(a)展示了事件数据。它显示了三种类型的事件,这些事件由不同形状的符号表示。 ST事件数据在犯罪学(犯罪和相关事件的发生率),流行病学(疾病暴发事件),交通(车祸)和社交网络(社交事件和趋势主题)等现实应用中很常见。

2)轨迹数据

轨迹表示随时间推移在空间中移动的物体所跟踪的路径。 (例如,自行车旅行或出租车旅行的行驶路线)。 轨迹数据通常由部署在移动物体上的传感器收集,这些传感器可以随着时间的推移周期性地传输物体的位置,例如出租车上的GPS。

上图(b)显示了两个轨迹的图示。 每个轨迹通常可以表征为这样的序列{(l1,t1),(l2,t2)…(ln,tn)},其中li是位置(例如纬度和经度),ti是时间 移动物体通过此位置。 随着移动应用程序和物联网技术的发展,诸如人类轨迹,城市交通轨迹和基于位置的社交网络等轨迹数据变得无处不在。

3)点参考数据

点参考数据包括连续ST场的测量值,例如在空间和时间上一组移动参考点上的温度,植被或种群。 例如,通常使用漂浮在太空中的气象气球来测量诸如温度和湿度之类的气象数据,这些气象气球会连续记录天气观测结果。 点参考数据通常可以表示为一组元组,如下{(r1,l1,t1),(r2,l2,t2)…(rn,ln,tn)}。 每个元组(ri,li,ti)表示在时间ti处ST的位置li处传感器ri的测量。 下图示出了在两个时间戳处的连续ST场中的点参考数据(例如海面温度)的示例。 它们是由传感器在两个时间戳记的参考位置(显示为圆圈)测量的。 请注意,温度传感器的位置会随时间变化

4)栅格数据

栅格数据是连续或离散ST场的测量值,记录在空间中的固定位置和固定的时间点。点参考数据和栅格数据之间的主要区别在于,点参考数据的位置不断变化,而栅格数据的位置固定。测量ST场的位置和时间可以规则或不规则地分布。给定m个固定位置S = {s1,s2,… sm}和n个时间戳T = {t1,t2,… tn},栅格数据可以表示为矩阵Rm×n,其中每个条目rij是时间戳tj处si处的测量值。栅格数据在运输,气候科学和神经科学等实际应用中也很常见。例如,空气质量数据(例如PM2.5)可以由部署在城市固定位置的传感器收集,并且在连续时间段内收集的数据形成空气质量栅格数据。在神经科学中,功能磁共振成像或功能MRI(fMRI)通过检测与血流相关的变化来测量大脑活动。扫描的fMRI信号还形成用于分析大脑活动和识别某些疾病的栅格数据。下图示出了运输网络的交通流栅格数据的示例。每条道路都部署了交通传感器,以收集实时交通流量数据。一整天(24小时)内所有道路传感器的交通流量数据形成一个栅格数据。

5)视频

包含一系列图像的视频也可以视为一种ST数据。在空间域中,相邻像素通常具有相似的RGB值,因此呈现出较高的空间相关性。在时间域中,连续帧的图像通常会平滑变化并呈现出较高的时间依赖性。视频通常可以表示为三维张量,一维表示时间t,另两个维表示图像。实际上,如果我们假设在每个像素处都部署了一个“传感器”,并且在每个帧处,“传感器”将收集RGB值,则视频数据也可以视为特殊的栅格数据。

时空数据的应用场景

1)交通类:交通事故检测、交通拥堵预测、迁徙预测、

2)用需类:派单、订单预估、预计到达时间(ETA)、预估价格、基于LBS的个性化推荐

3)天气类:空气质量推断、降水预测、风速预测、极端天气检测

4)宏观类:城市规划、人口预测、传染病传播预测、犯罪预测

时空数据的深度学习模型

1)CNN

CNN本质上是一个多层感知机,其成功的原因关键在于它所采用的局部连接和共享权值的方式,一方面减少了的权值的数量使得网络易于优化,另一方面降低了过拟合的风险。CNN可以很好的学习到ST数据中的空间特征。

3.1)典型模型举例之 ST-CNN:

  • 把时空数据抽象成1维空间数据,使用1D-CNN进行特征提取
  • 把时空数据抽象成2维空间数据,使用2D-CNN进行特征提
    • 一个用户在某个poi上的停留,按时间顺序,比如取过去30天的数据,每天24个小时,即一共72小时的数据, 可以排成30*24的二维结构
    • 一个用户在某个城市的一天的轨迹,可以按m*n个格子进行划分,形成m*n的二维结构

  • 把时空数据抽象成3维空间数据,使用3D-CNN进行特征提取

    • 一个用户在某个城市的一天的轨迹,可以按m*n个格子进行划分,取t天,则形成m*n*t的三维结构

3.2)典型模型举例之 ST-ResNet:论文

  • ST-ResNet使用三个ResNet模型分别去拟合周期性(period)、邻近性(closeness)和趋势性(trend)。三个性质用weight权重连接,在不同的region和部分使用不同的权重。

3.3)典型模型举例之 TCN:

  • 利用膨胀因果卷积(也叫空洞卷积),扩大感受野(指数级增加)和获取多尺度上下文信息(利用不同的空洞率)

2)GraphCNN

CNN处理的图像或者视频数据中像素点(pixel)是排列成成很整齐的矩阵,即Euclidean Structure。与之相应,还有很多Non Euclidean Structure,这样的网络结构(Non Euclidean Structure)就是图论中抽象意义上的拓扑图。

简单来说GCN根据图谱的理论(借助于图的拉普拉斯矩阵的特征值和特征向量来研究图的性质)来实现拓扑图上的卷积操作。在各个节点的邻居上进行卷积+池化,堆叠多层后,每个节点的embedding可以包含来自距离多跳的邻居的更多信息。

类似CNN,GraphCNN可以很好的学习到图结构ST数据中的空间特征。

2.1)典型模型举例之 ST-GCN:论文

  • GCN 可以学习到空间中相邻位置的局部特征。如何为 Graph 叠加时序特征,是图卷积网络面临的问题之一。这方面的研究主要有两个思路:时间卷积(TCN)和序列模型(LSTM)。
  • ST-GCN 使用的是 TCN,由于形状固定,可以使用传统的卷积层完成时间卷积操作。为了便于理解,可以类比图像的卷积操作。ST-GCN 的 feature map 最后三个维度的形状为(C,V,T),与图像 feature map 的形状(C,W,H)相对应,其中图像的通道数C对应位置的特征数C,图像的宽W对应关键帧数V,图像的高H对应位置数T。

2.2)典型模型举例之 GCN+LSTM:待续

3)RNN、LSTM、Seq2Seq等变体

RNN、LSTM、Seq2Seq等变体可以很好的学习到ST数据之间的依存关系,比如是时间上。

相关模型介绍:

3.1)典型模型举例之 ConvLSTM:论文

  • 将城市分成m*n的格子A,每个格子里面的数值表示在某个时间间隔内的某统计值(比如论文中的降雨量)
  • 每个时间点ti对应一个Ai,对应时间序列t1,t2,..,tn,存在A1,A2,...,An
  • 在矩阵Ai采用卷积的方式来提取特征;在时间维度上采用LSTM提取特征

下图第一个是传统的lstm单元,第二个就是ConvLSTM的单元,跟lstm基本是一样的结构。

最后一个图就是整体的模型网络。

3.2)典型模型举例之 PredRNN:论文

  • 传统的ConvLSTM体系结构中每个单元格的状态只能水平更新。空间维度随着每层的cnn结构被逐步编码,而时间维度的memory cells属于彼此独立,在每个时间步被更新,这种情况下,最底层就会忽略之前的时间步中的最高层的时间信息,这也是ConvLSTM的层与层之间独立mermory mechanism缺点
  • PredRNN利用ConvLSTM作为基本构建块,然后进行堆叠
  • PredRNN传统的ConvLSTM体系结构中每个单元格的状态只能水平更新。本文应用一个统一的时空记忆池并改变RNN连接,可以从不同层次的卷积层中提取的表示中学习

下图是ConvLSTM和PredRNN模型网络的对比。通过对比可以看到,最大的区别是第一个时刻最高层的输出,会作为第二个时刻最底层的输入。

下图主要是对比传统的lstm单元和st-lstm单元(PredRNN使用的网络单元)。通过对比可以看到,其实左边是两个完全一样的LSTM结构,只是下面的cell output和hidden state都由M代替了,其他的输出部分其实就相当于把两个LSTM结构的输出整合在一起分别输出计算了。 文中称左图的上半部分"Standard Temporal Memory", 下半部分称"Spatiotemporal Memory"。

Ctemporal stateMspatial state因为输入C为上一个时刻的CM是上一层的M所以这里C与时间维度有关,M与空间维度有关。

3.3)典型模型举例之 PredRNN++:论文

  • 提出了新的单元Casual LSTM(时空记忆单元的级联操作),可以在层次不变的情况下,增加更多的非线性操作,使得特征会放大,这样更有利于捕捉短期动态变化和突发情况

  • 提出了GHU(Gradient Highway Unit,梯度高速公路单元),使时间步中的特征直接传递,在反向传播的时候更容易保留下梯度,解决梯度消失的问题

总体的模型结构如下:

3.4)典型模型举例之 TrajGRU:论文

  • 当用于获取时空相关性时,ConvGRU或者其他ConvRNNs等的不足在于所有位置的连接结构和权值都是固定的。卷积运算基本上是对输入应用一个位置不变的滤波器。当卷积的超参数固定时,邻域集合N对所有位置保持不变。然而,大多数运动模式对于不同的位置有不同的邻域集。例如,旋转和缩放会产生指向不同方向的不同角度的流场。因此,更合理的做法是使用基于位置变化的连接结构location-variant connection structure
  • TrajGRU使用当前输入和以前的状态在每个时间戳为每个位置生成本地邻域集。

3.5)典型模型举例之 GAN+LSTM:待续

3.6)典型模型举例之 Cubic LSTMs:论文

  • CnbicLSTM包括三个branch:temporal branch, spatial branch, output branch。temporal branch主要是获得动作的,也就是目标之间的变化即时间的运动信息,spatial branch主要是获取本身目标的结构信息即目标空间信息,output branch就是把二者做了个整合,之后输出prediction。

下图中第一个是CnbicLSTM的一个cell立体结构图。第二个是cell的平面展开图。第三个包含了两层空间结构。第四个图包含了三层空间结构。

                       

4)Transformer/BERT

将用户线下行为序列,类比成文本序列,参考BERT模型对用户进行表征,从而对用户进行分类/预测。

深度学习在时空数据的应用相关推荐

  1. 【code for papers】深度学习在海洋数据推断和亚网格参数化中的应用

    论文介绍 深度学习在海洋数据推断和亚网格参数化中的应用 Applications of Deep Learning to Ocean Data Inference and Sub-Grid Param ...

  2. 资源 | AI、神经网络、机器学习、深度学习以及大数据学习备忘单

    向AI转型的程序员都关注了这个号☝☝☝ 以下是关于神经网络.机器学习.深度学习以及大数据学习的备忘单,其中部分内容和此前发布的<资源 | 值得收藏的 27 个机器学习的小抄>有所重复,大家 ...

  3. 深度学习 vs. 大数据:神经网络权值的版权属于谁?

     深度学习 vs. 大数据:神经网络权值的版权属于谁? width="22" height="16" src="http://hits.sinaj ...

  4. Python之GUI:基于Python的GUI界面设计的一套AI课程学习(机器学习、深度学习、大数据、云计算等)推荐系统(包括语音生成、识别等前沿黑科技)

    Python之GUI:基于Python的GUI界面设计的一套AI课程学习(机器学习.深度学习.大数据.云计算等)推荐系统(包括语音生成.识别等前沿黑科技) 导读 基于Python的GUI界面设计的一套 ...

  5. 如何系统性掌握深度学习中的数据使用

    数据是深度学习系统的输入,对深度学习的发展起着至关重要的作用,但是又容易被很多人忽视,尤其是缺少实战的理论派. 今天便来谈谈这个问题,同时介绍一个好的学习社区供大家讨论与提升. 文/编辑 | 言有三 ...

  6. 【AI白身境】深度学习中的数据可视化​​​​​​​

    文章首发于微信公众号<有三AI> [AI白身境]深度学习中的数据可视化 今天是新专栏<AI白身境>的第八篇,所谓白身,就是什么都不会,还没有进入角色. 上一节我们已经讲述了如何 ...

  7. 【技术综述】深度学习中的数据增强(下)

    文章首发于微信公众号<有三AI> [技术综述]深度学习中的数据增强(下) 今天带来深度学习中的数据增强方法的下篇.我们将从以下几个方向入手.1,介绍一下什么是无监督的数据增强方法.2,简单 ...

  8. [综述类] 一文道尽深度学习中的数据增强方法(上)

    今天带来一次有关于深度学习中的数据增强方法的分享. 00 什么是数据增强 在深度学习项目中,寻找数据花费了相当多的时间.但在很多实际的项目中,我们难以找到充足的数据来完成任务. 为了要保证完美地完成项 ...

  9. 对pca降维后的手写体数字图片数据分类_【AI白身境】深度学习中的数据可视化...

    今天是新专栏<AI白身境>的第八篇,所谓白身,就是什么都不会,还没有进入角色. 上一节我们已经讲述了如何用爬虫爬取数据,那爬取完数据之后就应该是进行处理了,一个很常用的手段是数据可视化. ...

  10. 大数据 深度 分页_机器学习、深度学习、大数据 ?傻傻分不清楚?

    提起机器学习四个字,不知你的脑海中是否会有一丝印象?毕竟身处信息时代,在日常生活中,无论通过什么媒介,接触到这个名词概念的机会还是挺大的.与之类似,还有以下这些名词概念:数据分析.数据挖 掘.深度学习 ...

最新文章

  1. C#/Net代码精简优化技巧(3)
  2. SpringCloud个人笔记-01-Eureka初体验
  3. libzbar.a armv7
  4. 【kafka】控制台默认不能发送大数据 4096 4095 4129
  5. 【第二周】四人小组:车辆管理系统
  6. java retainall_Java Set retainAll()用法及代码示例
  7. DDD领域驱动(四)——之领域建模
  8. 东芝固态硬盘升级工具下载(软件+DMG)
  9. linux打印机服务器设置,linux中设置CUPS打印机
  10. mysql事务面试题第一篇
  11. pygame 躲避僵尸
  12. 僵尸进程zombie与孤儿进程orphan
  13. vue实现图书管理案例
  14. 《DAMA数据管理知识体系指南》读书笔记-第十二章(元数据管理)
  15. 股票大数据分析软件V2.7
  16. python字典函数大全_python字典介绍
  17. 【BAT-表姐御用04ren进阶命令】文件数字顺序命名及改名(含命令解释)
  18. AI创作教程之Stable Diffusion 与Photoshop融合使用(含安装方法)
  19. PHP易支付网站源码+免签约接口
  20. 亚马逊评论爬虫+数据分析

热门文章

  1. 树莓派基础实验38:逻辑分析仪分析PWM、UART信号
  2. 自然语言处理的会议、论文集下载
  3. android 罗盘陀螺仪,电子罗盘和陀螺仪的区别以及工作原理介绍
  4. Java堆栈的简单图示
  5. xvid编解码器安装
  6. 高一计算机基础知识题简答题,高一信息技术试题及答案
  7. 使用ensp搭建简单校园网拓扑
  8. 数据库时间相减_sql中两个时间类型相减得到的值
  9. 阿里字体小图标的使用
  10. windows server 2008 关机后安装自动更新,反复启动,不能进入系统