轨迹相似度衡量任务

背景&应用：

随着物联网设备和定位技术的发展，会产生许多时空相似度很高的轨迹，例如：

对于单个个体：其轨迹可能会被多个定位系统所采集，比如当你驾驶汽车在高速上行驶，手机或汽车的GPS、路边的监控摄像头，以及经过的收费站等都会记录你的位置信息，生成多条轨迹。

对于多个个体：比如你的朋友和你结伴出行，生成的两条轨迹也是相似度很高的。

本文研究的方向就是设计一种方法来度量两条轨迹之间的相似度，帮助我们发现一些相似度很高的轨迹对。这是一项很有实际意义的工作，比如在案件侦破中，警方通过相似度分析可以将犯人的车辆、手机和人像联系起来，降低破案的难度。在疫情扩散的当下，我们还可以通过分析感染者的轨迹来寻找密切接触者。

内容参考自：https://zhuanlan.zhihu.com/p/452524959

任务：
设计一种算法来衡量两条轨迹之间的相似度，并且这些轨迹数据是有定位误差和零星采样问题。

存在的挑战

定位误差：存在噪声
零星采样：同一个路径 $R$ 对应多个轨迹 $T r$
采样率不同：给定轨迹和需要比较的轨迹的长度不一

传统方法

局限：

对采样率变化的轨迹对的处理较为粗糙；
依赖于轨迹对齐，时间复杂度： $O(n2l2)\mathcal{O}(n^2l^2)$ ,其中 $n$ 是样本数， $l$ 是轨迹长度；
局限于一种度量，缺乏通用性。

深度表示学习方法

t2vec

来自论文：Deep Representation Learning for TrajectorySimilarity Computation[ICDE2018]
对原始轨迹 $T_b$ 添加噪声、下采样为轨迹 $T_a$ ，希望轨迹 $T_a$ 能够生成原始轨迹 $T_b$ ；利用encoder-decoder学习轨迹的表示。
对空间相关性的建模，主要是在嵌入层：
- 对于每个网格 $u$ ，根据远近的分布采样邻近网格集合 $C(u)\mathcal{C}(u)$ ，用word2vec的方式得到 $u$ 的表示.
- 在decoder的 $t + 1$ 步，对 $y_{t}$ 邻近的网格进行加权.
实验是看增广的轨迹能否匹配原轨迹，两个表示向量的相似度计算方法文中没有介绍，应该就是点积。
评价：将深度学习引入轨迹相似度计算，更强调的是学习轨迹的表示，测试集上： $O(l+∣v∣)\mathcal{O}(l+|v|)$ .

NeuTraj

来自论文：Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach [ICDE2019]
引入神经度量学习的方法，使得学习到的度量 $g(T_i,T_j)$ 逼近真实度量 $f(T_i,T_j)$
可以拟合任意的轨迹度量， $f (\cdot, \cdot)$ 可以是豪斯多夫距离、弗雷歇距离、动态时间规整等任意的轨迹相似度的度量
模型层面：（1）仍然是基于RNN的模型，构建相似轨迹集进行训练；（2）空间信息在门控机制上进行了记忆设计
测试集上的复杂度 $O(l)\mathcal{O}(l)$ ，训练集复杂度是 $O(n2l2)\mathcal{O}(n^2l^2)$ ，其中 $n$ 是训练样本数， $l$ 是轨迹长度
评价：训练集的构建为方法不再局限于对原始轨迹的增广.

Traj2SimVec

来自论文：Trajectory Similarity Learning with Auxiliary Supervision and Optimal Matching [IJCAI2020]
和NeuTraj一样，神经度量学习，使得学习到的度量 $G (X, Y)$ 逼近真实度量 $S (X, Y)$ .
文章指出，尽管测试集上的轨迹相似度计算已经降低到线性时间，但是训练集的时间开销仍然是平方阶的，因为需要计算每个样本对之间的相似度。
对轨迹的处理：
- 引入了一篇轨迹简化（Trajectory Simplication）的工作，对轨迹点的重要性进行计算，对轨迹进行了划分和再采样后，引入了KD树（用于空间划分的特殊二叉树）进行存储。
- 建树对轨迹点进行表示，降低了计算成本：建树复杂度为 $O(nlogn)\mathcal{O}(nlog n)$ ，查询为 $O(logn)\mathcal{O}(log n)$ .
- 基于再采样后的轨迹，设计了对比子轨迹(sub-trajectory)的loss，通过局部的loss加权得到单个样本的loss.
- 进一步考虑长短不一的轨迹的局部相似性的问题，作者还设计了一种轨迹匹配点的triplet loss，进一步拓展了轨迹相似度的定义.
模型层面：仍然是RNN-based model.
评价：更关注训练阶段的计算开销；拓展了“相似”的定义。

TrajGAT

对之前工作的总结

经典的轨迹相似度指标：计算复杂度平方阶，且局限于单一的度量

基于深度表示学习的模型：

Motivation1: 长序列的处理

(1) 均为RNN-based，难在长序列上表现衰减，难以捕获长序列依赖

存在长序列依赖问题是怎样影响轨迹的相似度计算呢？

论文中给出的理由是：轨迹相似度的计算基于轨迹的对齐，如下图所示。当一个长的轨迹和短的轨迹进行对齐时，无法很好地捕获长的轨迹的信息。
在训练集构建的阶段，是用的传统算法来计算的ground truth；先前工作中中涉及轨迹对齐的应该说只有计算轨迹匹配loss的模块。个人认为还是最终学出的表示不够好的原因。
但是事实上，根据作者的实验，在西安数据集上，确实长序列的轨迹的命中率Recall@10\Recall@50和Recall10@50要小；效果更弱一些。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZEWTSqQ4-1666143031666)(https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/9b9aece0547649e9a4fe0374b5c13792~tplv-k3u1fbpfcp-watermark.image?)]
=> 最终目的是让长的轨迹得到比较好的表示。

Motivation2: 网格化的合理性

（2）作者认为，轨迹由空间的网格序列表示，让远距离的record无法相互作用（即：同一个轨迹中，间隔远的点也是具有相似性的）

（3）此外，作者还认为，由于轨迹在空间中是不均匀分布的，一些网格的数据多，一些网格的数据少，这种空间的异质性会导致一些网格的token在网络训练过程中没有得到足够的数据去优化，因此在长序列的轨迹中，会恶化表示的效果。

=> 希望能充分利用远距离和小样本的网格信息。

Motivation3：长序列表示的挑战

Transformer：GPU显存占用较高
长序列表示模型：Bp-transformer、Informer，没有建模空间信息

=> 希望能尽可能节省训练的显存占用。

本文的方案

引入了PR-四叉树可以较好地

保证各网格训练的均衡
基于四叉树的构图可以提供层次信息
相比于要计算每一个网格对的attention，在图上基于GAT的模型，只需要计算邻居的attention，限制了显存的占用。

问题定义

定义：

轨迹库 $T\mathcal{T}$ 包含 $N$ 条轨迹；
我们强调轨迹都分布在区域 $A\mathcal{A}$ 上；
每条轨迹： $T=[X1,...,Xt,...]∈TT=[X_1,...,X_t,...]\in\mathcal{T}$ ，其中 $X_t=(lon_t,lat_t)$ 是第t个到达点；
$f(T_i,T_j)$ 是对于轨迹 $T_i$ 和 $T_j$ 相似度的一个度量，可以是DTW，Hausdorff，Frechet距离等…
任务是学习一个函数 $g (\cdot, \cdot)$ 来估计轨迹的相似度，目标是最小化 $f(T_i,T_j)-g(T_i,T_j)|$ .

模型概述

首先是对区域 $A\mathcal{A}$ 做了一个层次划分，划分树是 $H\mathcal{H}$ 。模型对 $H\mathcal{H}$ 下的每一个层次的网格做了表示的预训练，希望能够获取不同层次的信息。
基于树 $H\mathcal{H}$ ，作者构造了一个图 $T^g$ . 用GAT获得 $T^g$ 的表示。根据轨迹的序列信息和层次信息生成轨迹的嵌入。
最后，设计ranking loss去学习轨迹的相似度度量。

层次划分

Traj使用Point Region Quadtree（点-区域四叉树）来表征区域的层次划分。

通过对区域进行不断的划分，四叉树的分支，最终保证每个区域包含 $δ\delta$ 个节点， $δ\delta$ 是一个经验性的参数。
忽略叶子节点，四叉树构成了对原区域 $A\mathcal{A}$ 的一个划分，记作 $H\mathcal{H}$ 。
随着区域 $A\mathcal{A}$ 的增加，作者试图论证： $H\mathcal{H}$ 倾向于稳定（实验见附录A.3，但pdf中没有给出附录）。
Traj模型基于这个划分进行设计。

网格的嵌入

将树 $H\mathcal{H}$ 看做一个图。
用Node2vec获得图中各个节点的表示。
最终得到的嵌入记作： $MH∈dh×Nh\bold{M}_\mathcal{H} \in d_h \times N_h$ ，得到的各个节点的表示后续将用于计算轨迹的表示

轨迹的编码

构图

对于轨迹 $T$ ，我们构造了一个新的图 $Tg=(N,E)T^g = (\bold{N},\bold{E})$

$N\bold{N}$ 包括两部分：由轨迹构成的 $Nr\bold{N}_r$ 和轨迹的层次信息构成的 $Nh\bold{N}_h$

首先找到其包含的轨迹点（对应的网格对应的节点）的嵌入： $Nr={n1,...,nL}\bold{N}_r = \{\bold{n}_1,...,\bold{n}_L\}$ .
递归地查找PR-四叉树 $H\mathcal{H}$ 中叶子节点 $i$ 的父节点，即：包含该节点的所有大小的网格，直到网格大小（即节点的层次）到设定的阈值 $η\eta$ .
$η\eta$ 是一个超参数，查找出的节点集合根据层级 $i$ 分别记作： $Nr1,Nr2,...,Nrη\bold{N}_r^1,\bold{N}_r^2,...,\bold{N}_r^\eta$
所有轨迹点的上 $η\eta$ 层构成的节点的嵌入集合记作： $Nh\bold{N}_h$ ，即：$\bold{N}_h = {\bold{N}_h^1 ,… ,\bold{N}_h^\eta} $

$E\bold{E}$ 包括两部分：（1）原有四叉树中的边；（2）对同层的非叶子节点增加的全连接边，即：每一个 $N_h^i$ 都是全连接的完全子图。

节点的表示

新的图 $Tg=(N,E)T^g = (\bold{N},\bold{E})$ 是同质的，即：每个节点的表示方式是一致的，都包括三部分： $fi=concat(fl,fr,fh)∈R3df\bold{f}_i = concat(\bold{f}^l,\bold{f}^r,\bold{f}^h) \in \mathbb{R}^{3d_f}$

地点特征： $fil=MLP(xi,yi)\bold{f}_i^l=MLP(x_i,y_i)$ ， $x_i,y_i)$ 是归一化后的节点坐标或区域中心坐标。
区域特征： $fir=MLP(wi,hi)\bold{f}_i^r=MLP(w_i,h_i)$ ， $w_i,h_i)$ 是区域的长和宽
层次特征： $fih=Embedding(MH,ni)\bold{f}_i^h=Embedding(\bold{M}_\mathcal{H},\bold{n}_i)$ //查询节点i的信息

序列编码

作者通过层次遍历生成树的序列信息，形成节点的列表 $L$ ：

对 $L$ 进行位置编码，得到 $λis\lambda^s_i$ ：

作者希望通过计算图的Laplacian矩阵对应的低频特征向量+节点对应的特征向量，表示节点的距离信息:

最终，得到节点的表示向量 $ii\bold{i}_i$ ：

GAT

基于图去计算注意力，只需要利用领近节点的表示，避免了序列Transformer中计算每一组向量的注意力带来的过大开销：

经过 $P$ 层的聚合，得到每个节点的最终表示： $[h1P,...,hMP][\bold{h}_1^P,...,\bold{h}_M^P]$

轨迹的最终表示：

实验

作者选取了两个数据集：Didi Xian和Porto，根据轨迹的长短，分成了两个子数据集：Mix和Long.

对于长的轨迹，超过了所有的baseline；作者认为单纯对长的轨迹的处理更为困难。因此模型的设计是有作用的。

轨迹相似度的计算可以服务于聚类任务，作者使用不同的相似度方法进行聚类，并比较了四种聚类指标下的聚类指数。可以看到TrajGAT远远领先于其它的方法。

在内存占用复杂度上，TrajGAT也有一定的优越性。

作者进一步做了消融实验，证明了网格划分、GAT和轨迹表示模块的有效性。

小结

作者提出的空间划分方式，将equal-size的网格转换为了层次结构，并通过同一级节点的连接，构造出了一个空间划分的图，具有一定的新意。
在此基础上，作者使用的图注意力机制捕获长序依赖，在实验上取得了良好的效果。

【拓展阅读】

关于通过二叉树的方式做轨迹的划分的文章:
POI2Vec: Geographical Latent Representation for Predicting Future Visitors

考虑了轨迹的时间维度：
Towards robust trajectory similarity computation: Representation-based spatio-temporal similarity quantification

TrajGAT：轨迹相似度计算模型相关推荐

向量空间模型(VSM)在文档相似度计算上的简单介绍
向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词:w1,w2 ...
vsm java_向量空间模型(VSM)在文档相似度计算上的简单介绍
C#实现在: 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理. 假设共有十个词: ...
相似度计算常用方法综述
引言相似度计算用于衡量对象之间的相似程度,在数据挖掘.自然语言处理中是一个基础性计算.其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系.在信息检索.网页判重.推荐系统等,都涉及到 ...
R语言构建xgboost模型：模型的特性重要度计算及可视化、模型对应的结构树（文本文件）
R语言构建xgboost模型:模型的特性重要度计算及可视化.模型对应的结构树(文本文件) 目录
R语言构建xgboost模型：特征重要度计算及解读、改善特征重要度数据的可解释性、特征重要度可视化
R语言构建xgboost模型:特征重要度计算及解读.改善特征重要度数据的可解释性.特征重要度可视化目录
新手学信息检索4：向量空间模型与相似度计算
相似度从字面上理解就是两个事物的相似程度.在信息检索中,相似度表示的是两个文档之间的相似程度或者查询与文档的相似程度. 首先回想一下检索过程: 1:首先用户输入查询词. 2:搜索引擎根据查询词查找相应 ...
LSF-SCNN：一种基于 CNN 的短文本表达模型及相似度计算的全新优化模型
欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 本篇文章是我在读期间,对自然语言处理中的文本相似度问题研究取得的一点小成果.如果你对自然语言处理 (natural language proc ...
(3)tesorflow 计算模型复杂度
目录 1. 计算模型复杂度的衡量 2 . 典型层的复杂性计算原理 2.1 全连接层的复杂性计算 2.2 卷积层的复杂性计算 3. 全连接Tensorflow实现 4. GraphDef 5. Free ...
BTM主题模型构建及困惑度计算
小白一枚,有什么不对的地方请多指教. BTM主题模型主要针对短文本而言,这里实现的方法主要参考论文<A Biterm Topic Model for Short Texts>,代码在作者的 ...

TrajGAT：轨迹相似度计算模型