1. 简介

收集数据的能力不断增强,使我们有可能收集大量的异构数据。在可用的异构数据中,时间序列代表着尚未被充分探索的信息母体。当前的数据挖掘技术在分析时间序列时存在多个缺点,尤其是在应同时分析多个时间序列(即多维时间序列)以从数据中提取知识时。

2. K-MDTSC和k-Shape

论文: https://www.mdpi.com/2079-9292/10/10/1166

2.1  K-Means

K-means是一种从统计学中诞生的经典聚类算法。它创建基于中心的集群,例如集群中的点更接近(因此更相似)它们所属的集群的质心(即集群的中心),而不是其他集群的质心。在k -means中,用户指定一个参数k,表示所需集群的数量。然后,从输入点开始,k -means将它们分组到k个簇中,将它们分配到最近的质心。然后,它返回每个群集和各自的质心。

首先,k -means在输入数据空间中随机抽取k个点,并将其作为聚类的初始质心。然后将所有输入点分配到与各自质心距离最短(通常为欧氏距离)的聚类中。一旦K-means将所有点分配到一个集群中,新的质心将被计算出来并与之前的质心进行比较。如果质心不变,算法将停止并返回生成的聚类和质心。否则,算法将重新启动,根据新的质心将所有点重新分配到集群。虽然传统的K-means代表了一种简单而高效的将点分组的算法,但它在距离定义方面有一些众所周知的局限性和一些众所周知的关键问题,如创建空簇。最重要的是,K-means不容易处理时间序列。

2.2 k-Shape

k-Shape是一种基于K-means的时间序列聚类算法。为了处理时间序列,k-Shape采用基于形状的距离来评估两条曲线之间的相似度。此外,基于形状的距离使用互相相关距离来识别两条曲线之间的最小距离,即使它们没有正确对齐。为此,它首先移动其中的一个,以确定到最小距离的最佳对齐。然后,为了处理时间序列固有的扭曲,k-Shape使用了一个z归一化过程。k-Shape通过用单个序列的自相关的几何平均值归一化互相关距离来计算基于形状的距离。

虽然k-Shape可以识别时间序列簇,即使它们没有对齐,但它本身不能处理多维时间序列。实际上,k-Shape只得到一维时间序列的输入。在这里,我们将其调整为多维时间序列,以应对这种约束。

已知多维时间序列XN(z),其中N表示维数,我们将X(z)定义为一维时间序列,将所有维数连接如下:

最后,我们将X(z)时间序列作为k-Shape的输入。

2.3 K-MDTSC

我们将K-MDTSC基于传统的K-means算法。首先,我们定义了一个广义的距离概念来处理时间序列,特别是多维时间序列。

给定一对多维时间序列XN(z)和YN(z),其中z表示z个样本中的样本,N表示维数,我们定义广义距离如下:

其中L表示公制距离。对于我们的实现,我们依赖于L = 2,即欧氏距离。我们使用距离d(.)在Kmeans算法中找到最近的质心。注意,我们的广义距离假设XN(z)和YN(z)是同步的多维时间序列。

3. 其他方法

论文:A multivariate time series clustering approach for crime trends prediction | IEEE Conference Publication | IEEE Xplore

利用单维时间序列的聚类思想,给多维时间序列的各个维度赋予特定的权值,每个行向量作为一个时间点。由于MTS样本长度不等,样本之间的相似度使用动态时间弯曲(Dynamic Time Warping, DTW)度量,最佳匹配路径上每一对时间点的多维向量之间的距离利用闵可夫斯基参数模型计算。该算法需要领域知识为各个变量赋予权值,且DTW距离度量方法的计算量较大。

论文:基于变量相关性的多元时间序列特征表示 - 中国知网

提出基于变量相关性的MTS特征表示方法,通过协方差反映系统中各个参数的相关关系,将MTS样本转化为协方差矩阵;MTS集所有的协方差矩阵拼接为综合协方差矩阵,对该协方差矩阵进行主成分分析得到各MTS的特征矩阵。该方法可以将数值型不等长MTS数据集转变为大小相同的特征矩阵集合,处理结果可用于聚类分析。

论文:Interaction-Based Clustering of Multivariate Time Series | Proceedings of the 2009 Ninth IEEE International Conference on Data Mining

提出了一种基于参数交互关系的MTS聚类方法,指出MTS中的任一维变量都可以被其他解释变量近似线性组合表示,且将一维线性关系纳入了考虑范畴,假定这些变量间的线性相关关系可以用来进行聚类,其不足之处在于模型计算时间会随着样本数量变大而增加,也不能处理非数值型变量。

论文:Structure-Based Statistical Features and Multivariate Time Series Clustering | IEEE Conference Publication | IEEE Xplore

将每一维时间序列转化为一个统计特征数组,MTS样本由各维变量统计特征数组拼接成的向量来表示。该算法可以处理不等长时间序列,但要求各维选取的统计特征必须一致导致其在处理混合型MTS数据集时会遇到困难。

论文:https://ietresearch.onlinelibrary.wiley.com/doi/10.1049/el.2016.0701

针对MTS数据集存在的样本之间不等长、数据类型多样和噪声等问题,提出了一种基于协方差矩阵与测地线距离(geodesic-based distance)的MTS聚类算法。该算法首先将MTS样本转化为协方差矩阵;然后将协方差矩阵从黎曼空间映射到欧氏空间;最后对矩阵集进行聚类。如果使用基于距离的聚类算法,上述映射过程可以省略,协方差矩阵之间的距离度量方法使用测地线距离。

论文:https://www.researchgate.net/publication/273063437_A_Model-Based_Multivariate_Time_Series_Clustering_Algorithm

提出了一种基于模型的多维时间序列聚类算法——MUTSCA〈LR〉(Multivariate Time Series Clustering Algorithm 〈Lift Ratio〉),该聚类算法假设目标数据集由一系列概率分布模型系统生成,不同的系统将生成相异的多维时间序列。该算法先将连续型数值符号化;然后在符号化样本上计算由LR(Lift Ratio)向量表示的时序模式,将时序模式累加生成用来表示MTS样本的模型向量;最后对模型向量集进行聚类。它不需要特定的领域知识,同时可以处理包含数值和非数值型变量的混合型MTS数据集。

高维多元时序数据聚类相关推荐

  1. 【论文阅读笔记】ICML2022 时序异质数据 聚类 深度学习

    [本文首发于CSDN个人博客,转载请注明出处.In case of infringement, please contact to delete.] 今天破冰咯~ 趁着自己刚认真看完一篇论文,记录一下 ...

  2. 高维多元数据拟合回归如何进行???

    一.高维多元数据非线性/线性拟合: Matlab绘制三维空间网格散点图,使用cftool工具箱实现三维空间绘图.cftool工具箱是应用程序中的Curve Fitting应用.选择拟合曲线的类型,工具 ...

  3. 手把手教你用Python玩转时序数据,从采样、预测到聚类

    本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处 本文约1800字,建议阅读5分钟 如果你有朝一日碰到了时序数据,该怎么用Python搞定它呢? 时序数据,也就是时间序列 ...

  4. python数据预测代码_手把手教你用Python玩转时序数据,从采样、预测到聚类丨代码...

    原标题:手把手教你用Python玩转时序数据,从采样.预测到聚类丨代码 原作 Arnaud Zinflou 郭一璞 编译 时序数据,也就是时间序列的数据. 像股票价格.每日天气.体重变化这一类,都是时 ...

  5. 【数据可视化】复杂高维多元数据的可视化

    1 高维多元数据 每个数据对象有两个或两个以上独立或者相关属性的数据.高维指数据具有多个独立属性,多元指数据具有多个相关属性.由于研究者在很多情况下不确定数据的属性是否独立,因此通常简单地称之为多元数 ...

  6. 探索可观测性:AIOps中的时序数据应用

    01. 背景 随着科技的发展,时序数据在我们的认知中占据越来越多的位置,小到电子元件在每个时刻的状态,大到世界每天的新冠治愈人数,一切可观测,可度量,可统计的数据只要带上了时间这个重要的因素就会成为时 ...

  7. LTSM 实现多元素时序数据植物健康预测

    作者 | 李秋键 出品 | AI科技大本营(ID:rgznai100) 引言: 近些年来,"预测"一词在各个领域被频繁提及,所谓预测,实际上就是根据历史规律,推测未来结果.在科学技 ...

  8. 积微论坛报告视频+PPT:用微生物组时序数据重现生物膜装配动态过程

    点击阅读原文观看视频!后台回复"王金锋"获得视频和讲稿下载链接. 用微生物组时序数据重现生物膜装配动态过程 主讲人介绍 王金锋,博士.2011年入职中国科学院北京生命科学研究院工作 ...

  9. 基于海量日志和时序数据的质量建设最佳实践

    简介: 在云原生和DevOps研发模式的挑战下,一个系统从开发.测试.到上线的整个过程中,会产生大量的日志.指标.事件以及告警等数据,这也给企业质量平台建设带来了很大的挑战.本议题主要通过可观测性的角 ...

最新文章

  1. Flutter调试技巧总结——高效开发的秘密
  2. 1470: 区间求最值(RMQ问题,ST算法模板)
  3. java gson序列化_java – Gson多态序列化
  4. 买苹果---动态规划
  5. C语言链表与malloc函数
  6. Unhandled exception in MSDEV.EXE(DEVSHL.DLL) 0xC0000005 access violation
  7. 用Proj.4进行坐标系转换(以北京54坐标系转WGS84投影坐标系为例)
  8. java基础jdk,jre,jvm作业-答案
  9. chemdraw如何改中文_教你如何快速自定义ChemDraw默认设置
  10. JavaExcel模板下载(多sheet)
  11. 医院PACS系统源码 PACS信息系统源码
  12. 深度学习研究基因组学
  13. 基于SSM的快递代取管理系统
  14. Go语言之分支结构(十一)
  15. excel表格横向纵向变换_什么是报表工具?和 EXCEL 有什么区别?
  16. kali攻击wifi、破解wifi详细教程(仅供学习使用)
  17. outlook 无法打开
  18. 【论文解读】手术机器人系统的工作原理分析与解读
  19. php7.0 freetype_php 添加 freetype支持
  20. 当代女画家扬笛人物画《怒放丝路20》赏析

热门文章

  1. 计算机控制电视机,HDMI连接(电脑与电视机)设置
  2. 关于地质灾害风险性评价
  3. linux rpm安装docker,yum下载rpm以及相关依赖的方式离线安装docker
  4. 苹果HEIC图片转换器
  5. 微服务项目中引入全链路监控平台:Pinpoint、SkyWalking、Zipkin怎么选?
  6. 写了个魔兽争霸辅助工具
  7. jsp+ssm计算机毕业设计学生互评的在线作业管理系统【附源码】
  8. 全国大学计算机基础应用试题及答案,大学计算机基础试题题库(免费版,有答案的)...
  9. norm(w)在matlab,MATLAB中norm的使用方法
  10. 却说宋江因这一场大 水浒传