文章目录

  • 1 摘要
  • 2 引言
    • 2.1 类似的工作 SAX
    • 2.2 本文成果
  • 3 相关知识
    • 3.1 极值点EP 成为关键点KP 的条件
    • 3.2 DTW距离
    • 3.3 基于Normal矩阵的谱平分法
  • 4 本文算法
    • 4.1 关键点提取
    • 4.2 基于DTW的符号化聚类算法
  • 5 实验结果与分析
    • 5.1 数据部分
    • 5.2 Synthetic Control 数据集中的序列1到序列4的符号表示
    • 5.3 对于符号化之后得到的复杂网络 再进行划分
  • 6 总结

写在前面:期刊:《软件天地》;不知道这是什么期刊,2011年发表的。

1 摘要

  • 提出了一种基于DTW的符号化时间序列聚类算法,对降维后得到的不等长符号时间序列进行聚类。

步骤如下:
第一,先对时间序列进行降维处理,提取时间序列的关键点,并对其进行符号化;
第二,利用 DTW 方法进行相似度计算;
第三,利用Normal矩阵和FCM方法进行聚类分析。

2 引言

  1. 时间序列的相似性,是衡量两个时间序列相似程度的一个重要指标,它是时间序列聚类、分类、异常发现等诸多数据挖掘问题的基础,也是研究时间序列挖掘的核心问题之一。
  2. 欧式距离(Euclidean)和动态时间弯曲距离(Dynamic Time Wraping)是计算时间序列相似性中经常被使用的度量方式。
  3. 欧式距离对时间轴上的轻微变化非常敏感,而且要求时间序列是等长的,在处理一般问题时,欧式距离并没有很好的表现。而动态弯曲距离(DTW)则能很好的消除欧式距离的缺陷。

2.1 类似的工作 SAX

SAX 是一种运用符号化方法对时间序列进行表示、 维度约简及相似性度量的方法。

但SAX方法采用PAA算法将时,是将时间序列平均划分,因此会丢失掉一部分的语义信息;

而如果利用均分点+关键点,同时对序列进行分段,则既考虑了序列本身概率分布变化,又能兼顾到形态的变化。[1]

[1] 《一种基于关键点的SAX改进算法》 闫秋艳

2.2 本文成果

  • 本文提出一种基于DTW的符号化时间序列聚类算法。

①在提取关键点之后,再进行符号化时间序列,以达到降维的目的。
②降维之后得到的符号序列为不等长序列,采用动态时间弯曲距离(DTW)方法进行计算,鲁棒性
好。
③通过DTW得到的距离矩阵构建复杂网络,并寻
找其社团结构,实现了符号时间序列聚类。

3 相关知识

3.1 极值点EP 成为关键点KP 的条件

  • 条件1. x i x_i xi​保持极值的时间段与该序列长度的比值必须大于某一个阈值 C C C;
  • 若条件1不满足,则包含 x i x_i xi​的最小序列规模式< x i − 1 , x i , x i + 1 x_{i-1} ,x_{i},x_{i+1} xi−1​,xi​,xi+1​> , 三点连线形成的夹角小于筛选角度 α 0 \alpha_0 α0​ 。(当然是角度越小越好)

3.2 DTW距离

3.3 基于Normal矩阵的谱平分法

  • 需要一个阈值
  • 可以实现复杂网络的划分

4 本文算法

4.1 关键点提取

  • 关于如何选择极值点,这里写的还是蛮清楚的。
  • 就是(1)我没看懂,推论1 在哪呢?

4.2 基于DTW的符号化聚类算法

  • 根据4.1得到的一个关键点序列,计算各段之间的均值,然后用符号表示。也就是生成了一个符号序列
  • 对于两个符号序列,可以用距离度量算法计算距离
  • 最后使用Normal矩阵方法和FCM算法对网络进行划分

5 实验结果与分析

5.1 数据部分

5.2 Synthetic Control 数据集中的序列1到序列4的符号表示

  • 这个数据集,共有300条序列数据
  • 每个序列数据的长度都是60
  • 以10为单位均分,得到6个小分段
  • 对于每一个小分段,再求取其中的极值点,例如序列1的 1-10 就用了bc来表示,应该是存在一个极值点!

5.3 对于符号化之后得到的复杂网络 再进行划分


6 总结

  • 【前人工作】SAX是一种符号化的时间序列相似性度量方法,该方法在对时间序列划分时,采用了PAA算法的均值划分,均值划分丢失了部分关键信息。
  • 【本文工作】将关键点提取方法与PAA方法相结合,在对原序列降维的同时又能更准确地表示原时间序列。(就是既要考虑均值点,又要考虑极值点)

本文将复杂网络知识和时间序列降维方法相结合,给出了一种时间序列的聚类方法。

该算法用DTW算法计算时间序列间的相似度,而后从时间序列的相似度得到一个复杂网络,此复杂网络表示了时间序列相互间的关系。最后采用Normal矩阵的方法进行网络划分,得到一个网络的社团结构。

从这个社团结构中已能看出样本时间序列的归属类别,但为了结果更加清晰,用具体数字来体现,所以采用了FCM聚类算法进行最后的聚类。

实验结果表明,用DTW方法计算序列之间的相似度结合在降维后的符号化时间序列上比原文KPDIST方法在准确率上有较好大提高。

论文学习——一种基于DTW的符号化时间序列聚类算法相关推荐

  1. 论文学习——一种基于关键点的SAX改进算法

    文章目录 1 摘要 2 引言 2.1 SAX的缺点+ 举个例子分析 2.2 分析问题原因 2.3 本文的改进工作 3 实验结果与分析 3.1 关键点的选取规则 3.2 本文定义的相似度距离计算公式 3 ...

  2. 一种基于加密域的数字图像水印算法的设计与实现(附Matlab源码)

    一种基于加密域的数字图像水印算法的设计与实现 项目介绍 毕设项目 题目:一种基于加密域的数字图像水印算法的设计与实现 随着数字媒体技术的发展,数字媒体版权的保护得到了越来越多人的重视,数字水印技术作为 ...

  3. 文献记录(part66)--一种基于交叉熵的社区发现算法

    学习笔记,仅供参考,有错必纠 关键词:复杂网络:社区发现:交叉熵: 一种基于交叉熵的社区发现算法 摘要 作为复杂网络中的一个极其重要的研究领域,社区结构的搜寻和发现研究具有重要的应用价值 . 该文将信 ...

  4. 一种基于陀螺仪传感器的准确计步器算法

    一种基于陀螺仪传感器的准确计步器算法 A Gyroscope Based Accurate Pedometer Algorithm 作者:Sampath Jayalath.Nimsiri Abhaya ...

  5. 基于信息熵确立权重的topsis法_一种基于改进多目标粒子群算法的受端电网储能优化配置方法与流程...

    本发明涉及受端电网中储能的规划问题,具体涉及一种基于改进多目标粒子群算法的受端电网储能优化配置方法. 背景技术: 随着煤炭等非可再生.高污染的能源总量日益减少,我国的电能结构正由火力发电向低碳化的清洁 ...

  6. mpeg b帧 编码 matlab,一种基于压缩域的镜头检测算法

    文章编号: 1673- 5196( 2008) 06- 0097- 05 一种基于压缩域的镜头检测算法 摘要: 针对传统的非压缩域镜头检测算法数据量大.运算量大和效率低的缺点, 提出一种基于压缩域的镜 ...

  7. matlab8邻域搜索算法,一种基于可搜索连续邻域A*算法的路径规划方法与流程

    本发明涉及的是一种UUV全局路径规划方法. 背景技术: 无人水下航行器(Unmanned underwater vehicle,UUV)作为一种高技术手段,在海洋这块未来极具价值的发展空间中起着至关重 ...

  8. c语言检测正弦波波峰波谷,一种基于波峰波谷检测的计步算法的制作方法

    本发明涉及计步器算法领域,具体是一种基于波峰波谷检测的计步算法. 背景技术: 当今社会,健康越来越受到人们的重视,步行作为人类活动中最基础.最常见.最重要的运动形式,使得深入研究计步算法有着重要的意义 ...

  9. 【聚类算法】基于matlab划分法k-means聚类算法【含Matlab源码 1941期】

    一.获取代码方式 获取代码方式1: 完整代码已上传我的资源:[聚类算法]基于matlab划分法k-means聚类算法[含Matlab源码 1941期] 点击上面蓝色字体,直接付费下载,即可. 获取代码 ...

最新文章

  1. 产品上线前会发生什么故事? | 每日趣闻
  2. python流程控制-详解Python流程控制语句
  3. 5.9 程序示例--非线性分类-机器学习笔记-斯坦福吴恩达教授
  4. 【直播回放】100分钟全面剖析图像分割任务,学习CV必知
  5. 温州大学《机器学习》课程课件(五、机器学习实践)
  6. Java并发控制基础篇 Thread继承类和Runnable实现类
  7. idea中生成spring的 xml配置文件_【132期】面试再被问到Spring容器IOC初始化过程,就拿这篇文章砸他~...
  8. 条件随机场 python_用条件随机场做网络小说命名实体识别
  9. HttpModule的认识与深入理解
  10. Chart 控件 for vs2008的安装
  11. hana SQL函数
  12. 浅谈GRADS气象绘图软件的使用
  13. hosts文件是什么? 以及在各个系统中(Windows、Mac、Linux)的hosts文件在哪里?
  14. 国王学院计算机科学,伦敦大学国王学院计算机科学本科.pdf
  15. python应用题应用背景及实际意义_课题研究的现实背景及意义
  16. Win11电脑的色盲模式如何开启?
  17. vim E486不存在::wq 错误笔记
  18. Linux用户操作练习
  19. 量子计算机错误率,迄今错误率最低量子比特面世
  20. 数字时代,企业如何利用链路营销驱动增长

热门文章

  1. 电脑显示正在进行自动修复此计算机,win10系统开机一直显示“正在准备自动修复”无法启动的解决方法...
  2. Android KTX与Kotlin Android Extensions
  3. matlab中千分比怎么表示,将%换算为‰ (百分比换算为千分比)
  4. 深度分析:摩尔定律失效可能会影响全球经济
  5. Long.valueOf 与 Long.parseLong的区别
  6. 评测回顾 | 南大通用分布式事务型数据库产品GBase 8c
  7. linux-log系统日志输出等级
  8. RichEditeText——android图文混排富文本文章编辑器实现详解
  9. 智力扣(1)——对称扣
  10. 计算机视觉教程核心版(八)卷积神经网络各种层