文章目录

  • 1 摘要
  • 2 引言
    • 2.1 SAX的缺点+ 举个例子分析
    • 2.2 分析问题原因
    • 2.3 本文的改进工作
  • 3 实验结果与分析
    • 3.1 关键点的选取规则
    • 3.2 本文定义的相似度距离计算公式
    • 3.3 开始做实验了
    • 3.4 结论
  • 4 总结

写在前面:期刊《计算机研究与发展》;

1 摘要

  1. 【前人工作】SAX (symbolic aggregate approximation) 是一种符号化的时间序列相似性度量方法。
  2. 【缺点】采用PAA均值划分(目的是降维),但是均分点 是无法有效描述序列的形态变化的,所以导致序列间 在对应分段均值相似的情况下 得到的序列间的相似度是不科学不合理的!
  3. 【本文工作】在SAX的基础上,提出了基于关键点的SAX改进算法,姑且称之为 KP_SAX
  4. 【本文算法的优点】该算法的相似性度量公式,既可以描述时间序列自身数值变化的统计规律(因为采用了均值点划分),又可以描述时间序列形态的变化(因为采用了关键点划分)

2 引言

  1. 【这句话多次出现,把引用给搬上来吧】
    时间序列的相似性度量是衡量两个时间序列相义程度的方法,它是时间序列分类聚类异常发现等诸多数据挖掘问题的基础,也是时间序列挖掘的核心问题。
  2. SAX (symbolic aggregate approximation) 是一种运用符号化方法对时间序列进行表示、维度约简及相似性度量的方法,运用时间序列内在的统计规律对数据进行离散化及符号表示,得到时间序列的字符表示。
    通过字符之间的距离,从而得到时间序列之间的相似度。

2.1 SAX的缺点+ 举个例子分析

SAX方法采用PAA算法将时间序列平均划分,均分点 无法有效描述序列的形态变化,导致序列在对应分段的均值相等的情况下,无法有效计算序列之间的相似度。

  • 如下图,展示了两个时间序列,C和Q,以及它们标准化处理后的图像 和 正态分布图像

  • 根据我的主观分析,序列C长度是200,在90-180期间比较密集,没有太大的波动;

  • 而序列Q 的长度是500,在300左右有一个明显下降的趋势;

  • 所以,我认为这两个时间序列是不相似的,毕竟趋势都不一样。

  • 但是,如果使用SAX方法来计算,他们两个序列的相似性居然是100%?

看一下计算过程:
① 两个序列 分别均分为8段,每一段会用一个符号表示。得到的结果如下:

  • C 这个时间序列的长度就从200降到了8,是 aabccccc
  • Q 这个时间序列的长度就从500降到了8,是 aabccbbc

【我的胡乱分析】到目前为止,无论是分段表示,还是符号表示,都能够发现在中后期,这两条序列是不一样的,所以说,最后的相似度为0应该不能全怪SAX算法,因为到目前来说,都是十分正常的!
所以我认为是,计算符号距离的锅。其实可以使用编辑距离!

  • SAX 所采用的相似度量公式(非常鸡肋)!

2.2 分析问题原因

  1. SAX 基于PAA算法等长划分,划分位置对于SAX的度量结果有直接的影响;【不能只考虑均值点】
  2. SAX算法无法区分 紧邻的字符之间的距离,比如说a和b之间的距离 = b和c之间的距离,但是事实却不是这样!【距离度量不行!】

2.3 本文的改进工作

  1. 利用 均分点 + 关键点 对序列进行分段,既考虑了序列自身概率分布的变化,又兼顾到序列形态的变化!!!

  2. 度量算法:改进为“基于关键点的相似性度量算法”,将符号序列转换为字符换的形式,并依据算法相关的符号距离计算公式 将字符距离转换为两时间序列间的相似度距离。【好像也没说清楚。。。】

3 实验结果与分析

数据:Rothamsted地区的 1852年 -1925 年 的4个时间序列(也没说清楚啊,时间的单位?记录数据的单位?)
算法:本文—— KP_SAX 对比实验 —— SAX

3.1 关键点的选取规则

  • 符号说明
  • 极值点EP 成为 关键点 KP的条件是:
  • 怎么开始证明定理了???没啥好看的,乱起八糟的,这个没有应用价值啊!这个时间复杂度这么高。。。。。




3.2 本文定义的相似度距离计算公式

3.3 开始做实验了

  • 4个时间序列,以及对应的正态分布图长这样:
  • 用SAX算法进行实验
  • PAA是不能有效描述序列的形态变化的,因为它认为每个点再序列中的作用都是等同的。

  • 对于SAX_KP来说,会在PAA的分8段的基础上,保留关键的极值点。
  • 放到例子里面说,比如说序列2,就能很好地捕捉到54 左右的一个极大值点,从而更加有效的描述出了序列形态!



3.4 结论

实验数据表明,SAX对4个序列计算相似度的结果均为0,无法有效区分之间的相似性;
改进算法虽然部分提高了算法的复杂度,但可以有效计算各序列间的相似度距离,达到了改进的目的。

4 总结

  • 本文在SAX均分段的基础上,以各个子段为单位,进行符号化表示以及比较,因此可以更好地描述时间序列的形态变化。

论文学习——一种基于关键点的SAX改进算法相关推荐

  1. 论文学习——一种基于DTW的符号化时间序列聚类算法

    文章目录 1 摘要 2 引言 2.1 类似的工作 SAX 2.2 本文成果 3 相关知识 3.1 极值点EP 成为关键点KP 的条件 3.2 DTW距离 3.3 基于Normal矩阵的谱平分法 4 本 ...

  2. 【论文总结】:基于密集点检测的anchor-free算法总结

    引言 在Anchor-free方法中,可以分为两种,一种是基于关键点检测,另一种是基于密集点检测 基于关键点检测有: CornerNet(左上角点+右下角点) CornerNet-Lite(左上角点+ ...

  3. 图像检索:几种基于纹理特征的图像检索算法

    from:图像检索:几种基于纹理特征的图像检索算法 本文节选自<基于纹理的图像检索算法研究>.描述了几种基于纹理特征的图像检索算法. 第 3 章基于纹理特征的图像检索 3.2 基于灰度共生 ...

  4. 一种基于傅里叶变换的相位配准算法phase correlation approach,利用互功率谱得到时空的平移。

    一种基于傅里叶变换的相位配准算法phase correlation approach Reddy BS, Chatterji BN. An FFT-based technique for transl ...

  5. java图像检索的算法_图像检索:几种基于纹理特征的图像检索算法

    本文节选自<基于纹理的图像检索算法研究>.描述了几种基于纹理特征的图像检索算法. 第 3 章基于纹理特征的图像检索 3.2 基于灰度共生矩阵的纹理分析法 灰度共生矩阵是分析纹理特征的一种有 ...

  6. python检索论文_一种基于Python的音乐检索方法的研究

    应用技术 0 前言 最近两年,人们对于流行音乐的追求与需求量日益增 加,但如何保证用户能在不知歌名只知歌词的情况下,完成 自己的全方面多种类的听歌需求呢?于是,电脑工程师就推 出了"听歌识曲 ...

  7. 【QMIX】一种基于Value-Based多智能体算法

    文章目录 1. QMIX 解决了什么问题(Motivation) 2. QMIX 怎样解决团队收益最大化问题(Method) 2.1 算法大框架 -- 基于 AC 框架的 CTDE(Centraliz ...

  8. WKmeans一种基于特征权重的聚类算法

    1 引例 在前面两篇文章中,我们首先介绍了KmeansKmeansKmeans聚类算法的原理:然后又介绍了一种基于KmeansKmeansKmeans进行改进的Kmeans++Kmeans++Kmea ...

  9. python随机森林筛选变量_一种基于随机森林的改进特征筛选算法

    刘云翔 陈斌 周子宜 摘  要: 肝癌是一种我国高发的消化系统恶性肿瘤,患者死亡率高,威胁极大.而其预后情况通常只能通过医生的专业知识和经验积累来粗略判断,准确率较差.因此文中在分析随机森林算法的基本 ...

最新文章

  1. emacs 搭建racket开发环境
  2. adb 显示手机分辨率
  3. 桌面云实验环境的部署配置
  4. 行业牛人和开源软件改变技术世界
  5. TypeScript 里的 unknown 和 never
  6. C++/C语言实现HTTP的GET和POST请求
  7. Spring 事务失效的 8 种场景!
  8. [有限元] Ansys Workbench Mechanical 中的应力应变显示类型的文档翻译
  9. SpringBoot之创建SpringBoot项目(idea开发)
  10. 《Arduino开发实战指南:机器人卷》一3.6 编程原理与示例程序
  11. MySQL如何用一条SQL将一张表里的数据插入到另一张表
  12. 同济大学微型计算机原理实验报告,同济大学微机原理实验报告.doc
  13. Lucene: 全文检索的基本原理
  14. 20190930每日一句
  15. 七个国外免费杀毒软件
  16. 用C#打造quot;QQ对战平台挤房器quot;
  17. IDEA格式化SQL代码
  18. 期货开户对资金有要求(期货开户有条件吗)
  19. 数据库系统概念-第六版 - charter 3 - 笔记
  20. 洛谷P1488 肥猫的游戏

热门文章

  1. android 卡片播放,显示“正在播放”卡片
  2. ViewPage 实现卡片效果
  3. 音视频播放 via Media Foundation II
  4. 日文键盘的中文输入法
  5. 2022 最新 Android 基础教程,从开发入门到项目实战【b站动脑学院】学习笔记——第二章:Android App 开发基础
  6. 太阳直射点纬度计算公式_高中地理——每日讲1题(地球公转、极昼、极夜、太阳高度角)...
  7. 【Arduino】双主板串口通信并将光敏传感器信息上传到阿里云
  8. Fine-turning(Tensorflow-Slim和Keras的迁移学习)
  9. 【Python训练营】Python每日一练----第36天:进制转换(十六进制转八进制、十六进制转十进制、十进制转十六进制)
  10. 瑞士轮赛制模拟器_2017年炉石赛制改革方案出炉 引入瑞士轮团队赛