Seasonal Hybrid ESD笔记


  • Seasonal Hybrid ESD笔记

    • 背景知识

      • Students t-distribution 学生t-分布
      • Extreme Studentized Deviate ESD Test
      • Generalized ESD
      • LOESS
      • STL
    • Seasonal Hybrid ESD

背景知识

Student’s t-distribution 学生t-分布

用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。
假设XX是呈正态分布的独立的随机变量,随机变量的期望值μ\mu和方差σ2\sigma^2未知,那么随机变量Z=X¯¯n−μσ/n√Z={\frac {\overline {X}_{n}-\mu }{\sigma /{\sqrt {n}}}}符合均值为0、方差为1的正态分布。 令X¯¯¯n=(X1+⋯+Xn)/n\overline{X}_n=(X_{1}+\cdots +X_{n})/n为样本均值的估计,Sn2=1n−1∑ni=1(Xi−X¯¯¯n)2{S_{n}}^{2}={\frac {1}{n-1}}\sum _{{i=1}}^{n}\left(X_{i}-\overline {X}_{n}\right)^{2}为样本方差的估计,随机变量T=X¯¯n−μSn/n√T={\frac {\overline {X}_{n}-\mu }{S_{n}/{\sqrt {n}}}}的概率密度函数为f(t)=Γ((ν+1)/2)νπ√Γ(ν/2)(1+t2/ν)−(ν+1)/2f(t)={\frac {\Gamma ((\nu +1)/2)}{{\sqrt {\nu \pi \,}}\,\Gamma (\nu /2)}}(1+t^{2}/\nu )^{{-(\nu +1)/2}},其中ν=n−1\nu = n - 1是自由度,这个分布称为t-分布。
t-分布的形状类似于均值为0方差为1的正态分布,但更低更宽。随着nn的增加,越来越接近均值为0方差为1的正态分布,如图所示。

Extreme Studentized Deviate (ESD) Test

又名Grubb’s Test或者Maximum Normed Residual Test,用于从正态分布的变量中检测离群点(根据这里的说法是“exactly one outlier”)。使用前要注意检查数据是否真的符合正态分布。

对于双边检验,“没有离群点”的假设以显著水平α\alpha被拒绝(即有大于α\alpha的可能性存在离群点)的条件是G=maxi=1,…,N∣∣Yi−Y¯∣∣s>N−1N√t2α/(2N),N−2N−2+t2α/(2N),N−2−−−−−−−−−−√G = {\frac {\displaystyle \max _{{i=1,\ldots ,N}}\left\vert Y_{i}-{\bar {Y}}\right\vert }{s}} > {\frac {N-1}{{\sqrt {N}}}}{\sqrt {{\frac {t_{{\alpha /(2N),N-2}}^{2}}{N-2+t_{{\alpha /(2N),N-2}}^{2}}}}},其中tα/(2N),N−2t_{\alpha/(2N),N−2}表示自由度为N−2N-2的t-分布,对应显著水平α/(2N)\alpha / (2N)时的临界值。

对于单边检测,只需将α/(2N)\alpha / (2N)替换为α/N\alpha / N

Generalized ESD

用于在近似符合正态分布的变量中检测离群点。与ESD相比最大的区别在于不需要指定离群点的个数,只需要指定要检测的离群点个数的上限即可。

按照这里的介绍,假设要检测kk个离群点,就对数据重复使用kk次ESD检验,如果发现离群点就从数据里剔出去,然后在剩下的数据上重新检测。

LOESS

Local Regression,一种非参数化的回归方法,目的是在二维散点图上拟合出一条光滑的曲线。方法是在每一个点的邻域内使用一个加权的多项式拟合,距离越近的点权重越高。为了提升鲁棒性,实际位置与预期位置偏离越远权重越小,偏离过远的点会被舍弃。

不确定现在的工具包里具体如何算的。

STL

Seasonal and Trend decomposition using Loess,会把时间序列分解成seasonal signal、trend、residual三部分,只能处理加性信号。用到了LOESS。使用的时候需要注意两个参数,一个是计算trend的窗口大小,越大越平滑;一个是计算seasonal signal的窗口大小,不知道怎么设。找不到比较好的科普材料,所有文章(包括中文和英文)都只是演示了一下R。

STL分为inner loop和outer loop。其中inner loop包含以下几步:
1. Detrending。Y−T(k)Y - T^{(k)}。
2. Cycle-subseries Smoothing。对每一个周期内的数据做平滑,得到C(k+1)C^{(k+1)}。没说具体用什么方法。
3. Low-Pass Filtering of Smoothed Cycle-subseries。进一步做平滑,得到L(k+1)L^{(k+1)}。方法是moving average。
4. Detrending of Smoothed Cycle-sybseries。计算S分量,S(k+1)=C(k+1)−L(k+1)S^{(k+1)} = C^{(k+1)} - L^{(k+1)}。
5. Deseasonalizing。估计T分量(其实是T分量+噪声),Y−S(k+1)Y - S^{(k+1)}。
6. Trend Smoothing。对上一步的结果做平滑得到真正的T分量T(k+1)T^{(k+1)}。

outer loop包括以下几步:
1. R=Y−T−SR = Y - T - S
2. 根据R<script type="math/tex" id="MathJax-Element-30">R</script>重新用LOESS估计T分量。

outer loop和inner loop都可以重复多次,根据应用场景而定。

R语言提供了STL方法,Python需要用一些第三方的包。

Seasonal Hybrid ESD

先用STL把序列分解,考察残差项。假定这一项符合正态分布,然后就可以用Generalized ESD提取离群点。

Seasonal Hybrid ESD笔记相关推荐

  1. 机器学习:异常检测算法Seasonal Hybrid ESD及R语言实现

    机器学习:异常检测算法Seasonal Hybrid ESD及R语言实现 参考文章: (1)机器学习:异常检测算法Seasonal Hybrid ESD及R语言实现 (2)https://www.cn ...

  2. 离群点(孤立点、异常值)检测方法

    本文介绍了离群点(孤立点)检测的常见方法,以及应用各种算法时需要注意的问题. 离群点是什么? 异常对象被称作离群点.异常检测也称偏差检测和例外挖掘.孤立点是一个明显偏离与其他数据点的对象,它就像是由一 ...

  3. 【时间序列】时序预测竞赛之异常检测算法综述

    本文将介绍在时间序列预测相关问题中常见的异常检测算法,可以很大程度上帮助改善最终预测效果. 异常分类 时间序列的异常检测问题通常表示为相对于某些标准信号或常见信号的离群点.虽然有很多的异常类型,但是我 ...

  4. #时间预测算法_【时间序列】时序预测竞赛之异常检测算法综述

    本文将介绍在时间序列预测相关问题中常见的异常检测算法,可以很大程度上帮助改善最终预测效果. 异常分类 时间序列的异常检测问题通常表示为相对于某些标准信号或常见信号的离群点.虽然有很多的异常类型,但是我 ...

  5. 时序预测竞赛之异常检测算法综述

    本文将介绍在时间序列预测相关问题中常见的异常检测算法,可以很大程度上帮助改善最终预测效果. 异常分类 时间序列的异常检测问题通常表示为相对于某些标准信号或常见信号的离群点.虽然有很多的异常类型,但是我 ...

  6. 深度盘点:时序预测之异常检测算法综述

    本文将介绍在时间序列预测相关问题中常见的异常检测算法,可以很大程度上帮助改善最终预测效果.喜欢记得收藏.关注.点赞. 注:完整版代码.数据.技术交流,文末获取 异常分类 时间序列的异常检测问题通常表示 ...

  7. 【时间序列】基于一维卷积自动特征提取的短期用水需求量预测

    今天带大家精读的论文是 <Short-term water demand forecast based on automatic feature extraction by one-dimens ...

  8. APPCAN学习笔记004---AppCan与Hybrid,appcan概述

    APPCAN学习笔记004---AppCan与Hybrid,appcan概述 技术qq交流群:JavaDream:251572072 本节讲了appcan的开发流程,和开发工具 笔记不做具体介绍了,以 ...

  9. 论文笔记5:Noise Reduction of Hyperspectral Imagery Using Hybrid Spatial-Spectral Derivative-Domain Wavel

    论文笔记5:Noise Reduction of Hyperspectral Imagery Using Hybrid Spatial-Spectral Derivative-Domain Wavel ...

最新文章

  1. diy高性能存储服务器,diy存储服务器
  2. 如何评价软件写的好还是坏?
  3. 设置ComboBox控件的小箭头颜色.
  4. leetcode21
  5. startup oracle 01012,ORA-01012:not logged on的解决办法
  6. JavaWeb后台知识总结
  7. 安全基础知识 最强0到33600端口详解(5)
  8. c++用数组初始化向量_用C ++初始化向量
  9. JavaScript 的数据类型 相关知识点
  10. python 做网站的工具_程序员最爱的网站克隆爬取工具- HTTrack
  11. Open Distro 初探
  12. 安搭Share:霜降来,寒意到
  13. python 编程控制键盘和鼠标
  14. java List/ArrayList 解惑
  15. JAVA#内部类'学习札记
  16. 解密TLS协议全记录之Openssl的使用与Nginx Server的配置
  17. 学习python需要很多数学知识吗_Python数据分析需要学习哪方面的数学知识
  18. 【阿里云】1.阿里云大数据产品体系
  19. 电脑上的各个组合及功能键作用
  20. CentOS7安装教程,简单几步,小白也能上手装!

热门文章

  1. 技术文章写作及运营的技巧:分析篇 | 什么样的文章受欢迎?
  2. SyntaxError: invalid syntax
  3. c语言兔子比耳朵,比耳朵语言教案
  4. 北京尚学堂带你“重新”认识程序员
  5. Redhat Linux创建本地YUM源
  6. [若有所悟]提升工作效率的一些小技巧——资源管理器篇
  7. Windows下 文件夹加密
  8. python手工打码_python --爬虫 打码登陆
  9. 彩色图像-色彩空间 HSI(HSL)、HSV(HSB)
  10. 看尽长安十里长街不及黑伞下的呢喃——致敬将夜