| Vachel

编辑 | Sucie

转载:时序人

00

写在前面

时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列,其中隐藏着一些过去与未来的关系。时间序列分析试图通过研究过去来预测未来。

时间序列分析在工程、金融、科技等众多领域有着广泛的应用。在大数据时代,时间序列分析已经成为 AI 技术的一个分支,通过将时间序列分析与机器学习模型相结合,更好的对时间序列进行建模。

时间序列模型,早期主要是进行充分的假设与检验,例如平稳性检验,自相关性检验等,这些基础理论推动了自回归法,移动平均法,指数移动平均法等经典时间序列模型的发展。

本文从时间序列的统计分析方法出发,梳理总结有关知识,希望对大家有所帮助~

01

数学计量基础

在描述时间序列的统计分析方法之前,我们需要简单了解下概率论中的两个基础概念:协方差和相关系数。熟悉的朋友们可跳过。

假设两个随机变量X和Y满足未知的概率分布(可以是同分布也可以是不同的分布), X和Y的协方差为:

其中, 为求解数学期望的运算符。 分别为X和Y的均值。

协方差告诉我们两个随机变量是如何一起移动的。但只用协方差衡量变量相关性存在一些问题:协方差是有量纲的,它的大小受随机变量本身波动范围(或取值范围)所影响。因此,人们希望使用某个和协方差有关,但是又是无量纲的测量来描述两个随机变量的相关性。最简单的做法就是用变量自身的波动对协方差进行标准化,相关系数便由此得来。

令ρ表示X和Y的相关系数,它的定义为:

其中 分别为X和Y的标准差。通过使用X和Y的标准差对它们的协方差归一化,ρ的取值范围在 -1 到 +1 之间,即 [-1, +1]:

  • 表示X和Y之间存在确切的线性正相关;

  • 表示X和Y之间不存在任何线性相关性;

  • 表示X和Y之间存在确切的线性负相关。

值得一提的是,相关系数仅仅刻画 X和Y之间的线性相关性;它不描述它们之间的(任何)非线性关系。

02

平稳性检验

平稳性是时间序列分析的基础。

通俗的理解平稳性,指直观上看当数据没有明显的模式特征的话(趋势性、季节性),我们认为它是平稳的。定义上“平稳”指固定时间和位置的概率分布与所有时间和位置的概率分布相同的随机过程。其数学期望和方差这些参数也不随时间和位置变化

在数学上,时间序列的严平稳有着更精确的定义:它要求时间序列中任意给定长度的两段子序列都满足相同的联合分布。这是一个很强的条件,在实际中几乎不可能被满足。因此我们还有弱平稳的定义,它要求时间序列满足均值平稳性和二阶平稳性

如果一个时间序列满足以下两个条件,则它是弱平稳的:

  1. 对于所有的时刻t,有,其中μ是一个常数。

  2. 对于所有的时刻t和任意的间隔k,值之间的协方差,其中与时间t无关,它仅仅依赖于间隔k。这称为方差平稳性

弱平稳假设对于分析时间序列至关重要。

为了解释这一点,来看一个例子。假设我们想知道某天股票收益率的均值是多少,假设股票变化时序是平稳的,我们就可以通过过去的数据预估出未来一段时间的收益均值。不幸的是,历史只发生一次,时间也一去不复返。大部分股市时序是不符合平稳性假设的。因此这个方法对于金融数据是行不通的。

然而,在一般弱平稳的假设下,我们也可以通常假定投资品收益率序列是弱平稳的。只要有足够多的历史数据,这个假定可以用实证方法验证。比如,我们可以把数据分成若干个子集,并分别计算每个子集的统计量,然后通过统计的手段检验这些来自不同子集的统计量的一致性。对于此,更复杂的非线性模型对波动率建模(比如 GARCH),又或者把时间段细分为更短的区间,使得在每个小区间内的时间序列尽量满足弱平稳性,是常见且通用的时间序列分析方法。

有了上一节和本节的内容做铺垫,下面我们聊聊时间序列的自相关性。

03

自相关性检验

时间序列数据是一直延伸的,根据这种数据特点,一般需要我们拿当前数据与历史数据做对比,即自相关性检验。自相关性考察的是 t 时刻的值和距当前任意间隔 k时刻的值之间的线性相依关系。由于来自同一个时间序列,因此结合之前的数学基础,可以推广出自相关系数

定义:的相关系数称为的间隔为k的自相关系数。由第三节中介绍的相关系数的定义可知:

上面的推导中用到了弱平稳的性质,即协方差和方差的平稳性。从这个定义不难看出,当  时有:

这表示    的间隔为 0 的自相关系数恒定为 1。上面定义的  是总体的统计特性。实际中,我们仍然只能通过有限的样本数据来计算样本的统计特性。令  为与  对应的样本统计量,则有:

上式中,  是  的间隔为 k 的样本自协方差;  为  的间隔为  k  的样本自相关系数。利用相关图我们可以清晰地看到  是如何随间隔  k  变化的。

下图为两个假想时间序列的相关图。它们呈现出完全不同结构的自相关性。事实上,第一个相关图的时间序列存在明显的趋势;而第二个相关图的时间序列存在明显的周期性。这两个例子说明相关图可以告诉我们很多时间序列的内在特性。

有了以上的数学基础,在评价一个时间序列的建模是否合适时,我们可以首先找到原始时间序列和它的拟合序列之间的残差序列;然后只要画出这个残差序列的相关图就可以看到它是否含有任何模型未考虑的额外自相关性:

  • 如果残差的相关图和之前拟合的图相似,则可以认为残差是一个随机噪声,而模型已经很好的捕捉了原始时间序列中的自相关性;

  • 如果残差的相关图体现了额外的自相关性,它们将为我们改进已有的模型提供依据,因为这些额外的自相关说明已有模型没有考虑原始时间序列在某些特定间隔上的自相关。

04

基础时序模型 - 白噪声与随机游走

白噪声是一个理想中的时序模型,它有一个重要的特性,即序列不相关:一个白噪声序列中的每一个点都独立的来自某个未知的分布,它们满足独立同分布。定义如下:

考虑时间序列 。如果该序列的成分 满足均值为0方差 且对于任意的 自相关系数均为0,则称该时间序列为一个白噪声。

根据白噪声的定义,一个白噪声序列显然满足平稳性要求。它的均值和二阶统计量为:

一个优秀的时序模型拟合出的残差序列应该(近似)为一个白噪声。因此,使用白噪声序列的性质可以帮助我们确认我们的残差序列中没有任何相关性了,一旦残差序列没有相关性便意味着模型是原始时间序列的一个良好的拟合。

将白噪声模型进行一步延伸,便得到随机游走模型,它的定义如下:

对于时间序列,如果它满足,其中是一个均值为0、方差为的白噪声,则序列为一个随机游走。

由定义可知,在任意t时刻的 都是不超过t时刻的所有历史白噪声序列的总和,即:

随机游走的序列均值和方差为:

虽然均值不随时间t改变,但是由于方差是σ的函数,因此随机游走不满足稳定性。随着t的增加,方差增大,说明其波动性不断增加。这是随机游走的一个非常重要的特性,不熟悉它往往容易造成不必要的错误。

04

时序模型 - ARMA

对于炒股的收益,大家往往有这样的感受:

  • 在大牛市的时候,股票天天涨,万民欢腾;

  • 在大熊市的时候,股票日日跌,戾气冲天;

  • 在震荡市的时候,股票一买就跌,一卖就涨,颇有价格在某个区间内震荡、收益率呈现均值回复之意。

这些感受给我们的启发是,收益时序的前后观测点之间往往不是独立的,而是以某种自相关性联系在一起。因此,一个很自然的问题就是:能不能用过去的收益序列对未来的收益率建模?答案是肯定的。这就是自回归(AR)模型。

数学上,满足如下关系的时间序列被称为一个p阶的自回归模型,记为模型:

这是一个典型的线性回归模型。它和传统线性回归的不同之处在于自变量是序列自身(历史观测值),而非其他变量,这就是自回归中“自”的由来。另外, p阶的意思是模型使用当前时刻t之前的 p个观测值作为自变量对 建模。p 的取值可以是任何一个正整数,因此最简单的自回归模型就是模型()。

自回归模型不一定都满足平稳性。举一个最简单的例子,本系列初级篇介绍的随机游走模型其实就是一个一阶自回归模型,满足: 。由于 的方差是时间t的函数,因此该序列不满足平稳性。

滑动平均(MA)模型是另一个常见的线性时间序列模型。在自回归模型中,我们将收益 看作是给定阶数下历史收益时序的线性组合与自回归模型不同,滑动平均模型将收益率 看作是历史白噪声的线性组合

滑动平均模型是对漂移率之外“随机噪声”建模,它把这些噪声理解为不同时刻出现的影响收益率的新信息或者冲击。通过对“噪声”建模来预测当前时刻t的“噪声”,再和漂移率结合,作为t时刻的收益率预测。

数学上,满足如下关系的时间序列被称为一个q阶滑动平均模型,记为模型:

与自回归模型不同,滑动平均模型一定满足平稳性。它的序列均值为 0。它的各间隔k的自相关系数满足:

前面两节分别讨论了自回归和滑动平均模型。前者用收益率的历史对未来收益率做预测,而后者对噪声建模,其逻辑为突发信息对收益率将会造成冲击(比如上市公司超出预期的财报或者内部交易丑闻等)。

将一个 p阶的自回归模型和一个q 阶的滑动平均模型组合在一起,便得到了一个阶数为自回归滑动平均模型(ARMA),它将 AR 和 MA 模型的优势互补起来。由于 AR 和 MA 模型都是线性模型,因此它俩的线性组合,即 ARMA 模型,也是线性模型。

数学上,满足如下关系的时间序列被称为一个阶数为的自回归滑动平均模型,记为模型:

相比较单一的 AR 或者 MA 模型,ARMA 模型拥有更多的参数。因此它出现过拟合的危险就更高虽然它能够捕捉到两个单一模型各自所代表的时间序列自回归性,但是在确定阶数的时候,我们应时刻谨记,防止过拟合。

05

写在最后

本次为大家介绍了时间序列分析的基石:统计分析。相信各位读者通过这篇文章,可以对时间序列建模与分析有一个初步的认识,这对于进一步了解并学习时间序列领域十分重要。

接下来几周,会为大家逐步更新时间序列领域的更多知识整理,欢迎持续关注并转发。希望该系列文章能对你的研究工作带来帮助~

公众号:AI蜗牛车

保持谦逊、保持自律、保持进步

个人微信

备注:昵称+学校/公司+方向

如果没有备注不拉群!

拉你进AI蜗牛车交流群

【时间序列】时间序列统计分析相关知识的总结与梳理相关推荐

  1. java线程知识梳理_Java多线程——多线程相关知识的逻辑关系梳理

    1 学习多线程知识的根本目标 多线程知识的根本目标是:设计稳健的并发程序. 当然,本文无法回答这个实践性很强的问题(这与具体的业务相关,涉及到具体的策略),本文主要阐述相关知识之间的关系,希望初学者不 ...

  2. 金融时间序列描述性统计分析【python复现】

    金融时间序列描述性统计分析 前言 金融时间序列是金融市场的一个重要组成部分.在研究金融市场的各种现象以及对进行建模时,金融时间序列的描述性统计分析都是一项基础的且必不可少的工作. 本章主要介绍描述性统 ...

  3. 4. 数据统计分析基础知识

    数据统计分析基础知识 数据统计分析基础知识 什么是数据分析 数据分析六步曲 明确分析目的和内容 数据收集 数据处理 数据分析 数据展现 报告撰写 Reference 什么是数据分析 专业 有针对性的收 ...

  4. 瘟疫模拟相关知识总结(传染病模型+马尔可夫链)

    瘟疫模拟相关知识总结 总览 模型 SI模型 SIS模型 SIR模型 SEIR模型 马尔可夫链 简介 理解 举个栗子 需要注意 实验设计 实验群体:人 实验思路 代码搭建(暂) 社区类(Communit ...

  5. 【Python五篇慢慢弹(5)】类的继承案例解析,python相关知识延伸

    类的继承案例解析,python相关知识延伸 作者:白宁超 2016年10月10日22:36:57 摘要:继<快速上手学python>一文之后,笔者又将python官方文档认真学习下.官方给 ...

  6. 大数据的分布式数据库相关知识

    现如今,大数据的发展得到了越来越多人的关注,当然,很多企业也开始关注大数据,通过大数据可以从数据中挖掘出有价值的数据,从而找出隐藏的商机,而大数据的分布式数据库是一个十分重要的内容.我们在这篇文章中就 ...

  7. 狂补呼叫中心相关知识,将收集的资料贴于此

    狂补呼叫中心相关知识,将收集的资料贴于此: H.323的协议体系 根据1998年H.323第二版,H.323制定了无QoS(服务质量)保证的分组网络 PBN(packet Based Networks ...

  8. 类的继承python事例_【Python五篇慢慢弹(5)】类的继承案例解析,python相关知识延伸...

    作者:白宁超 2016年10月10日22:36:57 摘要:继一文之后,笔者又将python官方文档认真学习下.官方给出的pythondoc入门资料包含了基本要点.本文是对文档常用核心要点进行梳理,简 ...

  9. Unity开发-网络.算法.平台相关知识!

    A. 网络相关知识 一.TCP 1.面向数据流.可靠.能保证消息到达顺序. 2.滑动窗口.控制发送量,发送方只能发送窗口内大小的数据包.防止发送方发送的数据过多,接收方无法处理的情况. 3.Nagle ...

最新文章

  1. C++ 笔记(26)— 主函数 main(int argc, char *argv[]) 参数说明
  2. 2018-3-23论文一种新的群智能算法--狼群算法(框架结构+感想一点点)
  3. Packstack安装havana后,计算节点连接DB错误解决
  4. 基于Transformer的通用视觉架构:Swin-Transformer带来多任务大范围性能提升
  5. [20170825]不启动监听远程能连接数据库吗2
  6. mac 电脑连接不上github_Mac电脑使用终端连接服务器及传输文件
  7. paramiko远程密码连接、批量连接主机
  8. 团队作业——Alpha冲刺 4/12
  9. 微信js-sdk集成小结
  10. 多个jdk配置环境变量
  11. 猿创征文|一个.Net过气开发工程师的成长之路
  12. Linux 打印机移植说明
  13. 识海日志——时间都去哪了(20140311)
  14. 启动计算机时进入bios界面,电脑开机就进入bios界面怎么办
  15. AirPods 2支持无限充电只要15分钟充满
  16. R语言使用lm函数构建多元回归模型(Multiple Linear Regression)、并根据模型系数写出回归方程、使用resid函数或者residuals计算出模型的残差值
  17. VBoxManage 命令详解 (有用)
  18. 已经有几百个制造企业的痛点问题在这了,你的在哪?
  19. 软考有哪些实质性的用处?
  20. IPv6- TC实现IPv6流量限速测试详情

热门文章

  1. 囧,现在才只QQ有远程控制
  2. Winform从入门到精通(17)——PictureBox(史上最全)
  3. 【华人学者风采】胡瑞忠 中国科学院
  4. 几代数字无线通信系统标准汇总
  5. CSS核心内容-标准流、盒子模型、浮动、定位
  6. html多行多列的表单,如何制作多行多列的表格
  7. 网络工程师就业前景、职业规划和工资待遇
  8. 电商运营裂变新玩法—分销渠道系统模式
  9. scrapy爬取唯品会运动鞋信息并进行简单的数据处理和分析
  10. DDR3 SPEC