原标题:时序数据处理难题攻略(上)

作者:计量与统计

来源:公众号计量与统计

时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。

一个时间序列通常由 4 种要素组成:趋势、季节变动、循环波动和不规则波动。辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。

对于平稳时间序列,可用通用 ARMA 模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合-ARMA 模型等来进行拟合。当观测值多于 50 个时一般都采用 ARMA 模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当模型去拟合这个差分序列。

面板数据,即 Panel Data,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。面板数据分析方法是最近几十年来发展起来的新的统计方法,面板数据可以克服时间序列分析受多重共线性的困扰,能够提供更多的信息、更多的变化、更少共线性、更多的自由度和更高的估计效率,而面板数据的单位根检验和协整分析是当前最前沿的领域之一。

我们将分两期,从时间序列数据与面板数据分析两个方面入手,从数据检验(平稳性检验、模型滞后期、协整检验、格兰杰检验)、数据模型(VAR 模型、VEC 模型、脉冲响应函数等)、平衡与非平衡面板出发,进行比较和探究。

平稳性问题汇总

Q1:最重要最基础的!什么是面板数据?

面板数据,即 Panel Data,是截面数据与时间序列数据综合起来的一种数据类型。其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把 panel data 译作“面板数据”。

但是,如果从其内在含义上讲,把 panel data 译为“时间序列—截面数据” 更能揭示这类数据的本质上的特点。也有译作“平行数据”或“TS-CS 数据(Time Series - Cross Section)”。

如:城市名:北京、上海、重庆、天津的 GDP 分别为 10、11、9、8(单位亿元)。这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。

如:2000、2001、2002、2003、2004 各年的北京市 GDP 分别为 8、9、10、11、12(单位亿元)。这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。

如:2000、2001、2002、2003、2004 各年中国所有直辖市的 GDP 分别为:

北京市分别为 8、9、10、11、12;

上海市分别为 9、10、11、12、13;

天津市分别为 5、6、7、8、9;

重庆市分别为 7、8、9、10、11(单位亿元),这就是面板数据。

Q2:balanced 和 unbalanced 面板数据到底有什么区别?

“平衡的意思是,如果按截面成员堆积数据,每个截面成员应包括正好相同的时期;如果按日期堆积数据,每个日期应包含相同数量的截面成员观测值,并按相同顺序排列。特别要指出的是,基础数据并不一定是平衡的,只要在输入文件中有表示即可。如果观测值中有缺失数据,一定要保证文件中给这些缺失值留有位置。”

——from 高铁梅

Q3:何为平稳性检验?

说到平稳,其实有两种平稳——宽平稳、严平稳。

严平稳相较于宽平稳来说,条件更多更严格,而我们时常运用的时间序列,大多宽平稳就够了。

•什么是严平稳:是在固定时间和位置的概率分布与所有时间和位置的概率分布相同的随机过程。这样,数学期望和方差这些参数也不随时间和位置变化。(比如白噪声)

•什么是宽平稳:宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定,所以只要保证序列低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。

两者关系:

•一般关系:严平稳条件比宽平稳条件苛刻,通常情况下,严平稳(低阶矩存在)能推出宽平稳成立,而宽平稳序列不能反推严平稳成立。

•特例:不存在低阶矩的严平稳序列不满足宽平稳条件,例如服从柯西分布的严平稳序列就不是宽平稳序列。当序列服从多元正态分布时,宽平稳可以推出严平稳。

Q4:如何进行平稳性检验?

检查序列平稳性的标准方法是单位根检验。有 6 种单位根检验方法:ADF 检验、DFGLS检验、PP 检验、KPSS 检验、ERS 检验和 NP 检验,本节将介绍 DF 检验、ADF 检验。

ADF 检验和 PP 检验方法出现的比较早,在实际应用中较为常见,但是,由于这 2 种方法均需要对被检验序列作可能包含常数项和趋势变量项的假设,因此,应用起来带有一定的不便;其它几种方法克服了前 2 种方法带来的不便,在剔除原序列趋势的基础上,构造统计量检验序列是否存在单位根,应用起来较为方便。

ADF 检验是在 Dickey-Fuller 检验(DF 检验)基础上发展而来的。因为 DF 检验只有当序列为 AR(1)时才有效。如果序列存在高阶滞后相关,这就违背了扰动项是独立同分布的假设。在这种情况下,可以使用增广的 DF 检验方法(augmented Dickey-Fuller test )来检验含有高阶序列相关的序列的单位根。

tips:

在进行 ADF 检验时,必须注意以下两个实际问题:

(1)必须为回归定义合理的滞后阶数,通常采用 AIC 准则来确定给定时间序列模型的滞后阶数。在实际应用中,还需要兼顾其他的因素,如系统的稳定性、模型的拟合优度等。

(2)可以选择常数和线性时间趋势,选择哪种形式很重要,因为检验显著性水平的 t 统计量在原假设下的渐近分布依赖于关于这些项的定义。

Q5:如果序列平稳了,那怎么看定阶啊?

AR 模型:自相关系数拖尾,偏自相关系数截尾;

MA 模型:自相关系数截尾,偏自相关函数拖尾;

ARMA 模型:自相关函数和偏自相关函数均拖尾。

P、Q的选择主要看从第几期开始快速收敛。

Q6:如何制定滞后数呢?

先找出最小的 AIC 和 SIC(不是绝对值),在此基础上看 ADF 检验是否通过,即判断是否是平稳序列。

补充一下关于 AIC 的信息:

AIC 信息准则:是衡量统计模型拟合优良性的一种标准,由于它为日本统计学家赤池弘次创立和发展的,因此又称赤池信息量准则。它建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

在一般的情况下,AIC 可以表示为:AIC=2k-2ln(L)其中:k 是参数的数量,L 是似然函数。假设条件是模型的误差服从独立正态分布。让 n 为观察数,RSS 为剩余平方和,那么 AIC变为:AIC=2k+nln(RSS/n)增加自由参数的数目提高了拟合的优良性,AIC 鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是 AIC 值最小的那一个。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

Q7:ADF 检验和协整检验是什么关系?

先做单位根检验,看变量序列是否平稳序列,若平稳,可构造回归模型等经典计量经济学模型;若非平稳,进行差分,当进行到第 i 次差分时序列平稳,则服从 i 阶单整(注意趋势、截距不同情况选择,根据 P 值和原假设判定)。

若所有检验序列均服从同阶单整,可构造 VAR 模型,做协整检验(注意滞后期的选择),判断模型内部变量间是否存在协整关系,即是否存在长期均衡关系。如果有,则可以构造 VEC 模型或者进行 Granger 因果检验,检验变量之间“谁引起谁变化”,即因果关系。

单位根检验是序列的平稳性检验,如果不检验序列的平稳性直接 OLS 容易导致伪回归。当检验的数据是非平稳(即存在单位根),并且各个序列是同阶单整(协整检验的前提),想进一步确定变量之间是否存在协整关系,可以进行协整检验,协整检验主要有 EG 两步法和 JJ 检验 。返回搜狐,查看更多

责任编辑:

什么原数据更容易平稳_时序数据处理难题攻略(上)相关推荐

  1. 什么原数据更容易平稳_【时间序列】-航空数据预测

    ts_log_moving_avg_diff.dropna(inplace=True) test_stationarity(ts_log_moving_avg_diff) 这看起来像一个更好的系列.滚 ...

  2. 什么原数据更容易平稳_为什么老年人更容易患上艾滋病?

    说起艾滋病,大家眼中浮现的都是年轻群体的高发病,其实不然,经过近几年的新闻报告得 知,老年群体的艾滋病患病率直线上升,到2017年,老年人就已经列入了艾滋病疾病防控 的重点名单,截至目前,老年人的发病 ...

  3. 工业数据治理:全解时序数据处理工具

    时序数据处理应用于物联网.车联网.工业互联网领域的过程数据采集.过程控制,并与过程管理建立一个数据链路,属于工业数据治理的新兴领域.从工具维度看,时序数据处理工具与传统时序数据库的差异很大.后者局限于 ...

  4. 台式计算机怕冻吗,笔记本怕热更怕冷,电脑冬季保养攻略

    原标题:笔记本怕热更怕冷,电脑冬季保养攻略 可能所有的小伙伴都知道,笔记本太热会出大问题,炎热的夏天基本都会给自己的爱机配备一些诸如散热器之类的降温工具.可是,却极少有人知道电脑其实更怕冷!若不注意保 ...

  5. ML之FE:特征工程处理中常用的数据变换(log取对数变换等)之详细攻略

    ML之FE:特征工程处理中常用的数据变换(log取对数变换等)之详细攻略 目录 特征工程处理中常用的数据变换(log取对数变换等)之详细攻略 log取对数变换 特征工程处理中常用的数据变换(log取对 ...

  6. 变换例题_小学语文学习攻略9:句式变换知识点概述+例题讲练

    很多家长都会遇到这样的情况:孩子的语文考试卷发下来,作文上老师的评语或者做的记号上总会有几个是句意不通.在平常的交流中也是,支吾了半天也不能完整.通顺的表达自己的意思.这都是孩子在造句方面有障碍!孩子 ...

  7. 通过数据:提升用户转化与留存全攻略

    如何想要产品收益最大化?就应该这样做--提升用户转化与留存全攻略 首先我们看一下提升用户转化的运营价值.如图1所示,先引入两个概念--用户生命周期与用户价值(LTV).如果将用户在一款产品中的行为轨迹 ...

  8. asp功放怎么装_汽车音响安装全攻略--功放篇

    汽车音响安装全攻略--功放篇 安装功放比安装接收机或扬声器更需要一些技巧,但并不意味着不可操作.事先了解注意事项,可以减少发生故障的机率. 安 装 第一步:作好准备工作 功放与接收机间必须保持至少90 ...

  9. 武装突袭3服务器修改数据,武装突袭3数据修改 | 手游网游页游攻略大全

    发布时间:2016-04-25 武装突袭3秘籍.作弊代码介绍 打开编辑器建立一个兵,初始化栏目里输入即可,this addeventhandler ["fired", {(_thi ...

  10. 2010 模板下载 罗斯文_俄罗斯签证办理攻略

    申请去俄罗斯的人越来越多,所以办理签证的人也变得越来越多,对于初来乍到的人士,可能对于签证流程的办理并不是特别的熟悉.办理签证其实也有一定的攻略和方案,为了能够让大家更好的了解俄罗斯签证办理的相关流程 ...

最新文章

  1. 使用ASV2011研究Molehill API
  2. 使用机器学习检测TLS 恶意加密流——业界调研***有开源的数据集,包括恶意证书的,以及恶意tls pcap报文***...
  3. Mac 技术篇-VS Code插件安装方法,查看vscode已安装插件的方法
  4. Spring框架(1)
  5. 使用ueditor实现多图片上传案例——实体类(Shopping.java)
  6. 循环队列基本操作(解决队列假溢出)
  7. 【德国】德累斯顿工业大学 机器学习和图像分析研究助理/博士生 招生
  8. PL\SQL结构控制、异常
  9. koa2 导出excel表格设置样式_一调整Excel表格的行列宽度,图片又得重新调整?点这个设置就行...
  10. 在Vmware安装wes 7
  11. 什么是前端模块化?前端模块化开发到底有无必要
  12. Flex TLF 相关知识
  13. 坐禅修行木鱼诵经流量主小程序开发
  14. 计算机期末考试质量分析报告,信息技术期末考试质量分析
  15. cardboard的使用
  16. my firebox plugin list
  17. 编程是门艺术_是编程艺术吗?
  18. 如何利用CRM来维护客户关系?
  19. Linux安装GaussDB数据库图文,GaussDB 100 on Linux安装手册
  20. 奥林匹克杯,授予中国人民!

热门文章

  1. 日本酒店寄送行李至机场的攻略
  2. 免费模板 | 高颜值超实用,这套财务分析模版自带BUFF加成
  3. vue 基于网易云API的短信验证码登录(axios封装)
  4. kl距离 java_KL距离的计算
  5. SI 9000 及阻抗匹配学习笔记(四)
  6. 计算机输入输出设计原则,交互设计精髓4中的104条设计原则
  7. 调整Eclipse字体大小
  8. 目标跟踪 MOSSE(Visual Object Tracking using Adaptive Correlation Filters)
  9. keil c51v952详细安装教程
  10. 福昕PDF转WORD(4.2.0.709)全页数转换补丁