面板数据

面板数据(Panel Data),也成平行数据,具有时间序列和截面两个维度,整个表格排列起来像是一个面板。
面板数据举例:

模型说明及分析步骤

1、首先确定解释变量和因变量;
2、R语言操作数据格式,部分截图如下,这里以index3为因变量,index1与index2为解释变量:

##加载相关包
install.packages("mice")##缺失值处理
install.packages("plm")
install.packages("MSBVAR")
library(plm)
library(MSBVAR)
library(tseries)
library(xts)
library(mice)
data<-read.csv("F://分类别//rankdata.csv",header=T,as.is=T)##读取数据

2、单位根检验:数据平稳性
为避免伪回归,确保结果的有效性,需对数据进行平稳性判断。何为平稳,一般认为时间序列提出时间趋势和不变均值(截距)后,剩余序列为白噪声序列即零均值、同方差。常用的单位根检验的办法有LLC检验和不同单位根的Fisher-ADF检验,若两种检验均拒绝存在单位根的原假设则认为序列为平稳的,反之不平稳(对于水平序列,若非平稳,则对序列进行一阶差分,再进行后续检验,若仍存在单位根,则继续进行高阶差分,直至平稳,I(0)即为零阶单整,I(N)为N阶单整)。

##单位根检验
tlist1<-xts(data$index1,as.Date(data$updatetime))
adf.test(tlist1)
tlist2<-xts(data$index2,as.Date(data$updatetime))
adf.test(tlist2)

3、协整检验/模型修正
单位根检验之后,变量间是同阶单整,可进行协整检验,协整检验是用来考察变量间的长期均衡关系的方法。若通过协整检验,则说明变量间存在长期稳定的均衡关系,方程回归残差是平稳的,可进行回归。
格兰杰因果检验:前提是变量间同阶协整,通过条件概率用以判断变量间因果关系。

##格兰杰因果检验
granger.test(tsdata,p=2)

4、模型选择
面板数据模型的基本形式

也可写成:

其中:


对于平衡的面板数据,即在每一个截面单元上具有相同个数的观测值,模型样本观测数据的总数等于NT。
当N=1且T很大时,就是所熟悉的时间序列数据;当T=1而N很大时,就只有截面数据。

  • 模型选择一般有三种形式
    (1)无个体影响的不变系数模型(混合估计模型):ai=aj=a,bi=bj=b

    即模型在横截面上无个体影响、无结构变化,可将模型简单地视为是横截面数据堆积的模型。这种模型与一般的回归模型无本质区别,只要随机扰动项服从经典基本假设条件,就可以采用OLS法进行估计(共有k+1个参数需要估计),该模型也被称为联合回归模型(pooled regression model)。
    (2)变截距模型(固定效用模型):ai≠aj,bi=bj=b

    即模型在横截面上存在个体影响,不存在结构性的变化,即解释变量的结构参数在不同横截面上是相同的,不同的只是截距项,个体影响可以用截距项ai (i=1,2,…,N)的差别来说明,故通常把它称为变截距模型。
    (3)变系数模型(随机效应模型):ai≠aj,bi≠bj

    即模型在横截面上存在个体影响,又存在结构变化,即在允许个体影响由变化的截距项ai (i=1,2,…,N)来说明的同时还允许系数向量bi (i=1,2,…,N)依个体成员的不同而变化,用以说明个体成员之间的结构变化。我们称该模型为变系数模型。
  • 选择合适的面板模型
    需要检验被解释变量yit的参数ai和bi是否对所有个体样本点和时间都是常数,即检验样本数据究竟属于上述3种情况的哪一种面板数据模型形式,从而避免模型设定的偏差,改进参数估计的有效性。

    如果接受假设H2,则可以认为样本数据符合不变截距、不变系数模型。如果拒绝假设H2,则需检验假设H1。如果接受H1,则认为样本数据符合变截距、不变系数模型;反之,则认为样本数据符合变系数模型。
  • F检验
    具体计算过程略,见参考ppt。


    其中下标1,s1指代随机效应模型的残差平方和,s2指代固定效用模型残差平方和,s3指代混合估计模型的残差平方和;
    若F2统计量的值小于给定显著水平下的相应临界值,即F2小于Fa,则接受H2,认为样本数据符合混合效应模型;反之,则继续检验假设H1;
    若F1统计量的值小于给定显著水平下的相应临界值,即F1小于Fa,则接受H1,认为样本数据符合固定效应模型;反之,则认为样本数据符合随机效应模型;
  • 随机效应模型
    (1)1.LM检验。Breush和Pagan于1980年提出R 检验方法。
    其检验原假设和备择假设:

    如果不否定原假设,就意味着没有随机效应,应当采用固定效应模型。
    (2). 豪斯曼(Hausman)检验。William H Greene于1997年提出了一种检验方法,称为豪斯曼(Hausman)检验。

    若统计量大于给定显著水平下临界值,p值小于给定显著水平,则存在个体固定效应,应建立个体固定效应模型。
form<- index3~index1+ index2
rankData<-plm.data(data,index=c("IPname","updatetime"))#转化为面板数据
pool <- plm(form,data=rankData,model="pooling")#混合模型
pooltest(form,data=rankData,effect="individual",model="within")#检验个体间是否有差异
pooltest(form,data=rankData,effect="time",model="within")#检验不同时间是否有差异
wi<-plm(form,data=rankData,effect="twoways",model="within")#存在两种效应的固定效应模型
pooltest(pool,wi)#F检验判断混合模型与固定效应模型比较
phtest(form,data=rankData)##Hausman检验判断应该采用何种模型,随机效应模型检验
pbgtest(form,data=rankData,model="within")#LM检验,随机效应模型检验
#检验是否存在序列相关
pwartest(form,data=rankData)#Wooldridge检验(自相关)小于0.05存在序列相关
summary(wi)##查看拟合模型信息
fixef(wi,effect="time")#不同时间对因变量的影响程度的系数估计值
inter<-fixef(wi,effect="individual")#不同个体对因变量的影响程度的截距估计值##根据模型参数,进行预测;

百度文库中下载的参考ppt:
http://pan.baidu.com/s/1qXHVGde

注:有些地方,尤其R代码部分有些乱,需根据实际数据情况进行选择,函数的参数设置并未完全吃透,还需要继续学习,如有不对的地方,再改正,目前的理解是这样了,在本次数据场景中,实际数据应用中预测效果不是很好,误差稍大,这次未采用,以后遇到可以再尝试。

面板数据分析步骤及流程-R语言相关推荐

  1. r语言 面板数据回归_工具方法 | “名牌包”:面板、时间序列模型常用R语言包...

    计量经济学是数学.统计技术和经济分析的综合,即运用数学.统计方法和相关经济理论,通过计量模型来揭示经济数量关系和规律.R语言包,已经实现了现代计量经济学的很多统计分析功能,下面从面板数据模型和时间序列 ...

  2. 《金融数据分析导论:基于R语言》习题答案(第一章)

     <金融数据分析导论:基于R语言>是芝加哥大学的教授Ruey S.Tsay所著,李洪成.尚秀芬.郝瑞丽翻译,机械工业出版社出版,是一本学习R语言和金融数据分析的很好的参考书籍. ** 注 ...

  3. python r语言 数据分析_Python V.S R语言?数据分析与挖掘该选哪一个?

    什么是R语言? R语言,一种自由软件编程语言与操作环境,主要用于统计分析.绘图.数据挖掘.R本来是由来自新西兰奥克兰大学的罗斯·伊哈卡和罗伯特·杰特曼开发(也因此称为R),现在由"R开发核心 ...

  4. R语言与数据分析(2)-R语言简介

    R语言的特点 1.有效的数据处理和保存机制 2.拥有一整套数组和矩阵的操作运算符 3.一系列连贯而又完整的数据分析中间工具 4.图形统计可以对数据直接进行分析和显示,可用于多种图形设备 5.一种相当完 ...

  5. 《深入浅出数据分析》第九章——R语言

    文章目录 记录第一次接触R语言 一.R语言下载安装 二.运行 三.补充 1.加载csv文件 2.hist函数 记录第一次接触R语言 <深入浅出数据分析>第九章讲到R语言,在这记录一下,就当 ...

  6. 统计词频-生成词云-数据分析报告(python R语言)

    数据分析 统计洛杉矶旅游地区的词频:景点词和酒店词 数据源:携程 网站的文本 数据分析: 统计词频(python语言) 用词云展示结果(R语言) 先看结果: 旅游景点的词频 旅游酒店的词频 统计酒店名 ...

  7. canoco5主成分分析步骤_基于R语言的主成分分析

    基于R语言的主成分分析 加入的SPSS群里有人问,怎么用SPSS进行主成分分析.确实没有注意到这种操作.很好奇,于是翻了翻孙振球的<医学统计学>,发现主成分分析这一块,竟使用了SAS!后来 ...

  8. 2021美赛数据分析全网首发(R语言 )

    目录 引言 1.统计数据准确性 1.1 MCM 1.2 ICM 2.各个赛题参加人数及其比例 2.1 透视图表 2.2 分析 3.各个题目获奖人数 4.各个题目获奖比例 5.总结与资源 引言 北京时间 ...

  9. R语言与数据分析(11)R语言的数据结构

    数据结构 数据结构是计算机存储.组织数据的方式,数据结构是指相互之间存在一种或多种特定关系的数据元素的集合 R中的数据类型 1.数值型 数值可以用于直接结算,加减乘除 2.字符串型 可以进行连接.转换 ...

  10. 三 网络数据分析(1)R语言简单操作

    sand包 数据集收集到一个名为sand的独立R包中用于"网络数据统计分析. #1 #install.packages("sand") library(sand) #in ...

最新文章

  1. 【js】绑定事件的两种方法
  2. 远程办公让企业生产力大打折扣?那是你的打开方式错了
  3. 97.16% 的加班率,给你 3 倍工资:你愿意去大厂吗?
  4. 电容充放电原理图_干货 | 入门开关电源,这些原理图一定要读懂
  5. 详解 Flink 容器化环境下的 OOM Killed
  6. GCC 编译时优化某一个或几个函数或者不优化某一个或几个函数
  7. 学点 C 语言(20): 数据类型 - 指针
  8. 迈克尔 杰克逊mv_杰克逊JSON解析错误– UnrecognizedPropertyException:无法识别的字段,未标记为可忽略[已解决]...
  9. redis笔记——redis事务及锁应用
  10. jquery ajax mysql登录_ajax基础知识、用ajax做登录页面、用ajax验证用户名是否可用、ajax动态调用数据库...
  11. 网络动态服务器-2-传递数据给应用
  12. java学习之类型转换与越界
  13. Python--模块微谈
  14. 机器学习中的决策树算法
  15. 28. (附加)八皇后问题(C++版本)
  16. 华为模拟器 ENSP 教程
  17. 电脑版微信防撤回大全
  18. Unity Android Ios 微信SDK 接入
  19. 《深度学习--基于python的理论与实现》学习笔记6:第三章神经网络(2)
  20. 微信公众平台接口调试工具json格式不对怎么搞_一步步教你打造微信公众号文章爬虫(3)-批量下载...

热门文章

  1. Android CTS测试
  2. 磁盘分区——MBR详解(私密)
  3. 周伟焜:杨元庆一定会带领联想成功
  4. HDU4730 We Love MOE Girls
  5. android tv盒子哪个好用,电视盒子什么牌子好?内行人都选这五款好用又不贵的机型...
  6. 估值15.59亿,融资15亿,百合网的新三板孤注一掷,局中有局!
  7. 32位 4G内存限制 linux,[操作系统]关于32位LINUX只支持4G内存的问题
  8. knx ets5安装
  9. oracle+linux+oel+6.9,Oracle 11g(11.2.0.4) install on OEL6.7
  10. 实例分割最全综述(上):二阶段实例分割和一阶段实例分割