第16章Stata面板数据分析
目录
16.1短面板数据分析
案例延伸
延伸:关于模型的选择问题
16.2长面板数据
案例延伸
延伸:进行随即系数模型回归分析
面板数据(Panel Data)又被称为平行数据,指的是对某变量在一定时间内持续跟踪观测的结果。面板数据兼具了横截面数据和时间序列数据的特点,即有横截面维度(在同一时间段内有多个观测样本),又有时间序列维度(同一样本在多个时间段内被观测到)。面板数据通常样本数量相对较多,也可以有效解决遗漏变量的问题,还可以提供更多样本动态行为的信息,具有横截面数据和时间序列数据无可比拟的优势。根据横截面为度和时间序列维度相对长度的大小,面板数据被区分为长面板数据和短面板数据。
16.1短面板数据分析
短面板数据其主要特征是横截面为度比较大而时间维度相对较小,或者说,同一期间内被观测的个体数量较多而被观测的期间较少。段面板数据分析方法包括直接最小二乘回归分析、固定效应回归分析、随机效应回归分析、组间估计量回归分析等多种。
案例(16.1)A公司是一家销售饮料的连锁公司,下面是销售公司在各省市连锁店2008-2012年的橡树销售数据(包括销售收入、小小费用以及创造利润等数据)。试用短面板数据回归分析方法深入研究销售量和据消费用对制造利润的影响关系。变量包括年份、销售收入、促销费用、创造利润、地区。
encode diqu ,gen(region) #因为面板数据要求其中的个体变量取值必须为证书而且不允许有重复,所以需要对各个观测样本进行有序编号。本命令旨在讲地区这一字符串变量转化为数值型变量,以便下一步操作xtest region year #本命令的含义是对面板数据进行定义,其中横截面为度变量为上步生成的region,时间序列变量为year
可以看出这是一个平衡的面板数据。
xtdes #本命令旨在观测变慢数据的结构,考察面板数据特征,为后续分析做好必要准备
从上图可以看出该面板数据的横截面维度region为1~20共20个取值,时间序列维度year为2008-2012共5个取值,属于短面板数据,而且观测样本在时间上的分布也非常的均匀。
xtsum #本命令旨在现实面板数据组内、组件以及整体的统计指标
上图是面板数据组内、组间以及整体的统计指标的结果。在短面板数据中,同一时间段内的不同观测样本构成一个组。从图中可以看出变量year的组间标准差是0,因为不同组的这一变量取值完全相同,同时变量region的组内标准差也为0,因为分布在同一组的数据属于同一个地区。
xttab sale #本命令旨在现实“sale”变量组内、组间以及整体的分布频率。
xttab cost
xttab profit
上图是sale变量组内、组间以及整体的分布频率的结果。
xtline sale #本命令旨在对每个个体现实“sale”变量的时间序列图
xtline cost
xtline profit
上图是sale的时间序列图,我们可以看到不同地区的销售收入是不一样的有的高有的低,从图中我们还可以看到sale变量在各个地区的时间趋势。
reg profit sale cost #本命令是以profit为因变量,以sale,cost为自变量,进行最小二乘回归分析。
上图的解析就不多说了。可从上述分析结果我们可以得到最小二乘模型的回归方程是:
profit = 0.0041186*sale+0.862813*cost-0.4981994
得到的结论是该单位创造利润情况与销售量和促销费用等都是显著呈正向变化的。
reg profit sale cost,vce(cluster region) #本命令的含义是以sale、cost为自变量,profit为因变量,并且使用以 region 为聚类变量的聚类稳健标准差,进行最小二乘回归分析。
从上图我们可以看出,使用以“region”为聚类变量的聚类文件标准差进行最小二乘回归分析的结果与普通最小二乘回归分析得到的结果类似,只是sale变量系数的显著性有所下降。
xtreg profit sale cost ,fe vce(cluster region) #本命令的含义是以profit为因变量以sale、cost为自变量,并以“region”为聚类变量的聚类文件标准差,进行固定效应回归分析。
从图中可以看到共有20组,每组5个,共有100个样本参与了固定效应回归分析。模型的F值是10.92,显著性P值为0.0007,模型是非常显著的。模型组内R方是0.3637(within=0.3637),说明单位内解释的变化比例是36.37%。模型组间R方是0.6619(between=0.6619),说明单位间解释的变化比例是66.19%。模型总体R方是0.3697(ovverall=0.6397)说明总的解释变化比例是63.79%。模型的解释能力还是可以接受的。观察模型中各个变量系数的显著性P值,可以发现是比较显著的。此外,图中最后一行,rho=0.97094045,说明复合扰动项的方差主要来自个体效应而不是时间效应的变动,这一点在后面的分析中也可以得到验证。
xtreg profit sale cost ,fe #本命令的含义是以profit为因变量,以sale、cost为自变量进行固定效应回归分析。
本结果相对于使用以region为聚类变量的聚类稳健标准差进行固定效应回归分析的结果在变量系数显著性上有所提高。此外,在图16.16的最下面一样可以看到“(F test that all u_i=0 : F(19,78) Prob > F = 0.0000)” 显著拒绝了所有各个样本没有自己的截距项的原假设,所以我们可以初步认为每个个体用于与众不同的截距项,也就是说固定效应模型在一定程度上优于普通最小二乘回归模型,这一点也在后续的深入分析中得到了验证。
estimates store fe #本命令的含义是存储固定效应回归分析的估计结果。
xi:xtreg profit sale cost i.region ,vce(cluster region) #本命令旨在通过构建最小二乘虚拟变量模型来分析固定效应模型是否优于最小二乘回归分析。
从上图可以看出,大多数个体虚拟变量的显著性P值都是小于0.05的,所以我们可以非常有把握的认为可以拒绝“所有个体的虚拟变量皆为0”的原假设,也就是说固定效应模型是由于普通最小二乘回归模型的。
tab year ,gen(year) #本命令旨在创建年度变量的多个虚拟变量。
xtreg profit sale cost year2-year5,fe vce(cluster region) #本命令旨在通过构建双向固定效应模型来检验模型中是否应该包含时间效应
从上图我们可以看出,全部year虚拟变量的显著性P值都是远大于0.05的,所以我们可以初步认为模型中不包含时间效应。值得说明的是,在构建双向固定效应模型时并没有把year1列入进去,这是因为year1被视为基期,也就是模型中的常数项。
test year2 year3 year4 year5 #本命令的含义是在上步回归的基础上,通过测试各虚拟变量的系数联合显著性来检验是否应该在模型中纳入时间效应。
可以看你出,各变量系数的联合显著性是非常差的,接受了没有时间效应的初步假设,所以我们进一步验证了模型中不必包含时间效应的结论。
xtreg profit sale cost,re vce(cluster region) #本命令的含义是以profit为因变量,以sale、cost为自变量,并且以region为聚类变量的聚类稳健标准差,进行随机效应回归分析。
可以看到,随机效应回归分析的结果与固定效应回归分析的结果大同小异,只是部分变量的显著性水平得到了进一步提高。
xttest0 #本命令的含义是在上部回归的基础上,进行假设检验来判断随机效应模型是否优于最小二乘回归模型。
建设检验非常显著的拒绝链不存在个体随机效应的原假设,也就是说,随机效应模型是在一定程度上优于普通最小二乘回归分析模型的。
xtreg profit sale cost,mle #本命令的含义是profit为因变量,以sale、cost为自变量并使用最大似然估计方法,进行随机效应回归分析。
从上图可以看出,使用最大似然估计方法的随机效应回归分析的结果与使用以“region”为聚类变量的聚类稳健标准差的随机效应回归分析的结果大同小异,只是部分变量的显著性水平得到了进一步的提高。
xtreg profit sale cost,be #本命令的含义是以profit为因变量,以sale、cost为自变量并使用组间估计量,进行组间估计量回归分析。
可以看出,使用组间估计量进行回归分析的结果比较固定效应模型、随机效应模型在模型解释能力以及变量的显著性上都有所降低。
案例延伸
延伸:关于模型的选择问题
在前面的分析过程中,我们使用各种分析方法对本节涉及的案例进行了详细具体的分析。读者们看到众多的分析方法时可能会有眼花缭乱的感觉,那么我们最终应该选择哪种分析方法来构建模型呢?答案当然是具体问题具体分析,然而我们也有统计方法和统计经验作为决策参考。例如,在本例中,已经证明了固定效应模型和随机效应模型都要浩宇普通最小二乘回归模型。而对于组间估计量模型来说,他通常用于数据质量不好的时候,而且会损失较多的信息,所以很多时候我们仅仅将其作为一种对照的估计方法。那么剩下的问题就是选择固定效应模型还是随机效应模型的问题。在前面的基础下,操作命令如下。
xtreg profit sale cost ,re #本命令的含义是以profit为因变量,cost、sale为自变量进行随机效应回归分析
estimates store re #存储随机效应回归分析的估计结果
hausman fe re,constant sigmanore #进行豪斯曼检验,并据此判断应该选择固定效应模型还是随机效应模型。
豪斯曼检验的原假设是使用随机效应模型。上图显示的显著性P值(Prob>chi2=0.0061)远远小于5%,所以我们应该拒绝初始假设,认为使用固定效应模型更为合理的。综上所述,我们应该构建固定效应模型来描述变量之间的关系。
16.2长面板数据
长面板数据是面板数据的一种,其主要特征是时间维度比较大而横截面维度相对较小的,或者说,同一期间内被观测的期间较多而被观测的个体数量少。长面板数据分析相对而言更加关注扰动项相关的具体形式,一般使用可行广义最小二乘法进行估计。这又分为两种情形:一是进解决组内自相关的可广义最小二乘估计:李毅中是同时处理组内自相关与组间同期相关的可行广义最小二乘估计。
案例(16.2)B公司是一家保险公司,各省市连锁店2001-2010年的相关经营数据包括保费收入、赔偿支出以及创造利润等。试用多种长面板数据回归分析方法深入研究保费收入、赔偿支出对创造利润的影响关系。
encoding shengshi,gen(region) #因为面板数据要求其中个体变量值必须为证书而且不允许有重复,所以我们需要对各个观测样本进行有序编号。本命令旨在将shengshi这一字符串变量转化为数值型变量xtset region year #本命令的含义是对面板数据集行定义,其中横截面为度变量为我们上步生成的regionxtdes #本命令旨在观测数面板数据的结构,考察面板数据特征,为后续分析做好必要准备。xtsum #本命令旨在现数面板数据组内、组间以及整体的统计指标xttab income #本命令旨在显示income变量组内、组间以及整体的分布频率xttab costxttab profitxtline income #本命令旨在对每个个体显示income变量的时间序列图xtline costxtline profittab region,gen(region) #本命令旨在创建省市变量的多个虚拟变量reg profit income cost region2-region8 year ,vce(cluster region) #本命令的含义是一region为聚类变量的聚类稳健标准差,进行最小二乘回归分析。estimates stor ols #本命令的含义是存储最小二乘回归分析的估计结果。
上述命令的分析不再过多赘述。
xtpcse profit income cost region2-region8 year ,corr(ar1) #本命令的含义是在仅考虑存在组内自相关,并且各组的子回归系数相同的情形下,以profit为因变量,以income、cost以及生成的各个地区虚拟变量为自变量,进行可行广义最小二乘回归分析。estimates store ar1
上图可以看出,在仅考虑存在组内自相关,并且各组的自回归系数相同的情形下,进行可行广义最小二乘回归分析的结果与普通最小二乘回归分析的结果是有一些区别的。
xtpcse profit income cost region2-region8 year,corr(psar1) #本命令的含义是在仅考虑存在组内自相关,并且哥组的自回归系数不相同的情形下,进行可行广义最小二乘回归分析。estimates store psar1
可以看出在仅考虑存在组内自相关,并且哥组的自回归系数不相同的情形下,进行可广义最小二乘回归分析的结果与前面各种回归分析的结果是有一些区别的。
xtpcse profit income cost region2-region8 year,hetonly #本命令的含义是在不考虑存在自相关,仅考虑不同个体扰动项存在异方差的情形下,进行可行广义最小二乘回归分析estimates store hetonly #存储上不可行广义最小二乘回归分析的估计结果
从上图可以可出,在不考虑存在自相关,仅考虑不同个体扰动项存在异方差的情形下,进行广义最小二乘回归分析的结果与前面各种回归分析结果是有一些区别的。
estimates table ols ar1 psar1 hetonly,b se #本命令的含义是展示将以上各种方法的系数估计值及标准差列表放到一起进行比较的结果
从上图可以看出,hetonly方法的系数估计值和ols方法的系数估计值是完全一样的,但是标准差不一样。其他各种方法之间都存在着一定的差别。
xtgls profit income cost region2-region8 year ,panels(cor) cor(ar1) #本命令事在假定不同个体的扰动项相互独立且有不同得方差,并且各组的自回归系数相同的情形下,进行的可行广义最小二乘回归分析。
xtgls profit income cost region2-region8 year ,panels(cor) cor(psar1) #本命令事在假定不同个体的扰动项相互独立且有不同得方差,并且各组的自回归系数不相同的情形下,进行的可行广义最小二乘回归分析。
每次分析都与前面的各种分析有些区别。
案例延伸
延伸:进行随即系数模型回归分析
前面我们讲述的种种面板数据回归分析方法,最多允许每个个体拥有自己的截距项,从来没有允许每个个体拥有子的回归方程斜率。变系数的命令如下
xtrc profit income cost , betas
本命令不仅每个个体拥有自己的截距项,还允许每个个体拥有自己的回归方程斜率,旨在进行随机系数模型回归分析。
模型中对参数一致检验的显著性P值为0.0000(Test of parameter constancy:chi2(21)=891.48 Prob > chi2 = 0.0000),显著的拒绝链每个个体都具有相同系数的原假设,我们的变系数模型设置时非常合理的。
第16章Stata面板数据分析相关推荐
- 面板数据分析及stata应用笔记
动态面板数据模型及估计方法 假说里面不要出现显著 文章目录 (一)面板数据基础知识 **一.面板数据的定义** **二.面板数据的分类** **三.面板数据的优缺点** **四.面板数据模型** ** ...
- 慕课面板数据分析与Stata应用—第一章总结
1.面板数据类型 短.长 平衡.非平衡 静.动态 2.估计方法 2.1 混合回归 特征:认为个体异质性不存在,所有的个体估计方程都一致 2.2固定效应 特征:认为个体异质性与解释变量相关 类别 单向: ...
- python基础学习[python编程从入门到实践读书笔记(连载五)]:数据可视化项目第16章
文章目录 下载数据 制作全球地震散点图:JSON格式 end 几个实验结果: 每日最高气温: 地震图绘制: 下载数据 CSV文件格式 在文本文件中存储数据,一个简单方式是将数据作为一系列以逗号分隔的值 ...
- 信安教程第二版-第16章网络安全风险评估技术原理与应用
第16章 网络安全风险评估技术原理与应用 16.1 网络安全风险评估概述 321 16.1.1 网络安全风险评估概念 321 16.1.2 网络安全风险评估要素 322 16.1.3 网络安全风险评估 ...
- R语言 面板数据分析 plm包实现(一) ——LSDV和固定效应模型
系列文章 R做面板数据分析:R语言 面板数据分析 plm包实现(一) --LSDV和固定效应模型 如果想看随机效应模型怎么做,参见这篇文章 R语言 面板数据分析 plm包实现(二)--随机效应模型 如 ...
- 【Python计量】两期面板数据分析
本文讨论两个时期的面板数据的分析方法. [例1]伍德里奇<计量经济学导论:现代方法>的"第13章 跨时横截面的混合:简单面板数据处理方法"的例13.5,利用SLP75_ ...
- 云计算与大数据第16章 分布式内存计算平台Spark习题
第16章 分布式内存计算平台Spark习题 16.1 选择题 1.Spark是Hadoop生态( B )组件的替代方案. A. Hadoop B. MapReduce C. ...
- 计量经济学及Stata应用 第二章 Stata入门
第二章 Stata入门 2.3 Stata操作实例 打开数据文件 use file_path,clear (clear用于清空内存中的数据) 审视数据 观看数据集中的变量名.标签等 describe ...
- stata面板数据gmm回归_STATA面板数据回归解读.ppt
STATA面板数据回归解读 STATA在实证研究中的应用 刘永东 中国科学院农业政策研究中心 Outline STATA数据分析基础 软件名称 最新版本 安装文件大小 SAS 9.1.3 3G SPS ...
- mySQL 教程 第16章 MySQL复制
第16章 MySQL复制 复制解决的问题 概述:你的网站访问量非常大,对系统的稳定性非常高,那么可以使用mysql功能的复制功能,复制是指将主要的数据库的DDL和DML操作通过二进制日志传到复制服务器 ...
最新文章
- pythonista3使用教程-Pythonista中文文档:使用Pythonista
- Interview:算法岗位面试—上海某公司算法岗位(偏数据分析,互联网行业)技术面试考点之特征工程考察点
- 2021 版 Spring Boot 基础知识复习手册(2w字,建议收藏)
- cookie和session的讲解
- Linux信号处理机制
- 功能强大的JavaScript 拖拽库 SortableJS
- 【WPF学习】第四十七章 WriteableBitmap类
- T SQL + 正则表达式
- 《IT项目管理那些事儿》——国内第一本项目管理的实践书籍
- matplotlib tricks(一)—— 多类别数据的 scatter(cmap)
- NETTY keeplive 参数,心跳检测
- Tesseract-OCR识别 学习(一)命令识别
- hibernate四种状态
- python中if语句中可用break_python跳出if语句
- 数字ic设计|ASIC芯片开发过程
- NLTK-004:加工原料文本
- pcre c语言,pcre函数详细解析
- switch语言的应用
- 旅行:旅行的意义是旅行本身没有意义
- 聆听云享M密码,一款云享M1系列的烟油