转载:计量与统计

横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。横截面数据不要求统计对象及其范围相同,但要求统计的时间相同。也就是说必须是同一时间截面上的数据。

在分析横截面数据时,应主要注意两个问题:

1.异方差问题。由于数据是在某一时期对个体或地域的样本的采集,不同个体或地域本身就存在差异

2.数据的一致性问题。主要包括变量的样本容量是否一致、样本的取样时期是否一致、数据的统计标准是否一致。

本文将从模型检验出发,解答模型初级检验(T、F 检验)、二级检验(异方差、自相关、多重共线性)常见的疑难杂症。

Q1:差分,取对数为了啥?

取对数就是进行平滑,不改变趋势;差分就是看增长了多少,经济含义是增量;但是一般的处理是先取对数后取差分,这样的经济含义是增长率,默认时间序列是关于时间 T 连续的。

平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:

缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如 TF-IDF 计算时,由于在大规模语料库中,很多词的频率是非常大的数字。

取对数后,可以将乘法计算转换为加法计算。

某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。

•取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,数据更加平稳,也消弱了模型的共线性、异方差性等。

•在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b

两边同时对 X 求导:

1/Y*(DY/DX)=a*1/X

b=(DY/DX)*(X/Y)

=(DY*X)/(DX*Y)

=DY/Y)/(DX/X) 这正好是弹性的定义

Q2:模型需要做哪些检验

•要考虑经济意义(符号是否正确,系数大小是否合理)——T、F 检验等;

•模型前期要根据其特点做相关关系检验、平稳、协整检验、因果检验等;

•建完模型之后要对拟合度,系数显著性检验,方程显著性和共线性检验,如有共线性,需要通过删选变量或逐步回归或主成分分法等进行修正;

•还要对残差做自相关和异方差的检验。

Q3:T检验和F检验有啥区别

单样本T检验是比较已知均值与抽样均值是否差异。两独立样本T检验比较两个抽样之间均值的是否有差别,当取样的个体存在相关时,需要用到配对T检验来比较配对设计的两个样本之间是否有差别。

T检验的原假设是要看两个取样均值相等,备择假设是不相等。F是要看实验因素是否有影响。原假设是所有水平的均值相等,备择假设是所有水平不全相等。T检验和F使用的统计量不同,这个应该和数据的分布有关。

Q4:什么原因会导致参数的T检验没有通过?

几种可能性:样本量的过少、样本的异方差、序列相关性、理论的假设与实际样本的假设是否相符、模型是否遗漏变量等。

Q5:如何判断是否存在多重共线性?

1.系数判定法

1)如果决定系数很大(一般大于0.8),但模型中全部或部分参数却不显著,那么,此时解释变量之间往往存在多重共线性。

2)从经济理论知某些解释变量对因变量有重要影响,或经检验变量之间线性关系显著,但其参数的检验均不显著,一般就应怀疑是多重共线性所致。

3)如果对模型增添一个新的解释变量之后,发现模型中原有参数估计值的方差明显增大,则表明在解释变量之间(包括新添解释变量在内)可能存在多重共线性。

2.用解释变量之间所构成的回归方程的决定系数进行判别

3.逐步回归判别法:被解释变量逐个引入解释变量,构成回归模型,进行参数估计,根据决定系数的变化决定新引入的变量是否能够加入模型之中。首先将对所有的解释变量分别作回归,得到所有的模型,取决定系数最大的模型中的解释变量加入模型,作为第一个引入模型的变量;其次,再对剩余的解释变量分别加入模型,进行二元回归,再次,取决定系数最大的解释变量加入模型;依次做下去,直到模型的决定系数不再改善为止。

4.方差膨胀因子 VIF 判别法:对于多元线性回归模型,一般当 VIF>10 时(此时 >0.9),认为模型存在较严重的多重共线性。

Q6:如何处理多重共线性?

1.删除不重要的自变量:自变量之间存在共线性,说明自变量所提供的信息是重叠的,可以删除不重要的自变量减少重复信息。但从模型中删去自变量时应该注意从实际经济分析确定为相对不重要并从偏相关系数检验证实为共线性原因的那些变量中删除。如果删除不当,会产生模型设定误差,造成参数估计严重有偏的后果。

2.追加样本信息:多重共线性问题的实质是样本信息的不充分而导致模型参数的不能精确估计,因此追加样本信息是解决该问题的一条有效途径。但是,由于资料收集及调查的困难,要追加样本信息在实践中有时并不容易。

3.利用非样本先验信息:非样本先验信息主要来自经济理论分析和经验认识。充分利用这些先验的信息,往往有助于解决多重共线性问题。

4.改变解释变量的形式:改变解释变量的形式是解决多重共线性的一种简易方法,例如对于横截面数据采用相对数变量,对于时间序列数据采用增量型变量。

5.逐步回归法:是一种常用的消除多重共线性、选取“最优”回归方程的方法。其做法是将逐个引入自变量,引入的条件是该自变量经F检验是显著的,每引入一个自变量后,对已选入的变量进行逐个检验,如果原来引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既没有不显著的自变量选入回归方程,也没有显著自变量从回归方程中剔除为止。

6.可以做主成分回归:利用主成分提取的原理(比如变量间方差最大等)提取新的变量,新变量间一般不存在线性相关(但也会存在如何给新变量命名的问题),这是比较常用的一种降维方式。

特别注意: 

•逐步回归不解决多重共线性,只是通过对比显著程度来挑选变量。优点就是可以保证所有的系数都是显著的,当然显著的标准可以自定。

•岭回归因为是一种稳健的估计,所以说可以非常有效的解决多重共线性问题。普通最小二乘是不稳健的,原因就在于当变量存在共线性的时候,求逆就变成了一件非常坑爹的事情。两者好坏取决于个人,在统计问题中,没有最好的只有最合适的,当然在解决共线性这一块,毫无疑问岭回归,当然很多时候是可以几种方法结合在一起使用的,一般来说我处理问题的话都是先用逐步回归过一遍所有的变量,当变量很多的时候。

Q7:如何判断数据是否存在异方差问题?

判断异方差的检验有很多,比如G-Q检验啦,怀特检验啦……个人较为推荐怀特,因为它对异方差的表现形式限制最少(G-Q检验以F检验为基础,适用于样本容量较大、异方差递增或递减的情况)

步骤:

1.对原模型进行OLS回归,得到残差ei

2.以ei²为被解释变量,以各种解释变量、各解释变量的平方项、解释变量之间两两交叉项为解释变量建立辅助回归方程

3.根据辅助回归方程估计结果构造并计算统计量 nR²,它服从卡方分布(自由度为辅助回归式中解释变量个数)

4.根据临界值判断,若大于临界值,拒绝同方差假定;小于临界值,则不拒绝同方差假定

注意: 

(1)辅助回归中可引入解释变量的更高次幂

(2)在多元回归中,由于解释变量个数太多,可去掉辅助回归式中解释变量间的交叉项

Q8:怎么修正异方差?

1.WLS(加权最小二乘估计)是一种特殊的广义最小二乘估计,其思想就是对于误差越大的关系额赋予更加大的权重。可以得到关于GLS的稳健的统计量。GLS系数的解释要回到原先的方程中去。如果分析的问题不是个体的数据,而是一个组或者是一个地区的数据平均值,那么就会出现系统性的异方差性。

2.FGLS(可行的最小二乘估计),当我们不知道误差函数的时候,可以采用相应的模型,然后使用数据来估计相应的参数,得到相应的函数形式,最后替代GLS估计中的函数,后面的操作就不变。

Q9:自相关检验重要么? 

一般情况下时间序列数据都存在自相关,截面数据都存在异方差。所以大多情况下在研究时间序列时自相关检验是十分重要的一步。当样本容量足够大时,残差可以取代随机误差项,所以一般认为只要残差之间存在自相关时,说明原来的回归模型存在自相关。可用Ljung-Box test, LM test来检验,随软件输出的DW值只可检验一阶自相关。

Q10:怎么修正自相关问题? 

可以用广义差分法,科克伦—奥克特迭代法,一阶差分法,德宾两步法……

检验多重共线性matlab_异方差太难?检验通不过?横截面分析难题的十大暴击!...相关推荐

  1. 计量经济学学习笔记:多重共线性、异方差、自相关

    多重共线性.异方差.自相关 多重共线性 异方差 自相关 多重共线性 1 多重共线性是指各个解释变量之间有准确或近似准确的线性关系. 2 多重共线性的原因: (1)经济变量之间具有共同变化趋势. (2) ...

  2. 广东学考计算机专业要多少排位,太难了!2021年学考录取分数大暴涨!深职、广轻需要300分以上?...

    原标题:太难了!2021年学考录取分数大暴涨!深职.广轻需要300分以上? 据小编了解 近日,很多同学对于2021年学考的关注点很高 尤其是关于报名时间和考试时间 还有学校的录取分数 明年分数到底会不 ...

  3. 基于python的异方差检验_讲讲异方差的检验

    我们前面讲了异方差,也讲了怎么用图示法来判断是否有异方差,这一篇来讲讲怎么用统计的方法来判断有没有异方差. 关于检验异方差的统计方法有很多,我们这一节只讲比较普遍且比较常用的white test(怀特 ...

  4. 计量经济学笔记5-Eviews操作-异方差的检验与消除(White检验与加权最小二乘)

    完成期末作业的同时来更一下博客 问题背景: 对中国储蓄存款总额(Y,亿元)与GDP(亿元)两个变量进行一元线性回归,检验并消除异方差. White检验是通过一个辅助回归式进行异方差检验.用残差平方对原 ...

  5. 【计量经济学导论】05. 异方差

    文章目录 异方差 异方差的含义 异方差的产生原因 异方差的后果 异方差的检验方法 异方差的修正措施 异方差 在上一节的讨论中,完全共线性问题违背了基本假定 MLR.3 ,而多重共线性没有违背任何一个基 ...

  6. Stata:异方差和自相关稳健F检验和t检验

    全文阅读:https://www.lianxh.cn/news/4154505c0dfd6.html 目录 1. 引言 2. 适用场景及优势 2.1 适用场景 2.2 优势 3. 安装命令 4. 估计 ...

  7. 线性模型——异方差、序列相关、多重共线性与内生性的处理

    在实际的计量经济学问题中,完全满足回归的基本假设的情况并不多见.不满足基本假定的情况.称为违背基本假定 违背基本假定的情况主要包括: 随机干扰项存在异方差 随机干扰项的序列相关(或称自相关) 解释变量 ...

  8. stata 异方差专题【计量经济系列(四)】

    stata 异方差专题[计量经济系列(四)] 文章目录 1. 异方差检验方法 2. 散点图法 3. BP检验 4. 怀特检验 5. FWLS 可行权的最小二乘法 6. 小练习     ʚʕ̯•͡˔•̯ ...

  9. 计量经济学及Stata应用 陈强 第七章异方差习题7.3

    7.3恩格尔曲线是否存在异方差?数据集food.dta包含有关每周食物开支(food_exp)与每周收入(income)的40个观测值. (1)将food_exp与income的散点图与线性拟合图画在 ...

最新文章

  1. 02.规划过程组表格-需求管理计划
  2. LeetCode:62. 不同路径
  3. Asp.net MVC中防止HttpPost重复提交
  4. IBATISNETNET 1.3 开发指南系列文章
  5. python安装后怎样配解释器_python解释器安装教程以及环境变量的配置
  6. P4302-[SCOI2003]字符串折叠【区间dp】
  7. 基于JAVA+SpringMVC+Mybatis+MYSQL的学生请假管理系统
  8. 模型预测控制的缺点_【电子技术】【2018.01】模型预测控制FPGA实现的协同设计...
  9. linux ssh客户端乱码,Win10专业版下Open ssh客户端乱码咋办?
  10. php query builder,php – Symfony2 – Doctrine2 QueryBuilder WHERE I...
  11. 御坂搜索引擎_MisakaTranslator下载|MisakaTranslator御坂翻译器 v2.1 正式整合版下载
  12. 介绍一款喜欢的产品|产品经理面试题第2篇
  13. WEB视频自适应(下)
  14. HDMI中所说的EDID是什么
  15. Java项目:博客系统西瓜社区(springboot+mybatis-plus+thymeleaf)
  16. 薛定谔的猫,把妹法。用科学的办法把妹,解决程序员终身大事
  17. 【NLP】huggingface阶段性学习小结
  18. JDK8 Stream 效率如何?看了都说好!
  19. NJCTF writeup
  20. java anymatch_Java Stream anyMatch() API

热门文章

  1. Alibaba分层领域模型规约
  2. 用markdown + html写一封简历
  3. 【原创】大叔问题定位分享(33)beeline连接presto报错
  4. 关于Ajax的get与post浅分析,同步请求与异步请求,跨域请求;
  5. last-child 选取不到指定元素,失去效果
  6. cocos2d-x画线
  7. Real-time HTML Editor (实时网页编辑器)
  8. 页面嵌入Windows Media Player需要注意的
  9. BZOJ 3611: [Heoi2014]大工程 [虚树 DP]
  10. 对AngularJS的编译和链接过程讲解一步到位的文章