实证会计理论与因果推断13 线性模型概述1

  • OLS
  • GLS

大部分应用微观计量模型都在试图去计算causal effects,对这个causal effects有一个比较经典的定义:Causal effects are the ceteris paribus response to a change in variable or parameter (Marshall [1961] and Heckman [2000])。这个句子的关键词是ceteris paribus。它是一个拉丁语短语,ceteris在应用微观计量的语境下可以理解成除了我们感兴趣的解释变量以外的其他因素,paribus的意思是相等,因此连起来就是保持除了我们感兴趣的解释变量外的其他因素保持不变。这句话的含义就是causal effects就是在其他因素保持不变的条件下,被解释变量对解释变量变化的响应。其中ceteris paribus是保证我们能够正确估计出causal effects的核心假设。
设计实证研究去估计causal effects有两种方法,一种是observational study,另一种是experimental study。对于经济学而言,实验方法还是一个比较新的领域,主要用来研究个体与小型集体的决策行为。究其原因还是因为经济系统比物化生系统复杂程度更甚,并且几乎不可能对其他因素施加控制,也就难以做到ceteris paribus了。所以大部分经济文献用的还是observational study的思路。这篇博文会简单梳理一下最基础的计量方法,为什么在这些方法的假设成立的前提下可以做到ceteris paribus,以及大致提一下如果这些假设不成立有哪些补救措施,后续的博文就围绕如何用observational study去计算causal effects展开。

OLS

假设DGP(data generating process)是Y=Xβ+ϵY=X\beta+\epsilonY=Xβ+ϵ其中Y∈Rn×1Y \in \mathbb{R}^{n \times 1}Y∈Rn×1,X∈Rn×pX \in \mathbb{R}^{n \times p}X∈Rn×p,β∈Rp×1\beta \in \mathbb{R}^{p \times 1}β∈Rp×1,假设

  1. rank(X)=prank(X)=prank(X)=p(无多重共线性)
  2. E[ϵ∣X]=0E[\epsilon|X]=0E[ϵ∣X]=0 (无内生性)
  3. Var(ϵ)=σ2InVar(\epsilon)=\sigma^2 I_nVar(ϵ)=σ2In​ (同方差、无自相关性)

为了方便做统计推断,假设

  1. ϵ∣X∼N(0,σ2In)\epsilon|X \sim N(0,\sigma^2I_n)ϵ∣X∼N(0,σ2In​) (正态性)

这些假设保证了ceteris paribus,系数β\betaβ就是我们想要计算的causal effects。上面的假设作用不尽相同。无多重共线性主要是出于计算上的考量,因为系数的OLS估计是β^=LY\hat{\beta}=LYβ^​=LY,其中L=(XTX)−1XTL=(X^TX)^{-1}X^TL=(XTX)−1XT是向线性空间span(X)span(X)span(X)上投影的投影矩阵,如果rank(X)<prank(X)<prank(X)<p,XTXX^TXXTX就会是不可逆的奇异阵。存在多重共线性时可以用岭回归避免系数被高估。无内生性的假设是为确保ceteris paribus所需要的最重要的一条假设,在DGP中,我们关注的解释变量只有ppp个,影响被解释变量的其他变量都在随机误差里面,如果E(ϵ∣X)≠0E(\epsilon|X) \ne 0E(ϵ∣X)​=0,说明误差中还存在能影响被解释变量的因素,这时可以用GMM。其原因可能是存在重要遗漏变量或者互为因果等。如果同方差假设不成立,OLS的系数可能会被高估,可以用WLS来做;如果误差项存在自相关,可以用GLS。正态假设可以保证系数估计量的一些优良性质可以成立,并且方便用来做统计推断。我们通常讨论的数据质量好不好其实讨论的是能满足几条OLS的假设

系数的估计其实还是随机的,正态性假设下系数的OLS估计量同样服从正态分布,这意味着causal effects其实是随机变量。为了获得对causal effects的最准确的估计,我们希望找到的系数估计量是UMVUE,并且具有一致性和渐进有效性。前者保证causal effects的分布尽可能集中,后者保证大样本时causal effects不会偏离真实的causal effects并且渐进分布也尽可能比较集中。Gauss-Markov定理保证了OLS估计是BLUE,这里就简单证明一下OLS估计更是UMVUE。
回顾一下Rao-Blackwell定理:如果一个无偏估计可以写成充分完备统计量的函数,那么它就是一个UMVUE。因为OLS是BLUE,所以肯定是一个无偏估计了。考虑Y∼N(Xβ,σ2In)Y \sim N(X\beta,\sigma^2I_n)Y∼N(Xβ,σ2In​),尝试找一下XβX\betaXβ的充分完备统计量。
f(Y)=(2π)−n/2σ−nexp⁡{−12σ2(Y−Xβ)T(Y−Xβ)}=exp⁡{−YTY2σ2−YTXβσ2−βTXTXβ2σ2−nln⁡2πσ2}f(Y) = (2\pi)^{-n/2} \sigma^{-n} \exp{\{-\frac{1}{2\sigma^2}(Y-X\beta)^T(Y-X\beta) \}} \\ = \exp{\{-\frac{Y^TY}{2\sigma^2}-\frac{Y^TX\beta}{\sigma^2}-\frac{\beta^TX^TX\beta}{2\sigma^2}-n\ln\sqrt{2\pi \sigma^2}\}} f(Y)=(2π)−n/2σ−nexp{−2σ21​(Y−Xβ)T(Y−Xβ)}=exp{−2σ2YTY​−σ2YTXβ​−2σ2βTXTXβ​−nln2πσ2​}
根据Neyman-Fisher因子分解定理不难看出充分统计量为YTXY^TXYTX与YTYY^TYYTY,其中lll为元素全是1的向量。考虑
E[g(YTX)]=∫g(YTX)(2π)−n/2σ−nexp⁡{−12σ2(Y−Xβ)T(Y−Xβ)}dY=0E[g(Y^TX)] = \int g(Y^TX) (2\pi)^{-n/2} \sigma^{-n} \exp{\{-\frac{1}{2\sigma^2}(Y-X\beta)^T(Y-X\beta) \}} dY = 0 E[g(YTX)]=∫g(YTX)(2π)−n/2σ−nexp{−2σ21​(Y−Xβ)T(Y−Xβ)}dY=0
因为指数部分肯定是大于0的,而(2π)−n/2σ−n(2\pi)^{-n/2}\sigma^{-n}(2π)−n/2σ−n也是大于0的,所以除非g(YTX)=0.a.s.g(Y^TX)=0.a.s.g(YTX)=0.a.s.否则期望不会为0,因此YTXY^TXYTX是β\betaβ的充分完备统计量。因为
Y=Xβ^+eY = X\hat{\beta} + e Y=Xβ^​+e
其中eee是残差。因此YTX=(Xβ^)TX+eTX=XTXβ^Y^T X = (X\hat{\beta})^TX + e^TX=X^TX\hat{\beta}YTX=(Xβ^​)TX+eTX=XTXβ^​,显然OLS估计β^\hat{\beta}β^​可以写成XTXβ^X^TX\hat{\beta}XTXβ^​的函数。根据Rao-Blackwell定理,OLS估计是UMVUE。
接下来简单证一下OLS估计的一致性。定义
SXX=XTXn=1n∑i=1nxixiT∈Rp×pSXY=XTYn=1n∑i=1nxiyi∈Rp×1g=XTϵn=1n∑i=1nxiϵi∈Rp×1S_{XX} = \frac{X^TX}{n} = \frac{1}{n} \sum_{i=1}^n x_ix_i^T \in \mathbb{R}^{p \times p} \\ S_{XY} = \frac{X^TY}{n} = \frac{1}{n}\sum_{i=1}^n x_iy_i \in \mathbb{R}^{p \times 1} \\ g=\frac{X^T\epsilon}{n} = \frac{1}{n}\sum_{i=1}^n x_i\epsilon_i \in \mathbb{R}^{p \times 1} SXX​=nXTX​=n1​i=1∑n​xi​xiT​∈Rp×pSXY​=nXTY​=n1​i=1∑n​xi​yi​∈Rp×1g=nXTϵ​=n1​i=1∑n​xi​ϵi​∈Rp×1
从而
β^=(XTX)−1XTY=(XTXn)−1(XTYn)=SXX−1SXYβ^−β=(XTX)−1XTϵ=(XTXn)−1(XTϵn)=SXX−1g\hat{\beta} = (X^TX)^{-1}X^TY = (\frac{X^TX}{n})^{-1}(\frac{X^TY}{n}) = S_{XX}^{-1}S_{XY} \\ \hat{\beta} - \beta = (X^TX)^{-1}X^T\epsilon = (\frac{X^TX}{n})^{-1}(\frac{X^T\epsilon}{n}) = S_{XX}^{-1}g β^​=(XTX)−1XTY=(nXTX​)−1(nXTY​)=SXX−1​SXY​β^​−β=(XTX)−1XTϵ=(nXTX​)−1(nXTϵ​)=SXX−1​g
假设二意味着E[xiϵi]=0E[x_i\epsilon_i]=0E[xi​ϵi​]=0,从而ggg依概率趋近于0,假设一保证SXX−1S_{XX}^{-1}SXX−1​有界,因此β^\hat{\beta}β^​依概率趋近于β\betaβ,或者说,OLS估计具有一致性。要比较OLS估计的渐进有效性需要计算其渐进方差、另外大样本情况下的检验需要方差的估计也具有一致性,关于这些推导可以参考陈强的教材第五章的内容。

GLS

现在放松第三条假设,如果同方差假设与自相关不成立,将假设修正为

3’. Var(ϵ)=ΣVar(\epsilon)=\SigmaVar(ϵ)=Σ

此时的估计叫广义最小二乘估计(GLS),GLS估计也是BLUE
β^GLS=(XTΣ−1X)−1XTΣ−1Y\hat{\beta}^{GLS} = (X^T\Sigma^{-1}X)^{-1}X^T \Sigma^{-1}Y β^​GLS=(XTΣ−1X)−1XTΣ−1Y
推导GLS估计可以不用最小二乘的思想,可以用Aitken方法将其化归为OLS,这里给一个简单的思路。对Σ\SigmaΣ做Cholesky分解,Σ=ΓΓT\Sigma = \Gamma\Gamma^TΣ=ΓΓT,并对DGP做变换
Γ−1Y=Γ−1(Xβ+ϵ)=Γ−1Xβ+Γ−1ϵ\Gamma^{-1} Y = \Gamma^{-1}(X\beta + \epsilon) = \Gamma^{-1}X\beta + \Gamma^{-1}\epsilon Γ−1Y=Γ−1(Xβ+ϵ)=Γ−1Xβ+Γ−1ϵ
其中Γ−1ϵ\Gamma^{-1}\epsilonΓ−1ϵ的协方差矩阵为InI_nIn​满足OLS的假设,因此β\betaβ的OLS估计为
β^=(XT(Γ−1)TΓ−1X)−1XT(Γ−1)TΓ−1Y\hat{\beta} = (X^T (\Gamma^{-1})^T\Gamma^{-1}X)^{-1} X^T (\Gamma^{-1})^T \Gamma^{-1} Y β^​=(XT(Γ−1)TΓ−1X)−1XT(Γ−1)TΓ−1Y
因为(Γ−1)TΓ−1X)−1=Σ−1(\Gamma^{-1})^T\Gamma^{-1}X)^{-1}=\Sigma^{-1}(Γ−1)TΓ−1X)−1=Σ−1,所以这个估计就是GLS。根据OLS的性质,GLS是无偏的。GLS估计的方差一般用Eicker-Huber-White渐进异方差一致估计量(heteroskedasticity consistent estimator):
n(XTX)−1S0(XTX)−1n(X^TX)^{-1}S_0 (X^TX)^{-1} n(XTX)−1S0​(XTX)−1
其中S0=∑i=1nxixiTei2/nS_0 = \sum_{i=1}^n x_ix_i^T e_i^2/nS0​=∑i=1n​xi​xiT​ei2​/n,eie_iei​是残差。

实证会计理论与因果推断13 线性模型概述相关推荐

  1. 苗旺:因果推断,观察性研究和 2021 年诺贝尔经济学奖

    [专栏:前沿进展]因果推断是当下人工智能.机器学习领域中的热门话题之一.在 11 月 26 日的青源 Talk 中,北京大学助理教授.青源会会员苗旺分享了题为「因果推断,观察性研究和 2021 年诺贝 ...

  2. 《因果学习周刊》第13期:ICLR 23因果推断高分论文

    No.13 智源社区 因果学习组 因 果 学  习 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<因果学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

  3. 因果推断, 因果效应概述

    概述 Q1: 因果推断定义? A: 从观测数据中学习规律, 然后预测不同的treatment对结果的不同影响. Q2: 为什么需要因果推断, 与传统有监督机器学习的区别? A: 传统的机器学习任务不涉 ...

  4. 因果推断会是下一个AI热潮吗?朱迪亚•珀尔新作《因果论》重磅上市!

    从"大数据时代和机器学习热潮"到"第二次因果革命",从以数据为中心到数据理解的转变不仅涉及技术上的转变,还意味着更加深刻的范式转换. 因果关系理论与现有机器学习 ...

  5. 因果推断笔记——工具变量、内生性以及DeepIV(六)

    文章目录 1 理论介绍 1.1 工具变量的三个条件 1.2 工具变量的效应估计 1.3 工具变量第四类条件:同质性 1.4 工具变量第四类条件:单调性 1.5 工具变量三个条件的剖析 1.6 一些对和 ...

  6. 【机器学习】机器学习视角下的因果推断

    机器学习可以通过样本直接匹配以及提升倾向性得分(PSM)准确度来实现样本的精准匹配,使得样本对反事实预测的研究更具有随机化实验的特性.本文从匹配法.断点回归法.双重差分法.合成控制法四个方面讲解机器学 ...

  7. 因果推断笔记——数据科学领域因果推断案例集锦(九)

    文章目录 1 腾讯看点:启动重置问题 1.1 观测数据 . 实验数据的理论介绍 2.2 启动重置问题阐述:短期.长期.异质 2.3 短期影响的解决 2.4 长期影响构造准实验 2.5 异质性用户 1. ...

  8. python 因果推断_因果推断书Causal inference:What if简介(附:因果推断书单推荐)...

    Causal Inference: What If 内容简介:本书由哈佛大学 Miguel Hernan.Jamie Robins 教授编著,对因果推理的概念和方法做了系统性阐述.该书在知乎等各大平台 ...

  9. 5月上新(上)丨元宇宙、因果推断、薛定谔方程...你关注的都在这

    华章科技上新啦! 快来看 pick  你最喜欢的新书吧~ 参与文末赠书活动,好书就要抢先读 - 新书速览 - 1.<因果论:模型.推理和推断(原书第2版)> 2.<元宇宙大爆炸:产业 ...

最新文章

  1. Android Binder总结
  2. java.library.path hadoop_关于java:Hadoop“无法为您的平台加载本机Hadoop库”警告
  3. 语音识别传统方法(GMM+HMM+NGRAM)概述
  4. 怎样用matlab模型建立,怎样在matlab里建立一个BP神经网络模型?
  5. CentOS6.9 下编译安装MySQL5.7.19
  6. 前端学习(2011)vue之电商管理系统电商系统之初步使用upload上传组件
  7. kali linux 双显卡,Kali上双显卡驱动的安装
  8. 微信小程序之验证码短信倒计时
  9. maven项目转eclipse工程的命令:eclipse.bat
  10. RAID磁盘阵列与磁盘阵列卡
  11. matlab pt站下载,PT站RSS下载使用教程 | PT邀请码网
  12. 电脑如何安装无线网卡?
  13. Ubuntu 安装库dbus-pytho
  14. matlab 绘图图例只有文字不显示线型
  15. 阿里云服务器选择不同的地域有何区别,应该如何选择?
  16. GMAN: A Graph Multi-Attention Network for Traffic Prediction(2020AAAI)
  17. View类的setVisibility()
  18. 如何自定义模板过滤器?
  19. 计算机专业课程学习顺序
  20. 网络工程师成长日记373-李宁公司项目

热门文章

  1. Leetcode 146. LRU缓存机制 解题思路及C++实现
  2. td里面的内容加了br不起作用_刀圈TD黑暗游侠,最容易打金之一!!
  3. JavaScript 运行机制详解
  4. 赋值运算符||位运算符||三元运算符
  5. Timer的schedule和scheduleAtFixedRate方法的区别解析
  6. Java 技术篇 - 从指定的web网页页面中读取html内容实例演示,从http协议下的url地址中读取web页面内容方法
  7. Python 技术篇 - pip下载、安装慢解决方法,更改pip数据源实现秒速下载,配置阿里云国内镜像实例演示
  8. JSP知识点笔记-常用技术方法
  9. GRPC java实现demo
  10. 手写select,解决浏览器兼容性