文章目录

虚拟变量与双重差分
- 虚拟变量的模型设定
- 虚拟变量的回归分析
- 虚拟变量的综合应用
- - 结构变化分析
  - 交互效应分析
- 双重差分模型
- 双重差分模型的优点

虚拟变量与双重差分

虚拟变量的模型设定

首先我们先对解释变量中的定性因素和定量因素作以下阐述：

定量因素：可直接测度、数值性的因素；
定性因素：属性因素，表征某种属性存在与否的非数值性的因素。

在实际建模中，如何对定性因素进行回归分析？采用“虚拟变量”对定性变量进行量化是最常用的一种思路。其基本思想为：

直接在回归模型中加入定性因素存在诸多的困难；
可将这些定性因素进行量化，以达到定性因素能与定量因素有着相同作用之目的；
有些定量因素也可以采取分组的方式来研究。

虚拟变量设置的时候需要考虑以下的基本规则：

总原则为：设置能够区分所有属性的最少虚拟变量。
虚拟变量取“1”或“0”的原则，应从分析问题的目的出发予以界定。从理论上讲，虚拟变量取“0”值通常代表比较的基础类型；而虚拟变量取“1”值通常代表被比较的类型。
如果定性因素具有 mmm 个相互排斥属性，当模型中含有截距项时，则只能引入 m−1m-1m−1 个虚拟变量；当模型中没有截距项时，则可以引入 mmm 个虚拟变量，否则就会陷入“虚拟变量陷阱”。
“虚拟变量陷阱”的实质：完全共线性。

虚拟变量的回归分析

在计量经济学中，通常引入虚拟变量的方式分为加法方式和乘法方式两种。

加法方式：

Yi=α0+β1Xi+ui+α1Di.Y_i=\alpha_0+\beta_1X_i+u_i+\alpha_1 D_i \ . Yi=α0+β1Xi+ui+α1Di .

乘法方式：

Yi=α0+β1Xi+ui+β2XiDi.Y_i=\alpha_0+\beta_1X_i+u_i+\beta_2X_iD_i \ . Yi=α0+β1Xi+ui+β2XiDi .

实质上，加法方式引入虚拟变量改变的是截距，乘法方式引入虚拟变量改变的是斜率。

含有虚拟变量的模型的分析手段：条件期望。

以加法方式引入虚拟变量时，主要考虑的问题是定性因素的属性和引入虚拟变量的个数。主要有四种情况：

解释变量只有一个定性变量而无定量变量，而且定性变量为两种相互排斥的属性；
解释变量分别为一个两种属性的定性变量和一个定量变量；
解释变量分别为一个定性变量（两种以上属性）和一个定量解释变量；
解释变量分别为两个定性变量（各自分别是两种属性）和一个定量解释变量。

以乘法方式引入虚拟变量时，是在所设立的模型中，将虚拟变量与其它解释变量的乘积，作为新的解释变量出现在模型中，以达到其调整设定模型斜率系数的目的。

截距不变的情形：Yi=f(Xi,DiXi)+uiY_i=f(X_i,\,D_iX_i)+u_iYi=f(Xi,DiXi)+ui ；
截距和斜率均发生变化的情形：Yi=f(Xi,Di,DiXi)+uiY_i=f(X_i,\,D_i,\,D_iX_i)+u_iYi=f(Xi,Di,DiXi)+ui 。

虚拟变量的综合应用

所谓虚拟变量的综合应用是指将引入虚拟解释变量的加法方式、乘法方式进行综合使用。基本分析方式仍然是条件期望分析。

结构变化分析

结构变化的实质是检验所设定的模型在样本期内是否为同一模型。显然，平行回归、共点回归、不同的回归三个模型均不是同一模型。

平行回归模型的假定是斜率保持不变（加法类型，包括方差分析）；
共点回归模型的假定是截距保持不变（乘法类型，又被称为协方差分析）；
不同的回归的模型的假定是截距、斜率均为变动的（加法、乘法类型的组合）。

例：比较改革开放前后我国居民平均“储蓄—收入”总量关系是否发生变化？

模型设定为：
Yt=α1+α2Dt+β1Xt+β2(DtXt)+utY_t=\alpha_1+\alpha_2D_t+\beta_1X_t+\beta_2(D_tX_t)+u_t Yt=α1+α2Dt+β1Xt+β2(DtXt)+ut
其中：YtY_tYt 为储蓄总额，XtX_tXt 为收入总额。
D={1,改革开放前0,改革开放后.D=\left\{\begin{array}{cl} 1 \ \ , & \text{改革开放前} \\ 0 \ \ , & \text{改革开放后} \end{array}\right. \ . D={1 ,0 ,改革开放前改革开放后 .
条件期望分析：

改革开放后：E(Yt∣Xt,Dt=1)=α1+α2+(β1+β2)Xt{\rm E}(Y_t|X_t,\,D_t=1)=\alpha_1+\alpha_2+(\beta_1+\beta_2)X_tE(Yt∣Xt,Dt=1)=α1+α2+(β1+β2)Xt ；

改革开放前：E(Yt∣Xt,Dt=0)=α1+β1Xt{\rm E}(Y_t|X_t,\,D_t=0)=\alpha_1+\beta_1X_tE(Yt∣Xt,Dt=0)=α1+β1Xt 。

只要 α2\alpha_2α2 和 β2\beta_2β2 不同时为零，上述模型就能刻画改革开放前后我国居民平均“储蓄—收入”模型结构是否发生变化。

交互效应分析

交互作用：一个解释变量的边际效应有时可能要依赖于另一个解释变量。

例：研究人群的个人收入 YYY 与其教育水平 EEE 和所在地区 DDD 的关系。

模型设定为：
Y=α0+α1D1+α2D2+α3E+α4D1E+α5D2E+u,Y=\alpha_0+\alpha_1D_1+\alpha_2D_2+\alpha_3E+\alpha_4D_1E+\alpha_5D_2E+u \ , Y=α0+α1D1+α2D2+α3E+α4D1E+α5D2E+u ,
其中
KaTeX parse error: Undefined control sequence: \ at position 104: …ght. \ , \ \ \ \̲ ̲D_2=\left\{\beg…
各类人员的收入表如下：

西部 (0,0)(0,\,0)(0,0) 中部 (1,0)(1,\,0)(1,0) 东部 (0,1)(0,\,1)(0,1)

中等 E=0E=0E=0 α0\alpha_0α0 α0+α1\alpha_0+\alpha_1α0+α1 α0+α2\alpha_0+\alpha_2α0+α2

高等 E=1E=1E=1 α0+α3\alpha_0+\alpha_3α0+α3 α0+α1+α3+α4\alpha_0+\alpha_1+\alpha_3+\alpha_4α0+α1+α3+α4 α0+α2+α3+α5\alpha_0+\alpha_2+\alpha_3+\alpha_5α0+α2+α3+α5

差异性描述：

中部与西部差东部与西部差东部与中部差

中等 E=0E=0E=0 α1\alpha_1α1 α2\alpha_2α2 α2−α1\alpha_2-\alpha_1α2−α1

高等 E=1E=1E=1 α1+α4\alpha_1+\alpha_4α1+α4 α2+α5\alpha_2+\alpha_5α2+α5 α2−α1+α5−α4\alpha_2-\alpha_1+\alpha_5-\alpha_4α2−α1+α5−α4

各类人员的收入表如下：

西部 (0,0)(0,\,0)(0,0) 中部 (1,0)(1,\,0)(1,0) 东部 (0,1)(0,\,1)(0,1)

高等与中等差 α3\alpha_3α3 α3+α4\alpha_3+\alpha_4α3+α4 α3+α5\alpha_3+\alpha_5α3+α5

	西部 (0,0)(0,\,0)(0,0)	中部 (1,0)(1,\,0)(1,0)	东部 (0,1)(0,\,1)(0,1)
中等 E=0E=0E=0	α0\alpha_0α0	α0+α1\alpha_0+\alpha_1α0+α1	α0+α2\alpha_0+\alpha_2α0+α2
高等 E=1E=1E=1	α0+α3\alpha_0+\alpha_3α0+α3	α0+α1+α3+α4\alpha_0+\alpha_1+\alpha_3+\alpha_4α0+α1+α3+α4	α0+α2+α3+α5\alpha_0+\alpha_2+\alpha_3+\alpha_5α0+α2+α3+α5

	中部与西部差	东部与西部差	东部与中部差
中等 E=0E=0E=0	α1\alpha_1α1	α2\alpha_2α2	α2−α1\alpha_2-\alpha_1α2−α1
高等 E=1E=1E=1	α1+α4\alpha_1+\alpha_4α1+α4	α2+α5\alpha_2+\alpha_5α2+α5	α2−α1+α5−α4\alpha_2-\alpha_1+\alpha_5-\alpha_4α2−α1+α5−α4

	西部 (0,0)(0,\,0)(0,0)	中部 (1,0)(1,\,0)(1,0)	东部 (0,1)(0,\,1)(0,1)
高等与中等差	α3\alpha_3α3	α3+α4\alpha_3+\alpha_4α3+α4	α3+α5\alpha_3+\alpha_5α3+α5

双重差分模型

双重差分法，Differences-in-Differences，基本思想就是通过对政策实施前后对照组和实验组之间差异的比较构造出反映政策效果的双重差分统计量。首先强调一点，一般而言 DID 仅适用于面板数据模型，但并没有严格意义上面板数据模型所需要的过多的假设，通过引入虚拟变量并通过最小二乘法即可实现参数估计。因此我们在讨论面板数据之前，先讨论双重差分模型的应用。

前提假设：

平行趋势假设：如果实验组的事件没有发生，对照组和实验组的变化趋势相同。
检验方法：比较实验组和对照组样本的 YYY 随 ttt 的增长率在实验前有无显著差异。

模型设定：
Yit=α+α1dit+α2Tit+βditTit+εitY_{it}=\alpha+\alpha_1d_{it}+\alpha_2T_{it}+\beta d_{it}T_{it}+\varepsilon_{it} Yit=α+α1dit+α2Tit+βditTit+εit
其中，YitY_{it}Yit 为个体 iii 在 ttt 期的结果值，
dit={1,i为实验组0,i为对照组d_{it}=\left\{ \begin{array}{ll} 1 \ \ , & i\,\text{为实验组} \\ 0 \ \ , & i\,\text{为对照组} \\ \end{array} \right. dit={1 ,0 ,i为实验组i为对照组

Tit={1,表示实验后0,表示实验前T_{it}=\left\{ \begin{array}{ll} 1 \ \ , & \text{表示实验后} \\ 0 \ \ , & \text{表示实验前} \\ \end{array} \right. Tit={1 ,0 ,表示实验后表示实验前

对 DID 模型取数学期望：

对照组+实验前
E(Yit∣dit=0,Tit=0)=α{\rm E}(Y_{it}|d_{it}=0,\,T_{it}=0)=\alpha E(Yit∣dit=0,Tit=0)=α
对照组+实验后
E(Yit∣dit=0,Tit=1)=α+α2{\rm E}(Y_{it}|d_{it}=0,\,T_{it}=1)=\alpha+\alpha_2 E(Yit∣dit=0,Tit=1)=α+α2
实验组+实验前
E(Yit∣dit=1,Tit=0)=α+α1{\rm E}(Y_{it}|d_{it}=1,\,T_{it}=0)=\alpha+\alpha_1 E(Yit∣dit=1,Tit=0)=α+α1
对照组+实验前
E(Yit∣dit=1,Tit=1)=α+α1+α2+β{\rm E}(Y_{it}|d_{it}=1,\,T_{it}=1)=\alpha+\alpha_1+\alpha_2+\beta E(Yit∣dit=1,Tit=1)=α+α1+α2+β
为了方便对比参数设定的意义，我们用如下的表格：

	对照组	实验组
实验前	α\alphaα	α+α1\alpha+\alpha_1α+α1
实验后	α+α2\alpha+\alpha_2α+α2	α+α1+α2+β\alpha+\alpha_1+\alpha_2+\betaα+α1+α2+β
Difference	α2\alpha_2α2	α2+β\alpha_2+\betaα2+β

将双重差分的思想与上表的内容结合，我们可以得到政策的净效应：
DID=α2+β−α2=β{\rm DID}=\alpha_2+\beta-\alpha_2=\beta DID=α2+β−α2=β

关键：检验交叉项系数 β^\hat\betaβ^ 是否显著。

双重差分模型的优点

可以很大程度上避免内生性问题的困扰：政策相对于微观经济主体而言一般是外生的，因而不存在逆向因果问题。此外，使用固定效应估计一定程度上也缓解了遗漏变量偏误问题。
传统方法下评估政策效应，主要是通过设置一个政策发生与否的虚拟变量然后进行回归，相较而言，双重差分法的模型设置更加科学，能更加准确地估计出政策效应。
双重差分法的原理和模型设置很简单，容易理解和运用，并不像空间计量等方法一样让人望而生畏。
尽管双重差分法估计的本质就是面板数据固定效应估计，但是 DID 听上去或多或少也要比 OLS、FE 之流更加“时尚高端”，因而 DID 的使用一定程度上可以满足“虚荣心”。

【计量经济学导论】13. 虚拟变量与双重差分相关推荐

Pandas数据分析16——pandas生成虚拟变量，因子化，列表爆炸等操作
参考书目:<深入浅出Pandas:利用Python进行数据处理与分析> pandas对数据框的分类变量有很多独特的操作,可以方便我们生成虚拟变量,或者是将文本型分类数据转化为数值型分类数据 ...
虚拟变量的方法介绍及python实现方式
虚拟变量的定义作用计量经济学中对虚拟变量给出了定义.作用及使用场景,进一步的深入了解可以系统性学习. 定义:虚拟变量 ( Dummy Variables) ,用以反映无法定量度量的因素,譬如性别对收 ...
计量经济学第六版计算机答案,伍德里奇计量经济学导论计算机习题第六章第13题c_6.13...
伍德里奇计量经济学导论计算机习题第六章第13题,答案和MATLAB代码 clear,clc; % c6.13 by % 打开文字文件和数据文件 importdata('meap00_01.des'); ...
R语言计量经济学：虚拟变量(哑变量)在线性回归模型中的应用
最近我们被客户要求撰写关于线性回归的研究报告,包括一些图形和统计输出. 为什么需要虚拟变量? 大多数数据都可以用数字来衡量,如身高和体重.然而,诸如性别.季节.地点等变量则不能用数字来衡量.相反,我们 ...
《计量经济学》学习笔记之虚拟变量及滞后变量模型
导航上一章:放款基本假定的模型文章目录导航经典单方程计量经济学模型:专门问题 5.1虚拟变量模型一.虚拟变量的引入二.虚拟变量的设置原则 5.2滞后变量模型一.滞后变量模型二.分布滞 ...
计量经济学笔记4-Eviews操作-可线性化模型与虚拟变量
目录非线性方程单个时间序列虚拟变量多个虚拟变量非线性方程对于非线性方程,例如只需要在输入方程的时候体现就行可以在view中查看具体的方程表达式当不确定方程应该是什么形式时可以先拟合 ...
did双重差分法_Stata中双重差分操流程及代码
01 简介现代计量经济学和统计学的发展为我们的研究提供了可行的工具.倍差法来源于计量经济学的综列数据模型,是政策分析和工程评估中广为使用的一种计量经济方法.主要是应用于在混合截面数据集中,评价某一事 ...
python 双重差分模型_双重差分模型DID python操作
搬运网站:https://blog.csdn.net/Claire_chen_jia/article/details/106903842?utm_medium=distribute.pc_aggpag ...
双重差分模型能做固定效应吗_stata中双重差分操流程及代码
原标题:stata中双重差分操流程及代码一.简介现代计量经济学和统计学的发展为我们的研究提供了可行的工具.倍差法来源于计量经济学的综列数据模型,是政策分析和工程评估中广为使用的一种计量经济方法.主 ...

【计量经济学导论】13. 虚拟变量与双重差分