Stata: Tobit 模型
作者:李琼琼 (山东大学)
Stata 连享会: 知乎 | 简书 | 码云 | CSDN | StataChina公众号
Stata连享会 计量专题 || 精品课程 || 简书推文 || 公众号合集
连享会计量方法专题……,https://gitee.com/arlionn/Course
1. Tobit 模型的介绍
1.1 受限数据:截断和截堵
在做回归时,连续型的被解释变量有的时候因为截断 (Truncated) 或者截堵 (Censored) 而只能选取一定范围的值, 会导致估计量不一致。Davidson 等 (2004) 定义如果一些观测值被系统地从样本中剔除,称为 截断; 而没有观测值被剔除,但是有部分观测值被限制在某个点上则被称为 截堵。
举个例子,在研究影响家庭负债额的决定因素时,有较多的被解释变量 (负债额) 为 0,有些家庭是因为没有欠债也没有借钱给其他家庭回答负债为 0,也有家庭只借钱给其他家庭 (借钱给其他人负债额为负值),但是后者没有在数据上反映出来。 当研究人员只选择负债大于 0 的样本,此时负债额是 截断变量; 若研究人员保留了负债大于等于 0 的样本,此时的负债额为 截堵变量。 我们将上述情形统称为 受限因变量 (limited dependent variable),对应地就衍生出 「截断回归模型」 (truncated regression models) 和 「截堵回归模型」(censored regression models)。文献中,后者的别名还包括:「归并回归模型」和「审查回归模型」。
上述关于负债的例子属于 左侧受限,也可以将其推广到 右侧受限 (比如样本的负债额不能超过 100 万元) 或 双侧受限 (限定负债额在 0 到 100 万元之间) 的情形。
1.2 Tobit 模型设定
对于截堵数据,当左侧受限点为 0 ,无右侧受限点时,此模型就是所谓的「规范审查回归模型」,又称为 Tobit 模型 (Tobin,1958)。模型设定如下:
yi∗=xi′β+uiui∼N(0,σ2)\begin{aligned} y_{i}^{*} &=\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}+u_i \\ u_{i} & \sim N\left(0, \sigma^{2}\right) \end{aligned} yi∗ui=xi′β+ui∼N(0,σ2)
yi={yi∗if yi∗>00if yi∗⩽0y_{i}=\left\{\begin{array}{cl}{y_{i}^{*}} & {\text { if } y_{i}^{*}>0} \\ {0} & {\text { if } y_{i}^{ *}\leqslant0}\end{array}\right.yi={yi∗0 if yi∗>0 if yi∗⩽0
当潜变量 y∗y^{*}y∗ 小于等于 0 时,被解释变量 yyy 等于 0; 当 y∗y^{*}y∗ 大于 0 时,被解释变量 yyy 等于 y∗y^{*}y∗ 本身,同时假设扰动项 uiu_iui 服从均值为 0 ,方差为 σ2\sigma^{2}σ2 正态分布。
1.3 Tobit 模型的估计
由于使用 OLS 对整个样本进行线性回归,其非线性扰动项将被纳入扰动项中,导致估计不一致,Tobit 提出用 MLE 对模型进行估计。
我们先对该混合分布的概率密度函数进行推导, 再写出其对数似然函数。
当 yi=0y_i = 0yi=0 时,
P(yi=0∣xi)=P(yi∗<0∣xi)=P(ui<−xi′β∣xi)=P(ui/σ<−xi′β/σ∣xi)=Φ(−xi′β/σ)\begin{aligned} \mathrm{P}(y_i=0 | \mathbf{x_i}) &=\mathrm{P}\left(y_i^{*}<0 | \mathbf{x_i}\right)=\mathrm{P}(u_{i}<-\mathbf{x_i}^{\prime} \boldsymbol{\beta} | \mathbf{x_i}) \\ &=\mathrm{P}(u_{i}/ \sigma<-\mathbf{x_i}^{\prime} \boldsymbol{\beta} / \sigma | \mathbf{x_i})=\Phi(-\mathbf{x_i}^{\prime} \boldsymbol{\beta} / \sigma)\end{aligned} P(yi=0∣xi)=P(yi∗<0∣xi)=P(ui<−xi′β∣xi)=P(ui/σ<−xi′β/σ∣xi)=Φ(−xi′β/σ)
当 $y_i > 0 $时,
P(yi>0∣xi)=P(yi∗>0∣xi)=1−P(yi∗≤0∣xi)=1−P(ui≤−xi′β∣xi)=1−P(ui/σ≤−xi′β/σ∣xi)=1−Φ(−xi′β/σ)=Φ(xi′β/σ)\begin{aligned} \mathrm{P}(y_i>0 | \mathbf{x_i}) &=\mathrm{P}\left(y_i^{*}>0 | \mathbf{x_i}\right)= 1 - \mathrm{P}\left(y_i^{*}\leq0 | \mathbf{x_i}\right) \\ &=1-\mathrm{P}(u_{i}\leq-\mathbf{x_i}^{\prime} \boldsymbol{\beta} | \mathbf{x_i})=1 - \mathrm{P}(u_{i} / \sigma\leq-\mathbf{x_i}^{\prime} \boldsymbol{\beta} / \sigma | \mathbf{x_i})\\ &= 1-\Phi(-\mathbf{x_i}^{\prime} \boldsymbol{\beta} / \sigma)=\Phi(\mathbf{x_i}^{\prime} \boldsymbol{\beta} / \sigma) \end{aligned} P(yi>0∣xi)=P(yi∗>0∣xi)=1−P(yi∗≤0∣xi)=1−P(ui≤−xi′β∣xi)=1−P(ui/σ≤−xi′β/σ∣xi)=1−Φ(−xi′β/σ)=Φ(xi′β/σ)
概率密度函数为:
f(yi∣xi)=[Φ(−xi′βσ)]Iyi=0[1σϕ(yi−xi′βσ)]Iyi=0f\left(y_{i} | \mathbf{x}_{i}\right)=\left[\Phi\left(-\frac{\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right]^{I_{y_{i}=0}}\left[\frac{1}{\sigma} \phi\left(\frac{y_{i}-\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right]^{I_{y_{i}=0}} f(yi∣xi)=[Φ(−σxi′β)]Iyi=0[σ1ϕ(σyi−xi′β)]Iyi=0 其中 III 为示性函数,当下标所表示的条件正确时取值为 1,否则为 0。
整个样本的对数似然函数为 :
logL=∑i=1n{Iyi=0ln[Φ(−xi′βσ)]+Iyi>0ln[1σϕ(yi−xi′βσ)]}\log L=\sum_{i=1}^{n} \left\{ I_{y_{i}=0} \ln \left[\Phi\left(-\frac{\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right] +I_{y_{i}>0} \ln \left[\frac{1}{\sigma} \phi\left(\frac{y_{i}-\mathbf{x}_{i}^{\prime} \boldsymbol{\beta}}{\sigma}\right)\right] \right \} logL=i=1∑n{Iyi=0ln[Φ(−σxi′β)]+Iyi>0ln[σ1ϕ(σyi−xi′β)]}
通过使 logL\log LlogL 最大化来求出 β\betaβ 和 σ\sigmaσ。
1.4 Tobit 模型的假设检验
Tobit 模型的假设检验是通过似然比检验 (Likelihood Ratio Test, LR) 来实现的,该检验的原假设为:
H0:β=β0H_{0}: \boldsymbol{\beta}=\boldsymbol{\beta}_{0}H0:β=β0
LR 统计量为:
LR=−2(lnLr−lnLu)∼χ2(j)L R=-2\left(\ln L_{r}-\ln L_{u}\right) \sim \chi^{2}(j) LR=−2(lnLr−lnLu)∼χ2(j)
其中,lnLr\ln L_{r}lnLr 是有约束的 ML 估计得到的似然函数值,lnLu\ln L_{u}lnLu 为无约束 ML 得到的似然函数值,如果 H0H_{0}H0 正确,则 $\ln L_{r}-\ln L_{u}$ 不应该为很大。
1.5 边际效应及其推导过程
在 Probit 模型和 Logit 模型等非线性模型中,估计量 βMLE\boldsymbol{\beta}_{MLE}βMLE 并非边际效应 (marginal effects),需要进行一定的转换。Tobit 模型也是一个非线性模型,估计量 β\boldsymbol{\beta}β 无法直接作为被解释变量 yyy (相当于截堵型被解释变量 ) 的边际效应, 但可以作为潜变量 y∗y^{*}y∗的边际效应,因为 β\boldsymbol{\beta}β 与潜变量 y∗y^{*}y∗ 是线性关系。此外,β\boldsymbol{\beta}β 可以表示变量 y∣y>0y|y>0y∣y>0 (相当于截断型被解释变量) 的期望。 下面我们从期望和偏效应入手,推导 β\boldsymbol{\beta}β 与三种变量 y∗、y和y∣y>0y^*、 y 和 y|y>0y∗、y和y∣y>0 的边际效应的关系。
潜变量 y∗y^{*}y∗ 的期望和边际效应
潜变量 y∗y^{*}y∗ 关于 x\mathbf{x}x 期望:
E(y∗∣x)=xβ\mathrm{E}(y^{*} | \mathbf{x}) =\mathbf{x} \boldsymbol{\beta} E(y∗∣x)=xβ变量 xjx_jxj 对潜变量 y∗y^{*}y∗ 偏效应 (partial effects)
∂E(y∗∣x)/∂xj=βj\partial \mathrm{E}(y^{*} | \mathbf{x}) / \partial x_{j}=\beta_{j} ∂E(y∗∣x)/∂xj=βj
截断型被解释变量 y∣y>0y| y >0y∣y>0 的期望和边际效应被解释变量 yyy 关于 y>0,xy>0,\mathbf{x}y>0,x 的期望 (又称为 “条件期望” ):
E(y∣y>0,x)=xβ+E(u∣u>−xβ)=xβ+σE[(u/σ)∣(u/σ)>−xβ/σ]=xβ+σϕ(xβ/σ)/Φ(xβ/σ)=xβ+σλ(xβ/σ)\begin{aligned}\mathrm{E}(y | y>0, \mathbf{x}) &=\mathbf{x} \boldsymbol{\beta}+\mathrm{E}(u | u>-\mathbf{x} \boldsymbol{\beta}) \\ &=\mathbf{x} \boldsymbol{\beta}+\sigma \mathrm{E}[(u / \sigma) |(u / \sigma)>-\mathbf{x} \boldsymbol{\beta} / \sigma ]\\ &=\mathbf{x} \boldsymbol{\beta}+\sigma \phi(\mathbf{x} \boldsymbol{\beta} / \sigma) / \Phi(\mathbf{x} \boldsymbol{\beta} / \sigma) \\ &=\mathbf{x} \boldsymbol{\beta}+\sigma \lambda(\mathbf{x} \boldsymbol{\beta} / \sigma) \end{aligned} E(y∣y>0,x)=xβ+E(u∣u>−xβ)=xβ+σE[(u/σ)∣(u/σ)>−xβ/σ]=xβ+σϕ(xβ/σ)/Φ(xβ/σ)=xβ+σλ(xβ/σ)
其中 λ(c)=ϕ(c)/Φ(c)\lambda(c) =\phi(c) / \Phi(c)λ(c)=ϕ(c)/Φ(c) 被称为 逆米尔斯比率 (inverse Mills ratio), 是标准正态 pdf 和标准正态 cdf 在 ccc 处之比。变量 xjx_jxj 对变量 yyy 在 y>0,xy>0,\mathbf{x}y>0,x 条件下的偏效应 (partial effects):
∂E(y∣y>0,x)/∂xj=βj+σ⋅dλdcdcdxj=βj+βj⋅dλdc=βj{1−λ(xβ/σ)[xβ/σ+λ(xβ/σ)]}\begin{aligned}\partial \mathrm{E}(y | y>0, \mathbf{x}) / \partial x_{j} &=\beta_{j}+ \sigma \cdot \frac{d \lambda}{d c} \frac{d c}{d x_{j}} = \beta_{j}+ \beta_{j} \cdot \frac{d \lambda}{d c} \\ &= \beta_{j}\{1-\lambda(\mathbf{x} \boldsymbol{\beta} / \sigma)[\mathbf{x} \boldsymbol{\beta} / \sigma+\lambda(\mathbf{x} \boldsymbol{\beta} / \sigma)]\} \end{aligned}∂E(y∣y>0,x)/∂xj=βj+σ⋅dcdλdxjdc=βj+βj⋅dcdλ=βj{1−λ(xβ/σ)[xβ/σ+λ(xβ/σ)]}
上式说明 xjx_jxj 对变量 yyy 在 y>0,xy>0,\mathbf{x}y>0,x 条件下的偏效应不仅取决于 βj\beta_jβj,而且受到 {⋅}\{\cdot\}{⋅} 项的影响。
截堵型被解释变量 yyy 的期望和边际效应
被解释变量 yyy 关于 x\mathbf{x}x 的期望 (又称为 “无条件期望” ):
E(y∣x)=P(y>0∣x)⋅E(y∣y>0,x)=Φ(xβ/σ)⋅E(y∣y>0,x)\mathrm{E}(y | \mathbf{x})=\mathrm{P}(y>0 | \mathbf{x}) \cdot \mathrm{E}(y | y>0, \mathbf{x})=\Phi(\mathbf{x} \boldsymbol{\beta} / \sigma) \cdot \mathrm{E}(y | y>0, \mathbf{x}) E(y∣x)=P(y>0∣x)⋅E(y∣y>0,x)=Φ(xβ/σ)⋅E(y∣y>0,x)变量 xjx_jxj 对 yyy 在 x\mathbf{x}x 条件下的偏效应 (partial effects):
∂E(y∣x)∂xj=∂P(y>0∣x)∂xj⋅E(y∣y>0,x)+P(y>0∣x)⋅∂E(y∣y>0,x)∂xj\frac{\partial \mathrm{E}(y | \mathbf{x})}{\partial x_{j}}=\frac{\partial \mathrm{P}(y>0 | \mathbf{x})}{\partial x_{j}} \cdot \mathrm{E}(y | y>0, \mathbf{x})+\mathrm{P}(y>0 | \mathbf{x}) \cdot \frac{\partial \mathrm{E}(y | y>0, \mathbf{x})}{\partial x_{j}} ∂xj∂E(y∣x)=∂xj∂P(y>0∣x)⋅E(y∣y>0,x)+P(y>0∣x)⋅∂xj∂E(y∣y>0,x)
经过化简后可得:
∂E(y∣x)∂xj=βjΦ(xβ/σ)\frac{\partial \mathrm{E}(y | \mathbf{x})}{\partial x_{j}}=\beta_{j} \Phi(\mathbf{x} \boldsymbol{\beta} / \sigma) ∂xj∂E(y∣x)=βjΦ(xβ/σ)
对以上三种边际效应进行总结:
解释变量的偏效应 | 函数形式 |
---|---|
对潜变量 y∗y^{*}y∗ 的偏效应 | $\partial \mathrm{E}(y^{*} | \mathbf{x}) / \partial x_{j} = \beta_{j} $ |
对变量 yyy (左截断 0) 偏效应 | $\partial \mathrm{E}(y | y>0, \mathbf{x})/ \partial x_{j} = \beta_{j}{1-\lambda©[c+\lambda©]} $ |
对变量 yyy (左截断 0) 偏效应 | $\partial \mathrm{E}(y | \mathbf{x})/ \partial x_{j} = \beta_{j}\Phi© $ |
注:c=xβ/σc = \mathbf{x} \boldsymbol{\beta} / \sigmac=xβ/σ
连享会计量方法专题……
2. Stata 范例
2.1 模型估计的实现
Stata 提供 tobit
命令对归并回归模型进行估计。 在命令窗口中输入 help tobit
命令即可查看其完整帮助文件。tobit
命令的基本语法为:
tobit depvar [indepvars] [if] [in] [weight],11[(#)] ul[(#)] [options]
其中 ll[(#)]
表示左归并,# 是左侧受限点的具体值 ;ul[(#)]
表示右归并,# 是右侧受限点的具体值。在实际运用中,可以只选择左归并或者右归并,也可以同时选择。
下面以研究影响 非住院医疗费用 的因素为例,我们来对如何使用 Stata 做 Tobit 模型估计进行详细的介绍。
非住院医疗费用 (ambulatory expenditure,ambexp) 作为被解释变量,解释变量包括:年龄 (age), 是否为女性 (female), 教育年限 (educ) 以及 totchr, totchr 和 ins 等变量。
首先对被解释变量进行观察,
从上图可以发现,有超过 10% 的比例的被解释变量其数值为0, 这个时候我们考虑进行线性 Tobit 模型 (linear tobit model) 估计。具体的命令和估计结果如下
use mus16data.dta, clear
global xlist age female educ blhisp totchr ins // 定义将所有的解释变量定义为全局变量 $xlist
tobit ambexp $xlist, ll(0)
2.2 偏效应估计
在做完回归之后,使用 margins
命令分别进行三种偏边际效应的估计
- 对潜变量 y∗y^{*}y∗ 的偏效应
margins, dydx(*)
解释:以教育的为例,教育年限对在非住院医疗上的 预期花费 平均边际效应为 70.87。
- 对 $ y | y>0 $ 偏效应
margins, dydx(*) predict(e(0,.))
解释:相当于截断模型的平均边际效应,在非住院医疗费用的实际支出大于 0 的样本中,教育年限对于非住院医疗费用的实际支出的平均边际效应为 33.34。
- 对 $ y $ 的偏效应
margins, dydx(*) predict( e(0,.))
解释:教育年限对于非住院医疗费用的实际支出的平均边际效应为 45.44。
连享会计量方法专题……,https://gitee.com/arlionn/Course
3. 结论
在做实证研究时,虽然拥有全部的观测数据, 但是部分观测数据的被解释变量 yyy 都被压缩在 0 这一个点上。此时,无论是整个样本还是去掉 yyy 为 0 的样本,都无法通过 OLS 得到一致估计。因此需要使用 Tobit 模型来解决数据的截堵问题。此外,在对模型估计完以后,如果求核心变量对解释变量的偏效应,还需要经过一定的转化。
参考文献
- Davidson R, MacKinnon J G. Econometric theory and methods[M]. New York: Oxford University Press, 2004. [PDF]
- Wooldridge J M. Econometric analysis of cross section and panel data[M]. MIT press, 2010. [PDF]
- Wooldridge J M. Introductory econometrics: A modern approach[M]. Nelson Education, 2016. [PDF]
- Cameron A C, Trivedi P K. Microeconometrics Using Stata[J]. Stata Press books, 2010. [PDF]
关于我们
- Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
- 欢迎赐稿: 欢迎赐稿至StataChina@163.com。录用稿件达 三篇 以上,即可 免费 获得一期 Stata 现场培训资格。
- 往期精彩推文:
Stata绘图 | 时间序列+面板数据 | Stata资源 | 数据处理+程序 | 回归分析-交乘项-内生性
Stata: Tobit 模型相关推荐
- python如何做混合模型面板回归_面板Tobit模型探究(二):模型讲解以及stata实现...
第一部分 模型发展历史 Tobit模型从最初的结构式模型扩展到时间序列模型.面板数据模型以及非参数模型等形式,无论Tobit模型的结构形式如何变化,现有的估计方法基本上都是在Heckman(197 ...
- R语言Tobit模型的分组回归
R语言Tobit模型的分组回归 用R语言进行了2步的subset取子集 原始数据:cfps2014(样本量:37147) -- 去除缺省值后新数据为cfps14_all(样本量为:10353) cfp ...
- STATA 常用模型与命令
STATA 常用命令 数据相关 生成新数据 删除和修改数据 改变数据类型 条件命令 取对数命令 输出相关 常用回归 非线性选择回归 logit回归 probit回归 线性回归 OLS Heckman ...
- Stata:模型结果如何导入到Word和Excel。
在模型结果之后输入如下命令: outreg2 using mydoc.doc,replace 则可以导出上一步的模型结果word形式. 如果想输入Excel则输入如下命令: outreg2 using ...
- Stata连享会推文列表
Stata 连享会 主页 || 视频 || 推文 温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验. ✌ 课程详情: https://gitee.com/arlionn/Course ...
- 空间计量模型_截面数据空间计量模型空间误差模型及Stata操作和应用
来源:计量经济学服务中心编辑整理,转载请联系1 前言 空间分析起源于地理学.空间经济学和相关学科.到目前为止,它被认为是专业的领域,因此不是大多数统计软件的标准部分.就stata而言,有许多用户编写的 ...
- stata最大值最小值命令_Stata: 双栏模型简介 (Doublehurdle model)
编译:李琼琼 (山东大学) Stata 连享会: 知乎 | 简书 | 码云 | CSDN 点击查看完整推文列表 2020寒假Stata现场班 北京, 1月8-17日,连玉君-江艇主讲 2020寒假S ...
- stata行业变量怎么赋值_Tobit 模型及其Stata实现
作者:李琼琼 (山东大学) Stata 连享会: 知乎 | 简书 | 码云 | CSDN | StataChina公众号 连享会-知乎推文列表 Note: 助教招聘信息请进入「课程主页」查看. 因果推 ...
- Stata: 双栏模型简介 (Double-hurdle model)
编译:李琼琼 (山东大学) Stata 连享会: 知乎 | 简书 | 码云 | CSDN Stata连享会 计量专题 || 简书推文 文章目录 背景介绍 1. 双栏模型 (Double-hur ...
最新文章
- python pandas读取excel-Python使用Pandas读写Excel实例解析
- 【PC工具】网站服务器端口检测工具,网络端口扫描工具,win10telnet安装方法
- springboot多数据源动态数据源(主从)
- nginx的函数调用
- 20190626_二次开发BarTender打印机_C#代码_一边读取TID_一边打印_打印机POSTEK
- C语言做一个表格的程序,用C语言画个简单表格
- 实现机器学习的循序渐进指南I——KNN
- JS基础--Date.parse(),Date.UTC()和Date.now()
- JeDate日期控件,未选择日,出现undefined错误
- 定积分证明题例题_一个广义积分不等式证明(送给数学分析同学)
- 蜂鸣器干扰通讯_蜂鸣器工作原理是什么,为什么需要接振荡的信号才能工作?...
- C++ std::numeric_limits<T>::max(),min()及lowest()
- 软件测试2小时入门-曹红杏-专题视频课程
- torch里面的Tensor、as_tensor、tensor以及from_numpy究竟有何区别?
- 第二次作业:支付宝案例分析
- linux挂载1t硬盘,linux如何挂载硬盘linux服务器上挂载磁盘(图文)
- RJ45水晶头组成及每根的作用(细解)
- 慕了!17年阿里Java开发大佬把Spring Boot的精髓都总结出来了
- 阵列天线的赋形波束综合(一)
- python123练习题文库_python模拟登录百度文库后如何点击马上签到
热门文章
- journalctl -xe命令什么意思
- matlab和超几何检验,用超几何分布检验做富集分析
- C/C++仓库管理系统
- docker导出mysql_Docker 导出 mysql 数据
- ESXI 安装 DSM 6.2.2 教程
- STVD #error clnk Debugadc.lkf1 symbol _assert_failed
- springboot整合xwpf将world转为pdf
- 基站侧与核心网侧进行交互涉及PLMN和PLMN ID换算及其代码实现
- 什么是路由模式通配符?
- 关于“sin(10°)是无理数”的一个证明