一、研究背景

在某些情况下,被解释变量Y的取值范围会受到限制,比如研究家庭医疗保险支出的影响因素时,某此家庭没有医疗支出即数字全部为0,也或者研究家庭收入水平时,某些样本家庭完全没有收入那么收入就全部为0,也或者数据调查中有一项为收入为10万以上,那么10万以上的具体数据就‘截尾’(没有10万以上,最多就到10万),又比如研究存款的影响因素,但是有的样本存储为负数(即其为负债非存储),诸如此类,按常理应该是正常的正态数据,但是其被解释变量出现‘断层’(删失),均可使用Heckman两阶段模型进行研究(而不是常用的ols线性回归)。以下举个例子来讲Heckman两阶段模型该如何分析。

二、案例背景

当前有一项关于薪资影响因素的研究,被解释变量薪资,解释变量为GRE成绩,但是会出现一个问题即薪资中有很多缺失数据(即样本偏差内生性问题),一种处理方式是直接过滤掉缺失数据进行分析,但这种分析方式仅仅是避开样本选择偏差内生性问题,如果要直面此种样本选择偏差内生性问题,则可考虑使用Heckman两阶段模型。除此之外,GPA成绩可能会影响到‘是否有薪资’数据,其可作为‘是否有薪资数据’的解释变量。为更加方便的查看被解释变量薪资的数据分布情况,将薪资作直方图如下:

从上图可以明显的看到,数字出现删失,即有一部分数据集中在数字0(数字0代表没有薪资数据,当然也可以使用null值表示,只是heckman两阶段模型时需要使用数字0表示没有该数据)。当然在分析的时候可考虑筛选出数字大于0的数据再进行ols线性回归也可(但这样做仅仅是避开样本选择偏差可能的内生性问题),如果说筛选出薪资大于0后再做直方图如下:

明显的可以看到,筛选出薪资大于0的数据,其明显的服从正态分布,使用ols线性回归非常适合。但本案例使用heckman两阶段模型目的在于解决样本选择偏差导致样本的内生性问题。

三、SPSSAU操作

补充说明:

第1阶段的Y1即01二元数据,其为第2阶段的Y2进行数据编码得到,可使用数据处理->数据编码功能处理,数字0代表删失(即没有薪资数据),数字1代表未删失(即有薪资数据);

本案例时第1阶段和第2阶段的X中,都有‘gre成绩’,二者完全一样,如果上传数据仅1项,此时可通过数据处理->生成变量功能里面的平均值功能(自己平均就是自己),复制一个完全相同的数据;

本案例时第1阶段中有2个X,分别是‘gre成绩’和‘gpa’成绩,该两项可能影响到‘是否有薪资’数据,所以纳入该两项,具体应以实际研究为准即可;

通常情况下并不需要保存预测值和残差,也或者IMR值。

四、分析理论

Heckman两阶段模型时,被解释变量(因变量)Y有着缺失数据,通常首先需要将被解释变量设置为0和1,0代表删失(即没有该项数据),1代表未删失(即有该项数据),得到新的变量,比如本案例为‘薪资(0代表无1代表有)’,其共分为两个阶段,说明如下:

第1阶段:二元probit回归模型;即将薪资(且为01项二元数据)作为被解释变量,并且纳入解释变量(一般情况下,解释变量为核心研究解释变量与工具变量),进行二元probit模型后,得到IMR值(Inverse Mill's Ratio)。

第2阶段:ols回归模型,将‘薪资’作为被解释变量,并且模型会自动纳入第1阶段得到的IMR值,以及研究的核心解释变量进行分析,并且在第2阶段分析时,会自动过滤出‘未删失’即薪资没有缺失的数据,并且得到结果。

针对分析上:如果IMR值呈现出显著性(p<0.05),即意味着存在样本偏差内生性问题,也即说明有必要使用Heckman两阶段模型进行分析,反之如果IMR值没有呈现出显著性(p>0.05),即意味着样本偏差内生性问题不严重(或不存在),此时可考虑使用 Heckman两阶段模型(或者ols回归均可)。

另heckman两阶段模型分析上依旧是针对解释变量的显著性进行分析即可,并无其它特别点,其核心应用为处理样本选择偏差带来的内生性问题。

五、SPSSAU分析

  1. Heckman两阶段模型模型汇总

上表格展示Heckman两阶段模型基本情况,包括第1阶段和第2阶段时,分别对应的被解释变量和解释变量情况。

2.研究数据基本汇总

正在上传…重新上传取消

上表格展示Heckman两阶段模型研究数据基本情况,针对第1阶段的被解释变量薪资中有6548个删失数据(即数字为0的个数),3452个未删失(即数字为1的个数)。以及数据中没有其它缺失数据。

3.第1阶段(二元Probit回归)分析结果汇总

上表格展示第1阶段二元probit回归的结果,包括模型的R方值,似然比检验,各解释变量的显著性情况等,事实上第1阶段二元probit回归结果的意义较小(多数时候并不关注R方,似然比检验,显著性等指标),因为第1阶段二元probit回归目的在于计算得到IMR值,纳入第2阶段OLS回归中。上表格中gre成绩和gpa成绩均呈现出0.01水平显著性,意味着该两项确实会影响到‘是否有薪资数据缺失’。

4.第2阶段(OLS回归)分析结果

上表格展示出Heckman第2阶段ols回归结果,表格中默认包括IMR值,其为第1阶段回归得到的中间过程值。如果IMR值呈现出显著性(p<0.05),即意味着存在样本偏差内生性问题,也即说明有必要使用Heckman两阶段模型进行分析;如果IMR值没有呈现出显著性(p>0.05),即意味着样本偏差内生性问题不严重(或不存在),此时可考虑使用 Heckman两阶段模型(或者ols回归均可)。

从上表可知,IMR值并呈现出显著性(p=0.001),也即意味着存在样本偏差内生性问题,也即说明有必要使用Heckman两阶段模型进行分析,接下来具体分析:gre成绩的回归系数值为0.022,p值为0.000,小于0.01,意味着gre成绩会对薪资(万)产生显著的正向影响关系。

总结分析可知:gre成绩会对薪资产生显著的正向影响关系,也即说明gre成绩越高时,薪资也会越高。

5.第1阶段(二元Probit回归)分析结果汇总-简化格式

分析结果来源于SPSSAU

上表格展示出Heckman第1阶段二元probit回归的简化结果表格,该表格列出模型的关键信息点,可直接使用。6.第2阶段(OLS回归)分析结果-简化格式

分析结果来源于SPSSAU

上表格展示出Heckman第2阶段ols回归的简化结果表格,该表格列出模型的关键信息点,可直接使用。

六、其它问题

(1)heckman两阶段模型的原理?

Heckman两阶段数学模型分为两阶段,第1阶段为二元probit模型,并且得到IMR值,第2阶段为ols回归,且模型中默认包括第1阶段中的IMR值,以及第2阶段的解释变量。第1阶段时的被解释变量(因变量)Y只能包括数字0或1,第2阶段ols回归时其样本量为过滤掉第1阶段Y为1(即未删失)的样本量。

(2)heckman两阶段模型时第1阶段和第2阶段的被解释变量(因变量)Y是否一致?

通常情况下,第1阶段和第2阶段的被解释变量(因变量)Y意义均一致,但数字不一致,第1阶段的Y时数字只能为0或1,意义为0代表样本缺失1代表样本存在,第2阶段的Y时数字代表其真实意义。简而言之,第1阶段的Y通常情况下是由第2阶段的Y进行处理后得到。

(3)IMR值的意义?

IMR是一个用于修正样本选择偏差的值,其是在heckman两阶段模型的第一阶段计算得到。

(4)IMR值是否显著的意义?

如果IMR值显著,此时说明样本偏差问题存在,也即说明使用heckman两阶段模型进行样本选择偏差纠正是适合的并且且有必要。反之如果IMR值不显著,此时可能意味着模型不存在严重的样本选择偏差,那么也即说明第二阶段模型的结果应该与普通ols回归的结论基本一致,研究者可使用spssau计量模块里面的ols回归进行分析对比使用,也即说明IMR值不显著时,一般使用ols回归或者heckman两阶段模型均可。


更多干货请前往SPSSAU官网查看。

一文教你Heckman两阶段模型怎么分析相关推荐

  1. Heckman两阶段模型学习笔记

    有近两周的时间都在学习Heckman两阶段模型.网上看了一些资料,在CSDN里找到了几篇珍贵的学习笔记,有一篇相当于带我入了门学习笔记 | Heckman两阶段法介绍_Claire_chen_jia的 ...

  2. 计量经济学(十二)Heckman 两阶段法

    Heckman两阶段模型解决的是样本选择偏差(sample selection bias)的问题.我们主要从两个方面进行讲述Heckman两阶段法,最后简要介绍一下Heckman老爷子. 1. 何为样 ...

  3. 学习笔记 | Heckman两阶段法介绍

    最近看的两篇VC文献,都是有使用到Heckman两阶段法,所以就借此机会系统学习了Heckman两阶段法 本篇内容主要学习了如下文章: 1 CJAR的带你了解Heckman两步法 2 计量经济圈的He ...

  4. heckman两阶段的stata命令

    1. Heckman两阶段法作用 在学术问题研究中,我们在考察因果关系时,经常会遇到因果关系考察中的内生性问题.一般而言,内生性问题主要来源于以下几个方面:(1)反向因果关系,即自变量影响因变量,因变 ...

  5. 95-241-102-源码-Flink语义-Flink的exectly-once系列之两阶段提交实现分析

    文章目录 2.概述 3.**TwoPhaseCommitSinkFunction** 4.**FlinkKafkaProducer011** 4.1 beginTransaction 4.2 预提交, ...

  6. Heckman两步法 | 样本选择模型 处理效应模型

    这期推送简单介绍一下样本选择模型和处理效应模型,其中样本选择模型是一般意义上的Heckman两步法,后者则借鉴了Heckman两步法的构建思想,但又不完全等同于前者.模型介绍之后,将利用help文件中 ...

  7. 精准高效估计多人3D姿态,美图北航分布感知式单阶段模型(CVPR 2022)

    关注公众号,发现CV技术之美 本文转自机器之心 近日,计算机视觉顶会 CVPR 2022 公布了会议录取结果,美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)联合发表的论文被接 ...

  8. CVPR 2022|精准高效估计多人3D姿态,美图北航联合提出分布感知式单阶段模型...

    来源丨AI科技评论 编辑丨极市平台 近日,计算机视觉顶会CVPR 2022公布了会议录取结果,美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)联合发表的论文被接收. 该论文突破 ...

  9. 鲁棒优化(4):通过yalmip中的kkt命令实现CCG两阶段鲁棒优化

    两阶段鲁棒优化的原理推导部分,已经较多的文章进行分析.目前大部分同学面临的问题是,子问题模型中存在的双线性项该如何处理? 目前,主流方式是,采用对偶定理或KKT条件,将第二阶段的双层问题变成单层问题. ...

最新文章

  1. 开源网络备份软件bacula学习笔记
  2. 用findstr查找特定文件里面的字符串
  3. 数据结构 链表(一)
  4. nginx对https的配置,nginx解决post请求被请求两次的问题
  5. 240多个jQuery插件 (转)
  6. 《人民邮电出版社9本计算机教材的教学课件(计算机老师的宝贝)》
  7. linq查询不包含某个值的记录_mysql基本知识点梳理和查询优化
  8. 46多项式01——一元多项式和运算
  9. pandas读取excel带汉字的列头_Pandas读取excel与中文文件名
  10. 与spring的整合
  11. 最新酷盒工具箱iApp源码9.5版+功能很多
  12. OCP 创建可插拔数据库PDB
  13. 电子邮箱地址怎么填?如何登陆电子邮箱地址?
  14. Javascript特效:五彩小球
  15. 政治正确的睡前故事(4则)【搬运】【破事水】
  16. DB2 sequence 获取下一个值
  17. 周报8.22-8.28
  18. docker ss-pannel_如何构建Docker镜像
  19. Timer.cancel()
  20. Xceed Words for .NET转换和页眉/页脚功能

热门文章

  1. UVA-10480 Sabotage
  2. 程序猿和设计师面试时的巅峰对决
  3. 机器学习之Scipy库
  4. webpack-dev-server配置host为WLAN地址(用于移动端调试)
  5. mac在前端配置的坑
  6. 前端学习——01——js的赋值和运算符
  7. 计算机系统结构研究生专业课,计算机系统结构考研科目
  8. 车载以太网 - SomeIP - SomeIP Header - 03
  9. 数据治理系列:数据仓库物理分层_数据仓库逻辑分层
  10. github搜索技巧——搜索仓库