Stata连享会   计量专题 || 精品课程 || 简书推文 || 公众号合集

连享会计量方法专题……,https://gitee.com/arlionn/Course

问题背景

多数情况下,我们的被解释变量都是连续变量,但也有些情况下,我们会对分类变量感兴趣,比如,出门时选择何种交通工具?大学毕业时是否继续读研?等等。那么,此时,该用何种模型来分析比较合适呢?

分类变量可以被进一步分为多种类型,要根据情况来选择合适的模型。

0/1 变量

例如,是否结婚? 是否生二胎? 是否买越野车 ……,被解释变量都是非此即彼的二元选择问题。此时,最为常用的是 LogitProbit 模型,二者虽然形式上有差异,在系数解释、概率预测方面的差异却很小。

若使用 Stata 进行估计,语法也很简单。

sysuse auto, clear
logit foreign price weight mpg  // Logit 估计
probit foreign price weight mpg // Probit 估计

更为详细的介绍,请参阅:

  • Stata: Logit 模型简介
  • Stata: 为何使用 Logit 模型?Logit 模型评价
  • Stata: 何时使用线性概率模型而非 Logit?
  • 二元选择模型:Probit 还是 Logit?
  • 动态 Probit 模型及 Stata 实现
  • 正确打开/解读Logit模型系数的方式——离散选择模型之四 - 知乎

类别数目较小的分类变量

例如,被解释变量为「yyy = 出行交通工具选择」:1 步行;2 电动车;3 汽车;4 地铁。显然,各个类别虽然用数字加以区分,但数字之间并无大小区分,只起到了「标记」作用。

类似的例子还有很多,例如:

  • 「yyy = 上市公司的融资方式」:1 内部融资;2 债务融资;3 权益融资 (这是比较规范的例子)
  • 「yyy = 上市公司的融资方式」:1 内部融资;2 银行贷款;3 公司债券;4 定向增发;5 公开二次发行 (这是比较糟糕的例子)
  • 「yyy = 高管激励方式=」:1 货币薪酬;2 股票期权;3 绩效奖金

此时可以使用 多元 Logit/Probit 模型 (Multinomial Logit/Probit regression) 进行估计,对应的 Stata 命令是 mlogitmprobit。Stata 帮助文件和电子手册提供了详细的范例和说明。

本质上,可以把多元 Logit 视为多个二元 Logit,同时附加一些约束条件,例如,要求各种选择的概率之和为 1,且每一组二元 Logit 模型的干扰项之间彼此存在一定相关性。

如下是相关参考资料:

  • Stata 手册 - mlogit 多元 Logit 模型的理论介绍
  • UCLA Stata 范例 - mlogit 介绍的比较详细。

类别数目较多的情形

类别数较多时,比如,超过 10 组甚至 20 组,直接进行分析的难度较大。退一步来讲,此时组间的差异分析也不容易进行,经济含义比较难以说清楚。

一个比较稳妥的处理方式是,根据相关的理论和经验分析对现有的分类进行适当合并,使分析对象相对集中一些。

例如,可以把「A. 银行短期贷款;B. 银行长期贷款;C. 商业票据;D. 可赎回债券」等融资方式都归类为「1. 债务融资」,进而与「2. 内部融资」和「3.权益融资」放在一起进行对比分析。 从理论上讲,上述小类 (A, B, C, D) 虽然也有差别,当相对于大类 (1, 2, 3) 之间的差异而言,这些差别的重要性就会大大降低。从大类层面进行分析便于我们抓住问题的本质。

具有序别特征的分类变量

有时候,我们是无法明确区分「类别变量」和「序别变量」的。例如,「HY - 幸福感」 —— 取值为 1-5,5 代表“非常幸福”。

你可以把 HY 视为类别变量,使用 mlogit 模型来分析 HY=5HY=4 的人群有哪些差别。此时,数字 45 只是用来标记两类人群的,并不存在 4<54<54<5 的关系。

你也可以把 HY 视为序别变量,用 有序 (Ordered) Logit / Probit 分析幸福感的提升 (由 1 → 2 或 4 → 5) 受哪些因素的影响。此时,4<54<54<5。

相对而言,后者用的多一些,但也有文章同时从上述两个角度进行分析,因为二者并不存在孰优孰劣的问题。

上述两个模型的 Stata 命令为 mlogitologit。如下是两个不错的例子:

  • UCLA Stata Example - Multinomial Logit Regression
  • UCLA Stata Example - Ordered Logit Regression

除了上述提到的 Logit / Probit 族模型外,在某些情况下,也会考虑使用 计数模型 (Count Data model, help poisson, help nbreg) 来分析诸如 专利个数交通违章次数 等有「计数」特征的变量。

参考资料

  • Logistic regression and related models
  • 离散选择模型 - 知乎专栏
  • UCLA 在线教程

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 欢迎赐稿: 欢迎赐稿至StataChina@163.com。录用稿件达 三篇 以上,即可 免费 获得一期 Stata 现场培训资格。
  • 往期精彩推文:
    Stata绘图 | 时间序列+面板数据 | Stata资源 | 数据处理+程序 | 回归分析-交乘项-内生性

Stata: 因变量是类别变量时采用什么方法估计?相关推荐

  1. Stata:因变量是类别变量时采用什么方法估计?

    全文阅读:https://www.lianxh.cn/news/a64aef0ff9f46.html 目录 1. 问题背景 2. 0/1 变量 3. 类别数目较小的分类变量 4. 类别数目较多的情形 ...

  2. Pycharm下运行调试Python项目时,当调试既需要给调试的程序传入命令行参数又需要程序在设置的断点处停下里查看变量时的解决方法

      今天在调试了一个复杂的Python项目,其中这个项目的调试需要事先从命令行读取参数,并且在调试期间需要再事先设置的断点处停下来.检查相关的变量.   问题是,在Pycharm的Terminal 输 ...

  3. Stata:多个变量组间均值\中位数差异检验

    2019暑期Stata现场班,7.17-26日,北京,连玉君+刘瑞明 主讲     作者:韩少真(西北大学) || 刘婉青(西北大学) Stata 连享会: 知乎 | 简书 | 码云 | CSDN   ...

  4. 【数据竞赛】Kaggle实战之单类别变量特征工程总结!

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--类别变量完结篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...

  5. 树模型对类别变量的 7 种处理方法(Python代码)

    在数据挖掘项目的数据中,数据类型可以分为两种:有序的连续数值 和 无序的类别型特征. 对于xgboost.GBDT等boosting树模型,基学习通常是cart回归树,而cart树的输入通常只支持连续 ...

  6. r library car_第三十九讲 R语言-线性回归:自变量中存在分类变量时

    当我们提到"线性"回归时,特指的是因变量(结果变量)为连续性变量,与自变量(预测变量)有线性关系,而对自变量(预测变量)并没有要求一定要是连续性变量.前面我们已经提到,当自变量是连 ...

  7. 【Java面试题】3 Java中使用final关键字修饰一个变量时,是引用不能变,还是引用的对象不能变?超详细解析...

    /*  * 问题:使用final关键字修饰一个变量时,是引用不能变,还是引用的对象不能变  * 答:  * 使用final关键字修饰一个变量时,是指引用变量不能变,引用变量所指向的对象中的内容还是可以 ...

  8. 【机器学习基础】机器学习中类别变量的编码方法总结

    机器学习 Author:louwill Machine Learning Lab 在做结构化数据训练时,类别特征是一个非常常见的变量类型.机器学习中有多种类别变量编码方式,各种编码方法都有各自的适用场 ...

  9. toarray方法_机器学习中类别变量的编码方法总结

    作者:louwill:转载自:机器学习实验室 在做结构化数据训练时,类别特征是一个非常常见的变量类型.机器学习中有多种类别变量编码方式,各种编码方法都有各自的适用场景和特点.本文就对机器学习中常见的类 ...

最新文章

  1. [译] 写给前端开发者的 GraphQL 指南
  2. javascript 构造函数类和原型 prototyp e定义的属性和方法的区别
  3. OAuth2.0相关知识
  4. [转帖]Report painter
  5. Android之webview长按超链接类型获取链接文字及url、长按图片链接类型分别获取图片和链接的url
  6. 解决ufw下pptp客户端连接问题
  7. 苹果多款产品加征关税至15% 目前售价暂无影响
  8. sql机器学习服务_机器学习服务–在SQL Server中配置R服务
  9. entry在java的用处_JAVA问题:Map.Entry的一般用处是什么?
  10. GAN网络-简单明了
  11. c语言pow函数原型_C语言pow函数
  12. 六一儿童节就要过去了,您是否因为工作忙绿而没办法陪孩子玩
  13. 前端开发工程师需要的技能
  14. 努比亚修复工具_努比亚Play刷机包(官方刷机完整固件升级包V2)
  15. SAP资产负债表实现方案探索 - 基于 Excel-DNA 自定义函数方法
  16. C# AD FS实现网站单点登录 Active Directory Federation Services-活动目录联合身份认证 AD域单点登录 ADFS单点登录
  17. OS知识点汇总(考研用)——第二章:进程管理(下)
  18. 加密算法学习(一、中、1)——传统加密算法(playfair密码)
  19. matlab构造差商表,牛顿法 代数插值 – 差商表的求法
  20. AAA云免费云主机推荐码

热门文章

  1. UE5_创建C++项目报错
  2. Bladex集成quartz
  3. 绝地求生哪个服务器有信号枪,绝地求生活动模式公告 绝地求生信号枪终于登陆正式比赛...
  4. 从 “求最大公约数” 窥视数学,编程和算法
  5. Docker下Nacos配置应用开发
  6. Java毕设项目在线交友系统2021计算机(附源码+系统+数据库+LW)
  7. 用户身份管理(CIAM)如何帮助业务持续增长?|身份云研究院
  8. Java 培训班出来之后的面试经历,很难!!
  9. 淘宝叠猫猫瓜分3亿红包赚猫币自动生成脚本(无需安装其他软件),附每天最大限度的领取最多数量的喵币方法
  10. android 图像处理sdk,用于AndroidSDK的快速位图模糊