一、计量经济学与机器学习的联系和区别:

共通之处在于二者所使用的“原材料”和任务的形式的高度相似性。简单来说,两类方法的最终输入都是结构化数据。你有一个因变量,有一堆自变量,有好多的个案。最后的目的都是对自变量进行一通操作来去“近似”这个因变量。

区别在于使用两类方法的根本目的是不一样的。使用计量经济学方法目的是进行结构分析,也就是说我们最后是想知道哪些自变量会对因变量产生影响,影响有多大;只关注变量的系数和显著性。与之不同,使用机器学习方法的目的就是用一大堆自变量去预测因变量。更关注预测的准确度。

计量经济学模型是可解释的,机器学习算法是不可解释的。计量经济学模型清清楚楚明明白白,在大多数情况下我们从数学关系上就能够明白某个自变量对因变量的影响到底是怎样的、影响有多大;机器学习算法为了提升预测性能而主动放弃了被解释的能力,比如说模型里会被加入许多的变量的高阶项、乘积项,或者对变量进行一些非线性的转换,或者是降维。最后的确成功把因变量预测出来了,但是哪些变量起了多大作用已经说不清楚了,或者说也没必要弄清楚。

机器学习可以面对更复杂的数据结构,但难以得到背后的经济解释。

二、怎样将机器学习算法/思想融入因果推断

1. 使用机器学习方法进行变量挑选

在计量经济学模型中我们所关注的是解释变量的系数和显著性,出于各种目的也会加入一些控制变量。即使加入的控制变量是无关变量(与因变量无关的),解释变量的系数也不会受到影响,但还是会带来模型精度下降等问题,所以我们仍希望避免引入无关变量。如果候选变量数量众多,比如有成百上千个(这在大数据时代下并不是稀奇的事),我们就可以用机器学习中的一些方法来对变量进行挑选,例如LASSO回归、岭回归等。

类似地,在使用工具变量(IV)或者做匹配(matching)的时候,我们也可以用这种方法来从成百上千个变量中挑选出合适的变量。

2. 使用机器学习方法对反事实结果进行预测

这一类思路是极其有趣且实用的。反事实框架是因果推断的基础框架。当我们想要研究一件发生了的事情所带来的影响时,总会希望知道如果它没有发生那么之后情况会是怎样。换个角度一想,这其实可以被转化为机器学习中的预测问题。我们无非就是在给定一些条件的情况下预测出某个变量的取值。

匹配(matching)其实也是一种预测思想,所以用机器学习的方法或许能够实现得更好。如果我们使用机器学习方法,用大量的特征预测A个体会接受treatment,但实际上他/她并未接受,那这就说明一定是有一些很外生的因素导致它没有接受treatment,这样的匹配是非常理想的。

3. 借助机器学习实现异质性因果效应分析

异质性因果效应是指某个事件对样本中的不同类型个体产生了不同大小或者不同方向的因果效应。例如,在周末补课对某些学生的成绩提高是有作用的,但对其他学生未必有用,并且作用的大小也不同。传统计量经济学一般怎么来研究异质性因果效应呢?基本上无非是用分组或者引入交互项两种方式。这里存在的第一个问题是,如果我们想研究每一个协变量对因果效应产生的影响,岂不是要做许多次分组回归或者引入许多次交互项?这在变量数量较多的时候是很难进行操作的。第二个问题是,对于连续变量如何进行合理地分组?

这两个主要问题在机器学习方法中都已经有较好的解决思路。解决前者的思路对应着机器学习中的一些基于bootstrap等抽样思想的集成学习算法,例如随机森林;后者则更加简单,可以直接被对应到决策树问题上去。

4. 引入对于模型过拟合、泛化能力的思考

由于机器学习的根本目的在于预测,因此模型是否过拟合、泛化能力强弱是重要的评价因素。但在计量经济学中竟然没有对称的概念或者思想。计量经济学模型总是喜欢更大的样本,一个重要原因是它们要用这个样本的数据来探索某个解释变量对因变量的影响,所以需要样本具有较好的代表性。机器学习算法同样偏好大样本,但同时它们会使用划分训练集和测试集、进行交叉验证等方法来直接考察算法的泛化能力。这也是计量经济学可以借鉴的元素。

探讨计量经济学与机器学习相关推荐

  1. DataScience:深入探讨与分析机器学习中的数据处理之非线性变换—log对数变换、sigmoid/softmax变换

    DataScience:深入探讨与分析机器学习中的数据处理之非线性变换-log对数变换.sigmoid/softmax变换 目录 深入探讨与分析机器学习中的数据处理之非线性变换 log对数变换 sig ...

  2. DataScience:深入探讨与分析机器学习中的数据处理之线性变换—标准化standardization、归一化Normalization/比例化Scaling的区别与联系

    DataScience:深入探讨与分析机器学习中的数据处理之线性变换-标准化standardization.归一化Normalization/比例化Scaling的区别与联系 目录 深入探讨与分析机器 ...

  3. 重磅!Nature子刊发布稳定学习观点论文:建立因果推理和机器学习的共识基础...

    来源:AI科技评论 整理:AI科技评论 2月23日,清华大学计算机系崔鹏副教授与斯坦福大学Susan Athey(美国科学院院士,因果领域国际权威)合作,在全球顶级期刊Nature Machine I ...

  4. 机器学习资料推荐 URL

    1  http://blog.csdn.net/poiiy333/article/details/10282751 机器学习的资料较多,初学者可能会不知道怎样去有效的学习,所以对这方面的资料进行了一个 ...

  5. [转]机器学习和深度学习资料汇总【01】

    本文转自:http://blog.csdn.net/sinat_34707539/article/details/52105681 <Brief History of Machine Learn ...

  6. ccxt k线数据_机器学习系列:深度探秘K线结构新维度

    标星★公众号,第一时间获取最新研究 来源:光大证券金工团队独家授权 作者:胡骥聪 近期原创文章: ♥ 基于无监督学习的期权定价异常检测(代码+数据) ♥ 5种机器学习算法在预测股价的应用(代码+数据) ...

  7. 机器学习相关资料推荐 http://blog.csdn.net/jiandanjinxin/article/details/51130271

    机器学习(Machine Learning)&深度学习(Deep Learning)资料 标签: 机器学习 2016-04-12 09:16 115人阅读 评论(0) 收藏 举报 分类: 机器 ...

  8. 【github】机器学习(Machine Learning)深度学习(Deep Learning)资料

    转自:https://github.com/ty4z2008/Qix/blob/master/dl.md# <Brief History of Machine Learning> 介绍:这 ...

  9. 机器学习(Machine Learning)深度学习(Deep Learning)资料汇总

    本文来源:https://github.com/ty4z2008/Qix/blob/master/dl.md 机器学习(Machine Learning)&深度学习(Deep Learning ...

最新文章

  1. 计算机科学与技术类高水平国际学术刊物,莘莘学子 | 计算机科学与技术学院本科生薛传雨在国际期刊上发表高水平学术论文...
  2. 芯片开发者46%年收入达30万元,7纳米制程以内开发者30%超50万元
  3. python虚拟环境 windows环境搭建_windows 下搭建python虚拟环境(示例代码)
  4. 《代码大全2》读书笔记 Week2
  5. linux 压缩权限,linux的基本操作(归档压缩,用户、权限管理,远程服务器构建和vi编辑器)...
  6. Linux 10分钟掌握Linux常用开发工具及编译的四个过程
  7. python中字符串(二)-访问值、更新、转义、运算
  8. 罗永浩抖音直播首秀:3小时1.1亿;微软曝三屏折叠机专利;Linux Mint 20仅提供64位版本 | 极客头条...
  9. 零基础学python知乎-编程零基础应当如何开始学习 Python?
  10. Python多处理示例
  11. svn使用过程中遇到的问题
  12. python bin文件转换成txt文件
  13. K--最邻近(K-NN)算法
  14. Gambler's Ruin(赌徒破产问题 概率论)
  15. 崩坏3九游服务器稳定吗,崩坏3:大佬亲身经历告诉你,玩崩坏3到底该不该压等级!...
  16. css如何修改滚动条样式
  17. 动画程序时长缩放是什么意思_Pr预设:2000种文字标题排版指示线图形动画无缝转场剪辑工具包...
  18. 使用 Windows PowerShell 构建 WPF 应用程序的奥秘
  19. 华为防火墙配置目的nat
  20. Web学习(五)中期项目-简易拳皇

热门文章

  1. 辽宁移动数码S6_S805_RTL8188_线刷固件包
  2. 风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量
  3. 架构师速成5.2-价值观和目标
  4. python成绩查询系统_教你用python爬虫监控教务系统,查成绩快人一步!
  5. App地推效果差?你可能缺少渠道效果统计
  6. PHP Redis的运用篇(一)
  7. 阿里云基于区块链服务构建企业业务系统实践总结
  8. CodeWarrior 使用教程
  9. h5物体拖动_网易爆款H5 的交互方法参考
  10. 关于js join 方法介绍