文章来源:企鹅号 - DIM数据与信息管理

在第十一届国际信息管理中国夏季研讨会(CSWIM,2017)上,众多资深信息系统专家就“计量经济学与机器学习结合”的议题展开讨论。本期将各位学者的核心观点加以综述,以飨读者。

计量经济学与机器学习在各自的轨道上发展,其研究目的、关注焦点和研究方法各不相同,伴随大数据的海量生成和解决复杂问题的需要,二者的整合方式应运而生。本研讨会主要讨论了将计量经济学和机器学习整合于信息系统(IS)研究的指导方针和关键问题,分三个话题:

What is the Significance of Combining Econometrics with Machine Learning?

计量经济学与机器学习相结合的意义何在?

Yong Tan

Idea 1: Integration of machine learning and econometrics will be of great value.

整合机器学习与计量经济学具有重大价值。

实际上,我已经从方法论的角度多次讨论过这个话题。此次,我们将方法本身视为工具,通过改进工具来解决更有趣的商业问题。一方面,计量经济学用以研究数据间的因果关系,这是我们的主要目的。另一方面,从机器学习的角度来看,我们想要达到预测的准确性。因此,若深入研究可知,二者在准确描述数据的生成过程方面有共同的哲学思想。显然,一旦掌握数据的产生方式,我们便能在研究其因果关系中萌生更多想法。同样地,若既了解数据的生成方式又掌握其来源,我们便可获得更高的预测精度。

Idea 2: Technical integration will be a substantialintegration.

技术集成将是实质性的集成。

现有的文章已分别使用了这两种方法,例如,一些文章利用深度学习的方法从图片中提取特征,将非结构化数据转换为可供计量模型使用的结构化数据,从而分析这些特征的经济学意义。即使是分开使用,二者的结合也能帮我们分析其他方法使用不了的数据。例如,用计量经济学模型分析实际数据、图像数据或视频数据,为实质性分析奠定基础。

然而,我们仍然要思考这两种方法该如何进行实质性结合,即技术上的整合。这不仅是方法论的分支,更是计量经济学意义上的挑战。值得考虑的是,在计量经济学模型建立之后,机器学习或深度学习能否成为其中的内生要素,即数据流程上的技术集成。这才是二者的真正融合。

Paulo Goes

Idea 1: Machine learning is predictive, while econometrics is explanatory.

机器学习是预测性的,而计量经济学是解释性的。

近些年,机器学习有一种典型范式:就像在黑箱选择中因果关系和解释特征被弱化了一样,人们并不关心数据的内在关系,而是通过数据交叉验证来构建可提供解决方案的模型,并不断调整直到令人满意的预测精度。

机器学习是从范式中得来,旨在寻求推荐系统、解决方案、计算系统或分类等问题的解决方法。计量经济学的主要模式是提出一个模型用以解释世界的真实状态,即通过假设检验和其他传统的社会科学研究方法,以统计的形式探索因果效应。机器学习是一种模式搜索工具,很少有线性关系。人们倾向于聚合不同的模型以实现巨大的预测力。然而,计量经济学则主要研究线性关系。有时,研究者可以通过合并非线性函数,从回归中获得复杂程度各异的线性相关关系。

综上所述,机器学习的预测与因果关系无关。在机器学习精度高的情况下,寻找一个高精度的预测模型不同于推导出计量经济学的真实基础结构。此外,预测能力与解释能力也截然不同。

Idea 2: Combination of machine learning and econometrics is achievable and challenging.

二者结合可实现且有挑战。

四种结合方式:

①使用机器学习模型输入计量经济学模型所需变量

②借用计量经济学基本理论优化机器学习算法

③借用机器学习技术优化计量经济学模型

④最有趣的方式是用二者解释同一现象。

如利用文本挖掘和情感分析定义不同的变量,然后将其应用于计量经济学模型之中。即便如此,我们仍面临一个挑战,即二者预测能力的精确性如何判定?在机器学习技术中,预测能力的精确性可知,而在计量经济学模型中,若模型有误则预测的准确性该如何考虑?Hal Varian(2014)建议通过整合包括训练集、验证范例、修正机器学习中过拟合问题等在内的各类特征来改进计量经济学模型。该研究表明,模型预测精度可提高50%以上。

二者结合的步骤:首先使用机器学习的方法,然后试图解释现象,了解共现现象的潜在原因。一般认为,层次模型的内循环可能是由机器学习驱动的,而外循环是由计量经济学驱动的。在我看来,机器学习和计量经济学都只是解决问题的技术和工具。

Ramnath Chellappa

Idea 1: Machine learning and econometrics are different in perception and understanding of problems.

机器学习和计量经济学对问题有不同的审视和理解。

计量经济学家和计算机科学家处理数据的方式完全不同。计量经济学家注重分析问题的结构和背景,基于经济学理论、计量和推理统计,从假设的结构随机模型出发,利用观测数据对相关样本的不可知和不可观测参数进行估计,从而提出用于推理和预测的模型。而统计学家和计算机科学家在开发模型时并不做假设,不在变量被证明之前假定其独立或依存关系,而是在计算机辅助下进行数据处理(如存储、分析、组织和分类等)从而生成模型。(Judge, 2016)

Idea 2: Econometrics is theoretical foundation, while machine learning is technical assistance.

计量经济学是理论基础,机器学习是技术援助。

在计量经济学中,评估自变量对因变量的影响系数是预测和回归过程的主要目的,消除与真正解释因变量无关的自变量是构建模型的目的之一。在此过程中,预测精度之外的可能性也不容忽视。比如,即使某个模型对80%的问题奏效,也不能忽略剩下的20%,否则预测将在某些情况下失败。一般而言,如果没有结构性问题,计量经济学就无法解释一切。而若要准确地定位数据中的单一组成部分就需要机器学习的技术引导。此外,机器学习也不可能凭空产生,它同样需要计量经济学的理论基础。

D. J. Wu

Idea: Both econometrics and machine learning have advantages and disadvantages.

计量经济学和机器学习各有优劣。

Susan Athey已经证明这两个学科之间确实有密切联系。

①机器学习擅长交叉验证,可用于评估模型在实践中的表现。而这对计量经济学来说是非常困难的。

②计量经济学可以揭示基本的底层过程,有助于把握经济结构。因此,研究人员在利用计算机处理变化和新问题时,必须了解其基本过程和基本关系,从而有助于模拟、假设分析和决策效应分析,进而优化决策。

Michael Shaw

Idea: Econometrics and machine learning depend on each other.

计量经济学和机器学习相互依赖。

机器学习是从大量数据中获取真知灼见的过程。我们试图理解分类式分布,通过调查提出与不同的因素或变量完全吻合的模型,尝试分析自变量与因变量的关系及其影响效果。在处理数以百万计的数据时,人们必须使用机器学习、数据挖掘以及各种计量经济模型以发现有价值的信息,获取更深入的情报而非仅停留在解释内在关系的层面上。

机器学习过程产生了关于知识的知识,即“元知识”。但是,机器学习所生成的树状结构或其他模型是否稳定可靠仍需要被验证。其中,计量经济学的交叉验证便发挥着重要作用。在现实情况下,机器学习通常会生成体量庞大的结果,这就是需要训练集的原因。因此,你需要对机器学习生成的模型进行多种验证,例如统计学和计量经济学。

When do Econometrics and Machine Learning Need each other?

计量经济学和机器学习何时需要彼此?

Paulo Goes

Idea: Machine learning and econometrics can be beneficial to each other.

机器学习与计量经济学相互增益。

三种融合使用方式:

①利用机器学习结果组成计量经济学模式。如Michael所说,机器学习的分类结果可以作为计量经济学模型的变量;

②用机器学习技术优化计量经济学模型,或者两个领域互补互益。比如,机器学习的交叉验证有助于开发计量经济模型;计量经济学模型有助于处理机器学习的过度拟合问题。

③同时使用机器学习和计量经济学,全面了解某一现象。

Yong Tan

Idea 1: Deep learning is a good approach for revealing the correlation between endogenous variables and instrumental variables.

深度学习是揭示内生变量和工具变量相关性的好方法。

研究者难以简单推测或假设内生变量与工具变量的实际关系,但可以通过深度学习来发现和捕捉信息,从而提高内生变量和工具变量的预测能力。

Idea 2: Exploitation and exploration are essential to each other.

利用与研究彼此相依。

从传统意义上来说,如果不考虑潜在变量,研究者就很难捕捉整个过程。在没有中间变量的情况下,我们基本可以通过短期或长期记忆抓住眼前过程,然后使用潜在变量开发后续计量模型中的“树”,而不只是单纯地使用机器学习来训练模型参数。实际上,从深度学习到计量经济学要经过两个相互关联的过程,继而实现对整个模型及对两个组件整体参数的估计。因此,我认为深度学习的方法论可以丰富研究者对数据生成及整个过程的理解。

Ramnath Chellappa

Idea: We need to know both what and why.

知其然,知其所以然。

为何预测并不总能达到模型解释的效果?其原因有二:

①用来生成预测模型的数据与未来生成的数据不一致。

②该理论不适用。

一方面,机器学习有助于识别被忽略的但可能在理论构建中发挥作用的潜在过程。另一方面,计量经济学可以帮助机器学习快速聚焦,继而发挥良好的识别和引导功能。

D.J. Wu

Idea: Why do machine learning and econometrics need each other?

为何机器学习和计量经济学相辅相成?

机器学习非常善于系统地生成模型。然而,其中的因果推理能否维持并不确定。由于二者在模型和推理上各具优势,相辅相成。研究者能否使用机器学习系统地生成模型并保持因果推理,这无人得知,但确是一项值得鼓励的全新挑战。机器学习可用于解决社会问题,以模拟法官决策过程为例。在美国,许多人都是潜在的犯罪嫌疑人,必须由法官决定谁应该受审。想象一下,大多数被审判的人都是无辜的,而如果他们被早早地关进监狱,那将是一种资源浪费。于是,法官试图运用直觉、经验等进行审判,这一过程可被机器学习模仿。这项研究涉及使用机器学习来模仿法官,而不是法官的结果,如情绪、眼睛及其他方面。当我们敢于挑战理论,通过机器学习训练观测值,进而辅助决策,解决一些社会问题。

Michael Shaw

Idea: A cocktail approach can be used in the combination of machine learning and econometrics.

机器学习与计量经济学“鸡尾酒”式的结合。

我们不应过度强调二者的割裂和不同,而应正视当前的问题,寻求可靠的结果,验证理论层次的假设,从而为重要的科学发现铺平道路。显然,计量经济学拥有为人熟知的坚实基础。而机器学习则更加专门化,具有符号处理能力,可提供更结构化和纹理性的信息。两者结合大有裨益。例如,纯计量经济学大多以数字为基数,耗时于统计过程之中。而高水平的机器学习可以弥补计量经济学统计的疏漏,以多角度的解释为决策者提供有洞察力的信息。二者的互补重在理解基本的决策过程,而不仅仅是依靠预测能力或解释能力。

How to Get Prepared for the Combination ofEconometrics and Machine Learning as Researchers?

从事计量经济学与机器学习融合研究的学者们该如何准备?

Olivia Sheng

Idea: It is necessary to master domain knowledge and use tools skillfully.

有必要掌握领域知识,熟练使用工具。

在我看来,计量经济学和机器学习都只是方法。计算机科学中也有诸如归纳学习、预测模型及其他方法来预测数据间的共同特征。这些都会在数据挖掘和机器学习的课堂上出现。统计学与机器学习从不同的角度出发,而深度学习则在此过程中处理大量数据。我想给出几点建议,毕竟使用经过训练的某些工具可能比选用未知的工具收效更好。

①若要结合二者的优点,就必须深入学习每一个工具。

②根据研究目的,选择合适的工具和方法。

③对问题本身、数据、方法和过程了如指掌,进行大量的评估和尝试。

④不满足于预测的既得结果,要广泛学习相关领域知识,结合各种训练、方法和背景知识做出正确解释。

Alok Gupta

Idea: It is important to choose appropriate methodologies for problems.

选择合适的方法解决问题是很重要的。

借助逻辑或经济学知识,机器学习模型可以提供现象的解释。但关键在于将机器学习的结论与理论解释相结合,分析现象的本质和产生的原因。虽然部分信息不具有样本间的统计学关系,但其中的潜在因果联系可能延伸出一些有趣的研究机会,值得我们通过各种各样的方法加以尝试。

  • 发表于: 2018-04-24
  • 原文链接:http://kuaibao.qq.com/s/20180424G1M1Y300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容

当计量经济学遇上机器学习相关推荐

  1. DeepExploit——当Metasploit遇上机器学习

    Metasploit Meets Machine Learning 文章目录 Metasploit Meets Machine Learning 1. Metasploit准备 1.1 与外部项目的合 ...

  2. [当人工智能遇上安全] 7.基于机器学习的安全数据集总结

    您或许知道,作者后续分享网络安全的文章会越来越少.但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个<当人工智能遇上安全>系列博客,详细介绍人工智能与安全相关的论文. ...

  3. [当人工智能遇上安全] 6.基于机器学习的入侵检测和攻击识别——以KDD CUP99数据集为例

    您或许知道,作者后续分享网络安全的文章会越来越少.但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个<当人工智能遇上安全>系列博客,详细介绍人工智能与安全相关的论文. ...

  4. 秒懂机器学习---当机器学习遇上决策树....

    秒懂机器学习---当机器学习遇上决策树.... 一.总结 一句话总结: 多多看图,图的直观效果很好,很多时候文字实在表达不清 1.决策树(Decision Tree)中的各个节点表示什么意思? 每一个 ...

  5. [当人工智能遇上安全] 3.安全领域中的机器学习及机器学习恶意请求识别案例分享

    您或许知道,作者后续分享网络安全的文章会越来越少.但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个<当人工智能遇上安全>系列博客,详细介绍人工智能与安全相关的论文. ...

  6. [当人工智能遇上安全] 5.基于机器学习算法的主机恶意代码识别研究

    您或许知道,作者后续分享网络安全的文章会越来越少.但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个<当人工智能遇上安全>系列博客,详细介绍人工智能与安全相关的论文. ...

  7. 干货!机器学习遇上运筹优化,助力企业降本增效:一种双层优化方法

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 运筹帷幄,决胜千里.运筹优化(Operations Research)作为数学.计算机科学.管理学的交叉学科,如今广泛应用在企业的生产. ...

  8. 当深度学习遇上异构并行计算

    当深度学习遇上异构并行计算 近几年来,以深度神经网络(DNN)为代表的深度学习如火如荼,深度学习的研究领域从开始的图像识别(如imagenet比赛)到现在的自然语言处理,几乎有席卷一切机器学习研究领域 ...

  9. 工智能遇上银行反欺诈,到底能帮什么忙

    工智能遇上银行反欺诈,到底能帮什么忙 晚来风急 2017-08-02 11:42:00 浏览39 评论0 深度学习 大数据 算法 人工智能 神经网络 摘要: 说到人工智能,大多会联想到聊天机器人.人脸 ...

  10. 搜推广遇上用户画像:Lookalike相似人群拓展算法

    在<当推荐系统遇上用户画像:你的画像是怎么来的?>一文中,我们介绍了怎么通过TF-IDF的方式得到用户的画像.而在本文中,我们来聊一下在搜索.推荐.计算广告系统中"画像是怎么用的 ...

最新文章

  1. python查看所有异常_如何获取python异常发生的实际行号?
  2. 漫画:什么是公有云、私有云和混合云?
  3. NVIDIA与服务器制造商合作推进AI云计算
  4. 时间序列的异常值处理
  5. python selenium 处理弹窗_python中能否使用selenium获取弹窗的文本内容?
  6. 【转】Oracle回收站(recyclebin)
  7. 爬虫技术前置准备工作 http url 请求方法 状态码 等等
  8. python环境配置(三)——notepad ++配置python开发环境
  9. springMVC包扫描失效,前端控制器加载异常
  10. linux的shell键盘输入,linux shell获取键盘输入
  11. Apache2.4 根目录修改
  12. 人教版五年级计算机教案,人教版信息技术五年级下册教案
  13. 一阶系统开环传递函数表达式_自动控制总结:第二章、控制系统的数学模型
  14. VMware Tools安装教程
  15. linux top命令 什么意思,Linux下的top命令、%cpu和cps(s)到底是什么意思呢!
  16. 时序分析 27 - 时序预测 格兰杰因果关系(上) 理论知识
  17. matlab马赫带,学习实现马赫带效果
  18. 学习linux 服务器安全这一篇文章就够了
  19. wamp5 链接mysql_wamp5php环境中mysql使用和命令
  20. Vue-router的使用(vue3.0版本)

热门文章

  1. 2007年考研数学一解析pdf
  2. 经典商业融资计划书PPT模板
  3. cad在哪里设置图幅大小_CAD新建图纸怎么设置视图范围太小?
  4. php 快手视频,初学PHP:简单的快手和抖音短视频解析
  5. c 自动打印的服务器,clodop云打印服务器(c_lodop打印机不打印)
  6. python菜鸟教程lambda_jQuery(菜鸟教程)
  7. mac excel 函数
  8. rj45管脚定义_RJ45接口定义
  9. 电商项目的类目,spu,sku,单品
  10. u8系统怎么连接服务器,u8客户端连接服务器流程