私人部门数据的经济学应用

杨奇明 译
施丹燕 校对

译者的话:由于传统商业受到市场准入和地区间市场分割的限制,互联网商业模式对中国经济的影响远远超过传统商业模式发达的西方发达国家。在中国,阿里巴巴、腾讯、百度、京东等互联网巨头所掌握的有关中国消费者和个人用户的信息不会少于作者在文中提到的美国任何一家互联网公司。有人说,大数据之于未来商业相当于石油之于现代工业,是必不可少的战略资源。而正如作者在文中所阐述的,这些数据资源也同样能够给经济学研究带来巨大的机遇。对于中国学者而言,微观经济数据的缺乏和传统经济统计数据低劣的质量,就像梦魇一样会伴随其整个职业生涯。如今,非传统的商业部门微观大数据对中国广大学者来说会是一个福音吗?目前来看,仍然如镜花水月,正如作者在文中所说,数据特性、隐私、保密条款、商业利益等等因素,都限制其学术应用。未来这些问题能否解决,让我们持续关注吧!

私人部门的数据收集工作正在发生更为剧烈的变化。虽然媒体关注的是谷歌、亚马逊和Facebook等互联网巨头公司在收集大量信息,但其实所有经济部门的公司现在都在收集和整理有关其客户和内部业务的数据,包括:银行、信用卡公司和保险公司收集有关家庭和商业金融交易的详细数据;沃尔玛和塔吉特(Target)等零售商收集消费者支出、批发价格和库存数据;从事数据收集的专业私营公司(如credit bureaus或Acxiom这样的营销公司)几乎汇集了所有家庭的大量个人层面数据。

尽管所有这些数据收集的主要目的都是为了商业用途,但在经济学和其他领域也有潜在的应用价值。这些应用还刚刚开始被认识和探索,但最近的研究已经向我们传达出了一些有用的价值信号。

应用之一:构建反映整体经济状况的统计指标

私营部门数据的一个应用是创建可用于反映经济变动和作为其他研究基础的反映总体经济活动的统计指标。薪资服务公司ADP已经开始在美国劳动统计局(Bureau of Labor Statistics)之前发布月度就业统计数据。“Mastercard“发布零售数量,而Zillow发布了县级层面的房价指数。这些数据在定义上可能不如政府最终发布的统计数据明确,但它们发布的速度更快,并且可能变量的颗粒度更细,这使得它们成为传统经济统计指标的有益补充。

麻省理工学院的Billion Prices Project(BPP)是一个由学者倡议的项目。BPP研究人员与互联网零售商协作,下载了数十万种产品的每日价格和详细的产品属性(Cavallo, A., 2012),并以此计算每日价格指数(daily price index)。尽管限于研究设计,产品的样本是偏向于(skewed toward)在线零售商存储的产品,但它却十分接近劳工统计局编制的消费者价格指数(CPI),而其优点在于标准消费价格指数是每月发布的,滞后了几个星期。更有意思的是,该项目生成了一些国家的价格指数,对这些国家而言,可能政府的统计指标通常是不可得的,或者政府的统计数据因为误报而遭到怀疑,如阿根廷(Cavallo, A., 2012)(见图2)

图2 BPP价格指数

注:上图中,黑色实线为每日价格指数系列,即BPP价格指数,由BPP利用数千个零售商品的互联网数据制作的“State Street's PriceStats系列”,其中所有的指数都以2008年7月1日为基期100,进行标准化处理。红色虚线为政府统计机构公布的美国(A)和阿根廷(B)的CPI月度指数系列。在美国,两个系列的指数变化趋势近乎一致,尽管BBP价格指数是实时可用的,并且颗粒度更细(每日而不是每月)。 在阿根廷,这些指数差异很大,BPP指数是官方CPI的两倍左右。

Baker et al.(2013)采用了相似的数据加总策略,通过整合10份主要报纸的全量文本,构建了一个经济政策不确定性的每日指数。与BPP指数不同,这个经济政策不确定性指数是一个全新的指数,在任何一个正式的政府报告中都找不到对应的指标。然而,它却捕获了一个经济学家认为对于理解企业投资决策和宏观经济活动来说可能很重要的概念。

近期的研究认为,可以公开获得的检索查询数据(search query data)或者在推特上发的推文,可能能够用来提供关于加总行为的类似统计指标(Goel S., et al.,2010; Antenucci D., et al.,2014)。例如,Varian及其合作者(Choi, H. & Varian, H., 2012; Varian, H. & Scott, S., 2014)使用Google检索数据提供了关于失业、消费者信心和零售的短期预测。他们的分析与著名的谷歌流感趋势指数(Google Flu Trends index)很类似,谷歌流感趋势指数采用检索查询数据来预测美国疾控中心的流感感染指标。当然,这里也要给出一个提醒,谷歌流感趋势指数模型在谷歌改变其基础检索算法之后就奔溃了(Lazer, D., et al.,2014)。这说明,使用私人部门数据构建成功的经济指标可能需要小心维护和更新。

应用之二:扩展消费者行为研究的深度和精度

私人数据的第二个应用是允许研究人员“深入”到特定企业或市场内部,研究员工或消费者行为,或者不同行业的运行模式。近期在这方面的工作经常依赖于通过与私人公司合作获得的专有数据(proprietary data)。从隐私和商业角度来看,数据敏的感性不同。据此,相关协议可采取各种不同的形式。研究人员必须要保证基础数据(underlying data)的私密性。但是作为交换,他们通常会分析员工或顾客层面数据,通过这些数据可以了解特定业务或市场的详细运作情况。

相对于政府调查或行政数据,公司的数据有一些重要的不同点。首先,通常抽样不具有代表性,因此将研究发现进行一般化必须要一个个进行重新评估;第二,数据的收集强调的是新近性(recency)和商业用途的相关性,因此从长期来看,变量和数据收集可能不具可比性和一致性。总之,尽管数据量可能很大,但最好将其视为一种“便利(convenience)”样本。同时,私人实体也不像一些公共机构那样受到官僚约束。私人数据可以提供的细节可能更多、计算资源也可以更强大,因此,私人公司会有更多的灵活性来运作实验。

私人数据的细节和颗粒度(granularity)可以为研究一系列市场提供新的机会。以eBay为例,作为与eBay研究人员合作的一部分,作者用eBay的市场数据来研究销售税对互联网购物的影响(Einav, L., et al., 2014)。我们的经验策略之一是,寻找有多个消费者点击特定条目的情况,然后比较与卖家处于同一州(在这种情况下卖家征收销售税)和跨越了州际线(从而不征收销售税)但与卖家距离跟前者相似的两类消费者的消费情况。该研究设计的思想是评估在类似消费者寻找相同产品列表情况下销售税的敏感性。如果不能接触到底层浏览数据,我们将无法通过筛选几十亿的浏览记录(browsing events)来识别我们经验策略所需要的信息,那么这种类型的分析将是不可能实现的。

在另外两项与eBay合作的研究(Einav, L., et al., 2011; Einav, L., et al., 2013)中,我们还研究了不同的互联网定价和销售策略的有效性。首先,确定了数百万个在线卖家多次以不同定价、运输费用或使用替代销售机制(例如通过拍卖或公布价格)(见下图.3)列出相同的商品的销售情况。然后,使用匹配的列表来估计消费者对不同价格和运费的需求响应,并对拍卖和发布价格的销售进行比较,同时还研究了其他替代性的销售机制,例如采用有“立即购买”选项的拍卖。这种大规模、微观层面的市场行为研究在未来可能会越来越多。

与上文提到的一些研究类似,这些文章的核心主题(central theme)是使用高度精细的数据来找出瞄准的变化(targeted variation),对这些变化可能可以进行因果估计(例如评估征收销售税、定价变化等等因素的效应)。在互联网的案例中,这将从关于市场价格和数量的加总数据,转移到个体浏览数据或卖家列表数据。掌握拥有几十亿交易规模市场中的颗粒数据,将有机会分析特定的消费者或者细分市场:地理变异、新旧商品或者有无经验的销售者。此外,有更加丰富的数据能够帮助构建更加精细的产出指标(nuanced outcome measures)。举个例子,在研究销售税效应的例子中,我们不仅考察销售税是否阻止了买家购买,还能考察这些买家是否继续浏览并且购买了类似免税的品类(item)。

大规模的细颗粒度数据在对于评估识别假设(identifying assumption)的稳健性上也特别有用。实际上,经济学的每一个观察类研究(observational study)都必须应对这样的批评:即使控制了混淆的来源(sources of confounding),数据也不可能近似地被视为是控制实验。例如,在关于网络销售策略的研究中,我们汇总了与搜索条件相匹配的许多产品的销售情况(matched-listing episodes),我们希望每个情节都能够接近卖方进行的定价实验。但是,作为对消费者需求的反应,有时卖家可能会进行定价调整,使得从价格变化中可以推断出来的东西变得复杂。检查结果是否被污染的一个方法是使用能够去掉潜在混淆源的更窄的匹配策略——例如,关注卖家同时上架两种产品的情况。这种额外的侦测工作(detective work)在大量丰富数据的情况下更加容易做到。

应用之三:经济学实验

与私人部门企业的合作还能实施结构化的经济学实验(structured economic experiments)。这种类型的研究已经开始快速普及,在实验已成为标准商业实践的互联网上,此类研究的成本较低并且容易扩展(Kohavi, R., et al., 2009; Varian, H., 2013)。近期的一个例子,Ostrovsky and Schwarz(2009)与雅虎合作,检验在广告拍卖中采用不同的底价(reserve prices);Blake et al.(2014)与eBay合作,有选择性地关闭其Google搜索广告,然后跟踪其对eBay网站上访问和销售的影响;Horton(2013)与oDesk合作,提供了雇佣方面的建议。另一个例子是Lewis and Reiley(2014),他们报告了与雅虎合作的消费者广告实验。这些实验变得越来越普遍,尽管Lewis and Rao(2014)近期强调,从中提取出有用的信息远比人们希望的要具有挑战性。

小结

与行政部门的数据那样,经济学家在使用私人公司的数据进行研究的时候,也面临一些挑战,特别是关于数据接入许可。虽然这些私人公司可能愿意公开小型、不敏感的数据,但研究人员必须承诺对数据严格保密,如果他们想要直接研究公司记录的话。这将导致其他研究者想要重复或者扩展这些研究的机会是很有限的。此外,一些合作研究项目可能只是研究者与私人部门之间顾问或者雇佣关系的一部分,这引出了关于利益冲突的问题,以及哪些结果可以被研究或者向公众发布的选择性问题。

这些问题在近期开始在经济学领域被当做一个主流问题加以讨论,因为一些期刊和研究机构开始在透明度和披露方面采取了一些政策。然而,随着私人公司获得越来越多的经济数据,可以确定的是学术界和私人公司的合作将会随之扩大,所以我们希望披露政策证明是有效的,而私人公司以能够合理保持隐私和保密性的方式允许学者通过公开流程获得数据的使用许可。围绕着数据隐私和可接受的研究实验类型的背后问题显然是很敏感的,需要耐心加以应对。近期涉及到操纵Facebook新闻源的实验就是此类例子(Albergotti, R., 2014)。

参考文献

  1. A. Cavallo, “Scraped data and sticky prices,” Massachusetts Institute of Technology Sloan working paper no. 4976-12 (2012).

  1. A. Cavallo, Online and official price indexes: Measuring Argentina’s inflation. J. Monet. Econ. 60, 152–165 (2012).

  1. S. Baker, N. Bloom, S. Davis, “Measuring economic policy uncertainty,” Chicago Booth research paper no. 13-02 (2013).

  1. S. Goel, J. M. Hofman, S. Lahaie, D. M. Pennock, D. J. Watts, Predicting consumer behavior with Web search. Proc. Natl. Acad. Sci. U.S.A. 107, 17486–17490 (2010).

  1. D. Antenucci, M. Cafarella, M. Levenstein, C. Re, M. Shapiro, “Using social media to measure labor market flows,” National Bureau of Economic Research (NBER) working paperno. 20010 (2014).

  1. H. Choi, H. Varian, Predicting the present with Google trends.Econ. Rec. 88, 2–9 (2012).

  1. H. Varian, S. Scott, Predicting the present with Bayesian structural time series. Int. J. Math. Model. Numer. Optim. 5,4–23 (2014).

  1. D. Lazer, R. Kennedy, G. King, A. Vespignani, The parable of Google flu: Traps in big data analysis. Science 343, 1203–1205 (2014).

  1. L. Einav, D. Knoepfle, J. Levin, N. Sundaresan, Sales taxes and Internet commerce. Am. Econ. Rev. 104, 1–26 (2014).

  1. L. Einav, T. Kuchler, J. Levin, N. Sundaresan, “Learning from seller experiments in online markets,” NBER working paper no. 17385.

  1. L. Einav, C. Farronato, J. Levin, N. Sundaresan, “Sales mechanisms in online markets: What happened to Internet auctions?” NBER working paper no. 19021 (2013).

  1. R. Kohavi, R. Longbotham, D. Sommerfield, R. Henne, Controlled experiments on the Web: Survey and practical guide. Data Min. Knowl. Discov. 18, 140–181 (2009).

  1. H. Varian, “Beyond big data,” presented at the National Associate for Business Economics Annual Meeting, San Francisco, CA, 7 to 10 September 2013.

  1. M. Ostrovsky, M. Schwarz, “Reserve prices in Internet advertising auctions: A field experiment,” Stanford University Graduate School of Business research paper,no. 2054 (2009).

  1. T. Blake, C. Nosko, S. Tadelis, “Consumer heterogeneity and paid search effectiveness: A large scale field experiment.” NBER working paper no. 20171.

  1. J. J. Horton, “The effects of subsidizing employer search,” New York University working paper (2013).

  1. R. Lewis, D. Reiley, Online ads and offline sales: Measuring the effects of retail advertising via a controlled experiment on Yahoo! Quant. Mark. Econ. 12, 235–266 (2014).

  1. R. A. Lewis, J. M. Rao, “The unfavorable economics of measuring the returns to advertising,” working paper (2014).

  1. R. Albergotti, “Facebook experiments had few limits,” Wall Street Journal, 2 July 2014

资料来源:原文节选自 Liran Einav and Jonathan Levin,Economics in the age of big data, Science, 346, 2014.
免责申明:本文仅用于学术交流,版权归原作者和原发刊所有,转载请注明出处。如果我们的行为侵犯了您的权益,请及时联系我们,我们将会妥善处理该部分内容。

数据Seminar

这里是经济学与大数据的交叉路口

———

学术前沿 | 私人部门数据的经济学应用相关推荐

  1. 学术前沿丨大数据在劳动力市场研究中的应用与展望

    推荐语:专业的网络招聘平台.微博微信等网络社交平台以及谷歌百度等互联网搜索引擎在降低信息不对称的基础上,极大地减少了信息搜索成本,促进了劳动力供给与需求的高效匹配,形成了具有动态性.及时性的海量劳动力 ...

  2. 【竞赛算法学习】学术前沿趋势分析-论文数据统计

    任务1:论文数据统计 1.1 任务说明 任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量: 任务内容:赛题的理解.使用 Pandas 读取数据并进行统计: 任务成果:学习 Panda ...

  3. 数据分析入门(学术前沿趋势分析)Task1-论文数据统计

    此次赛题是零基础入门数据分析(学术前沿趋势分析),使用公开的arXiv论文完成对应的数据分析操作.赛题内容包括对论文数量.作者出现频率.论文源码的统计,对论文进行分类以及对论文作者的关系进行建模. 目 ...

  4. Datawhale数据分析学习——学术前沿趋势分析 任务1

    数据分析学习--学术前沿趋势分析 任务1 前言 赛题背景 任务1:论文数据统计 1.1 任务说明 1.2 数据集介绍 1.3 arxiv论文类别介绍 1.4 任务整体思路 1.5 具体代码实现以及讲解 ...

  5. 数据分析-学术前沿趋势分析一

    数据分析-学术前沿趋势分析 1 简介 1.1 问题背景 1.2 数据说明 2 数据介绍 3 具体代码实现 3.1 导入相关package并读取原始数据 3.2 数据预处理 3.3 数据分析及可视化 总 ...

  6. 【学术前沿趋势分析 】

    学术前沿趋势分析 Task 01:论文数据统计 Task 02:论文作者统计 Task 03:论文代码统计 Task 04:论文种类分类 Task:5:作者信息关联 Task 01:论文数据统计 任务 ...

  7. 阿里云天池学习赛-零基础入门数据分析-学术前沿趋势分析(task1)

    阿里云天池学习赛零基础入门数据分析-学术前沿趋势分析 前言 一.赛题描述及数据说明 1:数据集的格式如下: 2:数据集格式举例: 二.task1论文数量统计(数据统计任务):统计2019年全年,计算机 ...

  8. SCA连载GDPR 数据处理案件分析 | 德国数据保护局vs德国学术机构,谁是数据控制者?

    众所周知2018年5月新发布实施的GDPR将适用主体扩大到数据控制者和数据处理者,且引入了数据联合控制者的感念,并分别规定其不同的数据合规义务.2018年6月5日,德国Schleswig-Holste ...

  9. 第二期预告|中国工程院院刊:信息与电子工程领域青年学术前沿论坛

    为了促进信息领域学术交叉研究,构筑学术思想交流高地,在中国工程院信息与电子工程学部指导下,中国工程院院刊<Engineering>.<Frontiers of Information ...

最新文章

  1. s-sgdisk源码分析 “--set-alignment=value分区对齐参数”
  2. php如何定时执行任务
  3. 802.11 区分广播 多播 单播帧
  4. 2020-12-18 Matlab LQR 推导及简单应用
  5. 进程P1、P2、P3、P4和P5的前趋图如下图所示。若用PV操作控制进程P1~P5并发执行的过程,则需要设置6个信号S1、S2、S3、S4,且信号量S1~S4的初值都等于0。下图中a和b处应分别填写(
  6. could not perform addBatch
  7. 【Android 修炼手册】Gradle 篇 -- Gradle 源码分析
  8. vue 动态显示三级路由
  9. leetcode98 验证二叉搜索树
  10. idle点开没反应_翟天临、靳东,一个人越是没文化越是喜欢装
  11. 大数据_Flink_数据处理_流式数据源测试---Flink工作笔记0010
  12. Oracle ERP简介
  13. 从零开始Unity引擎学习
  14. UE4学习-初识虚幻引擎(下载、安装、重定向问题、安装引擎、启动)
  15. 如何升级到 macOS Mojave
  16. c语言中shift的作用,Shift是什么意思?Shift键都有什么作用?
  17. git bug分支管理
  18. 电脑突然找不到wifi 的解决方法
  19. 安装SSL证书的网站被谷歌提升排名权重
  20. oracle中before,oracle触发器before和after数据区别

热门文章

  1. 资产配置那些事-信用卡
  2. 天池金融风控 github 图床
  3. sync.Mutex 与 sync.WaitGroup 使用示例
  4. 镜头上的自动对焦马达
  5. html 透视效果,HTML5实现立方体及透视效果
  6. 腾讯的机器人梦:上亿美元下注七家创企
  7. 二十五岁的时候[老猫]
  8. NYISTSWOJ 5861 我和LOL真没关系
  9. 【转载】关于Android各个类型手机兼容刘海屏解决方案
  10. 东八区先生的AI公司有多离谱?