这篇没有任何代码,但是这篇文章中用到的网络爬虫数据清洗(正则表达式)文本向量化文档相似度,在之前大邓都陆续分享了,2019最后一天我们通过这篇文章来串一串python数据分析这几个步骤都怎么用的~

本文摘自

Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018.

摘要

使用1995年-2014年所有美国公司季度和年度申报的完整历史记录,研究发现当公司对报告进行积极更改时,这种行为蕴含着公司未来运营的重要信号。

财务报告的语言和结构的变化也对公司的未来收益产生重大影响:做空"变化"的公司(持有的公司,如果其报告发生变化的,做空该公司股票),买入“不变化”的公司,使用这样的投资组合策略,在2006年的每月alpha值高达1.88%的收益(每年超过22%)。报告中涉及执行官(CEO和CFO)团队的话语风格的变化,或者有关诉讼(风险部分)的话语的变化,都对投资的未来收益有重要作用。

研究发现,对10-K的变化可以预测未来的收益、获利能力、未来的新闻公告,甚至未来的公司破产。同时,不做任何变化的公司将获得显著的异常收益。与资产价格典型的反应不足研究不同,我们发现没有任何与这些变化相关的公告效应–仅在后来通过新闻,事件或收益披露信息时才产生回报–暗示投资者并未注意到整个公众领域的这些变化。

Abstract

Using the complete history of regular quarterly and annual filings by U.S. corporations from 1995-2014, we show that when firms make an active change in their reporting practices, this conveys an important signal about future firm operations. Changes to the language and construction of financial reports also have strong implications for firms’ future returns: a portfolio that shorts “changers” and buys “non-changers” earns up to 188 basis points in monthly alphas (over 22% per year) in the future. Changes in language referring to the executive (CEO and CFO) team, regarding litigation, or in the risk factor p of the documents are especially informative for future returns. We show that changes to the 10-Ks predict future earnings, profitability, future news announcements, and even future firm-level bankruptcies; meanwhile firms that do not make changes experience positive abnormal returns. Unlike typical underreaction patterns in asset prices, we find no announcement effect associated with these changes–with returns only accruing when the information is later revealed through news, events, or earnings–suggesting that investors are inattentive to these simple changes across the universe of public firms.

研究背景

之前的研究认为,尽管投资者一次对包含重大变化的财务报表的发布作出了迅时反应,但随着时间的流逝,这种公告作用是会减弱的(Brown and Tucker, 2011 and Feldman et al., 2010)。这表示10-K报告会随着时间推移,信息价值大打折扣。尽管我们复现了这个事实,即与常规文件的变更没有重大的公告效应,但我们认为,前人的研究忽略了更重要部分(如MD&A)对对资产价格的影响。

确切的说,并不是报告的披露效应的信息价值变低了,而是投资者越来越难以发现报告中微妙的信息变化, 比如因为报告变得越来越冗杂。投资者只有看到某些新闻后,才会逐渐意识到之前公司报告内容变化的的真正价值。

例如Baxter公司

  • 纽约时报在2010年4月23日发了一条FDA将有对输液泵(infusion pumps)更严格对审批管理规定的新闻,新闻中提到了Baxter公司。新闻公布当天,Baxter股价大跌。

  • 10天后的(2010年5月4日),Baxter宣布召回问题的输液泵产品,股价当天再次大跌。

两次负面新闻导致Baxter股价大跌超过20%,最有意思的是Baxter公司一个多月前(2010年2月23日)10-k报告中提到了与这两条新闻类似的线索。

截图中写着Baxter的产品COLLEGUE未来可能面脸额外的处罚,而且相关销售面临着FDA、OIG、DOI和FTC越来越严格的审批,面临的执法强度也越来越大。

因纽约时报发布的消息,股价大跌。但是大跌之前Baxter的10-k报告中似乎提示未来公司可能面临的风险,但是投资者怎么没有注意到这个重要线索呢?

数据获取与分析方法

这篇文章用到了很多 文本数据挖掘 方法,如

  • 数据采集(报告下载和信息监测)

  • 正则表达式(数据分割与抽取)

  • 文本相似度(计算报告变化程度)

我大致说下这几部分技术在这篇论文中的应用。

1. 数据采集

这篇论文研究者认为,只有投资者意识到本期报告和上一期报告做对比,才能发现报告变化,进而对股价有影响。所以当有新公告公布后,投资者是否下载本期报告的同时顺带着下载上一期报告,下载量又是多少。

下载量可以从Freedom of Information Act下载,

可以拿到的信息包括:

  • 报告文件

  • 报告下载时间

  • 报告下载的IP地址(可以通过这个ip来当作投资者的id)

2. 正则表达式

一个公司报告文件会有不同部分,我们需要将不同的部分分别识别出来。这里用到正则表达式,可以进行快速的数据清洗和数据抽取。

3. 文本相似度

文本转为向量后就可以进行相似度计算

如果对Baxter公司多个年度对报告进行相似度计算,绘制成图就会发现2010年与前后变化很大。相似度越低,说明公司报告前后变化很大,应该引起投资者注意,如果能注意到就会避免纽约时报导致到股价暴跌。如下图

对报告不同部分进行单独分析,求的均值。如下图,就会发现Item7,也就是MD&A部分是报告变化的主要部分。

广告时间

这篇论文用到的数据挖掘方法,我都整理出了一门课程,涵盖4部分约10小时

  • python语法入门

  • 数据采集,网络爬虫

  • 文本数据清洗与分析

  • 机器学习与文本分析

课程学习方式

  • 线上课程  精选课 | Python网络爬虫与文本数据分析(学术)

  • 线下课程  2020杭州Python&Stata数据分析课寒假工作坊

如果觉得不错,请帮忙点赞转发,给大邓的2019画上大写的O

Lazy Prices公司年报内容变动碰上股价偷懒相关推荐

  1. 实现财务自由 之 美股上市公司的年报(年度财报)(国内外公司年报20-F,10-k)查阅、下载、以及 翻译中文查阅、下载的方法

    实现财务自由 之 美股上市公司的年报(年度财报)(国内外公司年报20-F,10-k)查阅.下载.以及 翻译中文查阅.下载的方法 目录 实现财务自由 之 美股上市公司的年报(年度财报)(国内外公司年报2 ...

  2. 亚马逊、西门子、默沙东、艾默生、快手、魅族等公司高管变动 | 2021年2月1日-7日...

    一周企业高管变动要闻. 全球 贝佐斯(Jeff Bezos)将于将于今年第三季度卸任亚马逊(Amazon)首席执行官一职,目前执掌亚马逊云计算部门AWS的贾西(Andy Jassy)将接任该职.届时贝 ...

  3. 苹果、小米、LG电子、通用电气、光束汽车、WeWork、西太平洋银行等公司高管变动...

    苹果.小米.LG电子.通用电气.光束汽车.WeWork.西太平洋银行等公司高管变动情况. 全球 西太平洋银行 西太平洋银行(Westpac)称,首席执行官Brian Hartzer将辞职,董事长Lin ...

  4. 【Python爬虫实战】3.A股上市公司年报关键词词频分析

    在前面两篇文章中,我们已经成功用Python爬取到了A股上市公司年报并转换为txt格式,接下来就是对数据的处理,我们以经管类常用的文本挖掘方式为例,编写从多个文本文件中提取关键词并统计词频,然后将结果 ...

  5. 从B站、爱奇艺、映客的IPO上市,看国内视频公司的内容审核现状

    欢迎访问网易云社区,了解更多网易技术产品运营经验. 中央电视台<经济半小时>栏目 3月30日,中央电视台<经济半小时>栏目讲述了网络上的一个顽症--色情内容.在这期主题为< ...

  6. LG、大宇、甲骨文、赛福时、贝宝、Kate Spade、长城汽车等公司高管变动

    LG.大宇.甲骨文.赛福时.贝宝.Kate Spade.长城汽车等公司高管变动情况. 全球 LG集团 韩国LG集团名誉会长具滋暻14日去世,享年94岁.具滋暻生于1925年,是LG创始人具仁会的长子, ...

  7. sharepoint 2010 培训公司课程内容

    sharepoint 2010 培训公司课程内容:用之学习参考,引导. 1>sharepoint 2010开发概述; 2>VS2010 开发SHAREPOINT 2010; 3>sh ...

  8. 波音、优步、软银、日产汽车、泰康保险、美团、伯克希尔、日本邮政等公司高管变动情况...

    波音.黑石.伯克希尔.优步.软银.日本邮政.日产汽车.阿联酋航空.泰康保险.美团.淡水河谷等公司高管变动情况. 全球 波音 波音公司(Boeing Co.)现任首席执行官(CEO)穆伦伯格(Denni ...

  9. 【爬虫】用Python爬取公司年报1

    [目标]爬取公司年报 公司列表: bank_list = [ '中信银行', '兴业银行', '平安银行','民生银行', '华夏银行','交通银行', '中国银行', '招商银行', '浦发银行', ...

最新文章

  1. 计算机通过路由器连接打印机共享的打印机,如何利用无线路由器进行打印机共享访问操作...
  2. 微型计算机与维修自测,微机系统及维护第三章自测.doc
  3. 科大星云诗社动态20210813
  4. 解决ftp上传connection reset错误
  5. python 并发访问数据库_【数据库】如何实现python3实现并发访问水平切分表
  6. python type error是什么意思_Python-TypeError:“ int”对象不可调用
  7. 【基础数论】欧拉函数
  8. 如何使用本地账户完整安装 SharePoint Server
  9. java -- 对Map按键排序、按值排序
  10. 阶段5 3.微服务项目【学成在线】_day03 CMS页面管理开发_07-新增页面-前端-页面完善...
  11. 【转】博客美化(6)为你的博文自动添加目录
  12. 计算机主机技术标准规范,数据中心机房建设,需要依据哪些国家标准和行业标准或规范?...
  13. JVM(十) - 性能调优
  14. rm安全删除(一条命令变rm为mv)
  15. adb 查看屏幕大小_Android adb获取屏幕分辨率
  16. 树莓派4B最新系统bullseye更换国内源方法
  17. 计算机网络高级教程.pdf,网络技术-计算机网络(高级教程).pdf
  18. Android DataBinding学习和实践(二)
  19. python脚本模式_python脚本怎么执行
  20. php 后缀文件怎么打开,php是什么文件格式,php扩展名文件如何打开?

热门文章

  1. 基于Android实现的锁屏软件APP
  2. minecraft正版整合包服务器,Minecraft Pro
  3. SS00007.algorithm——|ArithmeticMachine.v07|——|Machine:监督学习算法.v06|
  4. android 桌面快捷方式,Android应用开发之(如何自动在桌面创建快捷方式)
  5. inter cpu 测试软件,Intel官方CPU检测工具
  6. jscript.dll 加载失败
  7. 运行VUE项目时,出现npm ERR! A complete log of this run can be found in:...报错
  8. 以色列农业里的生态性-丰收节贸易会:在死海谋定活水
  9. poj 2228 Naptime(DP的后效性处理)
  10. 家电类CCC认证流程