1. 说明

 FDDC2018金融算法挑战赛01-A股上市公司季度营收预测,是天池最近的一个算法比赛,7月15是初赛提交的deadline,就最后两天了,也没法做得太细,看看怎么用最短的时间,抓住最关键的值,搭个简单的架子。

2. 数据分析

1) 预测目标

 2018年二季度的营业收入。

2) 已知数据

 题目提供的除了报表数据,提交格式以外,还有一些说明文档,这些文档都需要看一遍,很多对题目的疑问都可以从中找到答案。

3) 分析

 营业收入REVENUE在利润表Income_Statement.xls中,先来看看这个文件,它把金融,保险,银行和一般工商业分成四个sheet分别存放。
下面分析一下其中占比最高的一般工商业(General Business)公司,数据约20万条左右。涉及3500多家公司。时间范围是2009年4月到2018年7月。
一般报表中的所有项目都是一起发布的,所以预测营收时,同期的其它数据也不知道。相对于用上期的其它数据预测本期的营收,还不如用历史的营收数据预测本期营收。
 于是最简单的方法就是将其视为一个时间序列问题处理。用往期的营收,预测当期的营收,还可以参考:同比,环比作为对预测的验证。

4) 统计

 画个直方图看看每支股票对应多少条数据,如下图所示,多一半的公司数据条数在80条左右,从2009-2017约十年时间,每年四季度出四个报表,再去掉约一半的修正数据,也就是说一半以上的公司包含十年以来的全部数据。

 本来是想:将数据周期在5年以上的,使用周期趋势的预测方法,2-5年的,用同比预测(参考去年同期);2年以下的用环比预测(参考前一季度)。后来一看,需要预测的1500支股票,基本没有少于4年的,看来是多虑了。于是直接使用周期趋势的预测方法。

3. 处理缺失处理

 数据有一些重复的情况,比如某支股票N在2017年一季报有两条,且数据不同,这是由于表中包含了起始发布的数据,和后来修改的数据,采取的方法是:最后发布的数据,还有一些重要,因为时间有限,暴力地使用了drop_duplicates。
 另外,有一些月份数据缺失,按缺失数据的多少,参考同比、环比或者用均值填补,当然如果有时间,也可以在网上抓数据填充。主要是注意不要错位,导致周期混乱。我这次由于使用的是prophet模型,所以不存在这种问题,如果复赛平台不允许使用该库,就需要手工处理了。

4. 拟合时间序列曲线

 先找一个比较有规律的,比如000009,方法是做log1后用Prophet模型回归。下图是对之后的三个季度做了预测。其中黑色点是实际值,蓝线是预测值,看起来还可以。

 Q1是一季报,半年报S1包含了一二季,Q1包含了前三季,A是全年营收,一般来说,只把单个季度作为单位预测会更加准确一些,但本次我没做那么细。
 模型使用的是Prophet,这个实在是特别简单。我觉得用其它方法真的很难在几个小时内完成一个比赛。预测1500个数据,我的机器大约训练半个小时左右。

5. 题外话

 看到这个题好长时间了,但评测的次数太少,少了很多刷榜的的乐趣,所以直拖到了截止日期的最后两天才开始写,核心代码100多行,天太热,不想弄了,提交参与一下,顺便分享给大家,算是抛砖引玉吧。
 虽然没花太多时间写代码,却也在这一个月里读了一些关于财报的科普书《手把手教你读财报》,《一本书读懂财报》,加上之前学过会计,对三张表有了些基本的了解。说实话,我觉得这两道股票相关的题出得也不是特别走心,像本题给出的数据,很容易从网上抓到。在其中主要以学习业务逻辑为主。除比赛以外,主要希望对之后的股票操作有一些帮助。
 明天最后一天,各位加油哦!

实战A股上市公司季度营收预测相关推荐

  1. 竞赛资讯|A股上市公司季度营收预测

     (本内容转载自公众号"科技与Python") A股上市公司季度营收预测 大赛背景 在金融领域,每24小时都会产生大约2.5亿字节的数据,早已超过人脑处理的极限,面对全球百万亿美元 ...

  2. FDDC2018金融算法挑战赛01-A股上市公司季度营收预测

    天池大赛链接 我所用到的数据 1.income_gb_2代表的是我从天池原有的income_statement中的general business导出的,balance_gb_2和cash_gb_2 ...

  3. A股上市公司营收预测

    A股上市公司营收预测 前言 背景 人员介绍 数据理解 数据准备 翻译利润表的变量名(吃了文化亏) 通过spss statistisc的自动线性建模分析出影响到营业收入的10个变量 建模(乱建的模) 模 ...

  4. 可口可乐公司2020年四季度营收86.1亿美元,每股收益高于预期

    美国时间2月10日,可口可乐公司发布2020年第四季度及全年财报.财报显示,可口可乐公司第四季度营收为86.1亿美元,符合市场预期:经营利润为23.4亿美元,同比增长8%:每股收益为0.47美元,高于 ...

  5. 2018财年微软游戏业务营收首超100亿美元 占公司总营收9.4%

    在截至6月30日的2018财年里,微软游戏业务营收首次超过100亿美元,占公司总营收的9.4%.自世纪之交以来,微软就一直从事游戏业务.从财务角度来看,该业务对公司很重要. Xbox游戏机和在线服务的 ...

  6. 【产业互联网周报】外媒:英特尔等公司暂停向俄罗斯发货;阿里云季度营收195亿元;第四范式再次提交上市申请...

    [产业互联网周报是由钛媒体TMTpost发布的特色产品,将整合本周最重要的企业级服务.云计算.大数据领域的前沿趋势.重磅政策及行研报告.] 行业动态 外媒:英特尔.戴尔及联想等公司暂停向俄罗斯发货 据 ...

  7. 蔚来汽车哭诉没钱赚,大宗商品成本上升,下调第二季度营收预测,

    中国电动汽车制造商蔚来汽车今天公布了截至2022年3月31日的第一季度财务业绩,亏损额同比增长295.3%至2.812亿美元. 本季度总收入为99亿美元(15.6亿美元),同比增长24.2%,比202 ...

  8. 台积电一季度营收接近170亿美元 再创新高

    4月9日消息,据国外媒体报道,从公布的月度营收数据来看,晶圆代工商台积电今年一季度的营收,接近170亿美元,达到预期,也再次创下新高. 台积电官网公布的数据显示,他们在今年前三个月共营收4910.76 ...

  9. IBM连续20个季度营收下滑,但这可能是个好信号

    深陷转型泥潭的IBM还是没能彻底走出困境,但最起码,断腕求生的策略还是正在起到效果. 4月19日,IBM发布了2017年第一季度财报,IBM第一季度营收为181.55亿美元,比去年同期的186.84亿 ...

最新文章

  1. 云场景实践研究第85期:墨迹天气
  2. 吴恩达机器学习笔记:(四)矩阵、多元梯度下降
  3. VTK:PolyData之ThresholdPoints
  4. OpenCV平滑图像Smoothing Images
  5. RabbitMQ入门(五)-Topics(主题)
  6. 20分钟打造你的Bootstrap站点
  7. 摆摊吗?我卖锅,你修手机。
  8. mssql sqlserver 不固定行转列数据(动态列)
  9. 开发语言大爆炸的时代,究竟谁主沉浮?
  10. vuex从安装到使用
  11. gdb 调试打印完整字符串
  12. Android6.0 camera个数探测
  13. Java Word工具类--之Gradle项目创建
  14. 计算机打印机能不能取消正在,打印机怎么取消正在排队打印的任务? 打印机删除打印任务的教程...
  15. linux中下载nali + 配置golang环境
  16. c语言指数公式_c语言指数函数详解
  17. 情人节之Python版冰墩墩
  18. Android Studio 作业 BMI 计算器
  19. 阿里云数据盘挂载完整过程
  20. 块存储、文件存储、对象存储这三者的差别

热门文章

  1. git 放弃本地操作,直接更新拉取远程最新代码
  2. Idea打开多个项目文件时,不自动识别maven项目
  3. MRTK眼动追踪教程
  4. 【正点原子Linux连载】第三十八章 根文件系统构建 -摘自【正点原子】I.MX6U嵌入式Linux驱动开发指南V1.0
  5. 软考(计算机技术与软件专业技术资格)简介
  6. mjpg-streamer-r63 交叉编译成功 RT5350
  7. 日程管理app(bug report)
  8. 电机测速传感器槽型光耦模块的使用(stm32)
  9. Navicat Premium for mac V12.1.15破解版下载
  10. (操作系统)中断机制