转 如果我们能正确预测基本面因子https://blog.csdn.net/myquant/article/details/86217033作者:石川,量信投资创始合伙人,清华大学学士、硕士,麻省理工学院博士;精通各种概率模型和统计方法,擅长不确定性随机系统的建模及优化。知乎专栏:https://zhuanlan.zhihu.com/mitcshi。未经授权,严禁转载。
摘要:使用历史基本面信息来预测未来的基本面,并基于预测值选股;如果能够预测准确,便可在价格修正以反映最新的基本面时获得超额收益。
1、引言
基于基本面的量化多因子选股一直是市场中研究和实践的重点,其核心逻辑是找到并配置能够预测股票未来收益率的因子。随着机器学习技术的飞速发展,越来越多的先进算法(比如各种神经网络)被用于挖掘基本面因子和股票未来收益率之间的非线性关系。
诚然,股票的价格和上市公司的基本面密切相关。但是在选股时,我们很难准确判断模型的有效输入。对于投资这种开放性问题,大千世界的任何信息都有可能会对决策产生影响,信息量巨大而信噪比极低。
如下图所示,基本面信息仅仅是现实世界全部信息的一小部分,其中还包含了大量的无用噪音甚至是虚假、错误信息。股票未来的价格反映了全部信息中的一小撮有用信息;然而具体哪些信息有用是未知的,该信息和基本面信息有交集,但后者远飞前者的全部。直接使用基本面信息来选股(即预测股票未来的价格或收益率)将受到高信噪比的影响。
此外,虽然市场上存在一些异象无法被有效市场假说(EMH)解释(它们源自行为金融学中的各种认知偏差),但 EMH 仍然在大部分时间相对有效,是主宰市场的第一范式。这就意味着最新的基本面信息已经一定程度上反映在价格之中了;再使用它们来预测未来的价格,其效果会打一定的折扣。
为了应对上述种种困难,学术界和业界在最近几年提出了一个新的思路(如下图所示):使用历史基本面信息来预测未来的基本面,并基于预测值选股;如果能够预测准确,当最新财报被公布的时候,价格发生修正以反映最新的基本面信息,使得那些提前布局的投资者获得超额收益。
这种做法背后的假设是能够通过历史基本面信息预测出未来的基本面。我对此的看法是,这绝不容易,但与使用历史基本面信息预测未来收益率相比,它背后的逻辑更直接、纯粹,而不像基本面和收益率之间还隔了一层。由此可以猜想,过去和未来基本面之间的信噪比比过去基本面和未来价格之间的信噪比更高。
本文的目的有如下两个:
1. 海外的业界基于上述思路,通过机器学习算法预测未来基本面信息、提出了前视因子模型(Lookahead Factor Model,LFM)的概念。本文对这个方法进行简要介绍。
2. 本文的题目中用了“如果”(if),而不是“如何”(how)。我希望首先定量探讨通过预知未来 —— 完美以及不完美的情况下 —— 能否带来超额收益。只有这个 if 的前提成立了,以后的 how 才有意义(而且这个 how 也并不一定非要通过机器学习实现)。在这方面,本文基于中证 500 做一些简单实证。
下面首先来看看 Lookahead Factor Model。
2、Lookahead Factor Model
2017 年,Alberg and Lipton (2017) 在 NIPS Time Series Workshop 上报告了一篇题为《Improving factor-based quantitative investing by forecasting company fundamentals》的文章。本节对它做简要介绍。
之所以不花太多的篇幅,是因为这毕竟不是发表在 NIPS 正会上的,而且它仅仅是一个 poster session,文章本身也很短,所以其效果的可靠性仍有待检验。但我仍希望它能给小伙伴们带来一些启发。
Alberg and Lipton (2017) 的研究动机是观察到,如果能够开天眼知道未来一段时间的基本面信息(包括 Book-to-Market、EBIT/EV、Net Income/EV 以及 Sales/EV 这些),并通过它们来选股,则可以在美股上获得更高的收益,且预知未来的时间越长(用 months of clairvoyance 表示)收益越高(下图)。
以此为动机,他们使用了 Multilayer Perceptrons(MLPs)以及 Recurrent Neural Networks(RNNs)两种算法构建了预测模型,使用历史基本面信息来预测未来的基本面信息。
在回测中,二位作者使用了 1970 年 1 月至 2017 年 9 月 NYSE、NASDAQ 以及 AMEX 上的股票(排除了非美国的公司、金融行业公司以及超小市值公司)。模型的输入特征包括 16 个基本面变量和 4 个价格时序变量(全部是动量类的)。这 16 个基本面特征包括:
1. Revenue (TTM);
2. Cost of good sold (TTM);
3. SG&A (TTM);
4. EBIT (TTM);
5. Net income (TTM);
6. Cash and cash equivalents (当季);
7. Receivables (当季);
8. Inventories (当季);
9. Other current assets (当季);
10. PP&E (当季);
11. Other assets (当季);
12. Debt in current liabilities (当季);
13. Accounts payable (当季);
14. Taxes payable (当季);
15. Other current liabilities (当季);
16. Total liabilities (当季)。
在建模时,所有特征均经过必要的标准化处理;整个回测期被分为样本内(1970 - 1999)和样本外(2000 - 2017)两部分;样本内被进一步分为 training set 和 validation set 两部分。Alberg and Lipton (2017) 使用样本内的 validation set 确定模型的超参数 —— 包括 learning rate、model architecture、objective function weighting —— 以及 early stopping criteria。
为了解决 RNN 容易过拟合的问题,Alberg and Lipton (2017) 特意指出他们的模型是多任务学习,同时预测 16 个基本面指标;损失函数为预测值和实际值之间的均方误差(MSE)。不过作者也指出,在全部 16 个基本面指标中,他们最终用来选股的是 EBIT/EV,因此在损失函数中对该项赋予了更高的权重。
实证结果显示,基于神经网络的复杂算法在样本外取得了比 naïve 算法(即使用当期数据猜下一期)更低的MSE。相比 S&P500 指数本身以及传统的因子选股(基于当期 EBIT/EV 选股),两个 lookahead factor models 都取得了更高的年化收益率和夏普率(下表)。
以上就是关于 Alberg and Lipton (2017) 这篇文章的简要介绍。国内的一些量化论坛基于该方法在 A 股上做了实证,感兴趣的朋友可以找来看看。
3、假如开天眼
本节和下一节来回答本文关注的 if 问题。我们以中证 500 成分股为选股池,回测期为 2009 年 12 月到 2018 年 12 月,选择 Earnings per Share (EPS) 作为目标基本面因子来考察成功预测未来 EPS 能否获得超额收益。
首先,来看看常规做法:每月末按最新 EPS 数据选取该指标最高的 20 支股票等权配置,按月调仓,不考虑任何交易成本。该选股的效果如下。
接下来,假设开天眼已知未来一个月的 EPS,并基于此选择 20 支 EPS 最大的股票等权配置、按月调仓。该策略的表现如下。
将这两个选股策略和中证 500 指数本身放在一起比较,高下立判。无疑,EPS 本身是一个非常优秀的选股因子,而如果能预知未来 EPS 则可以获得更大的优势、更高的收益。
发生这种现象背后的原因是什么呢?
下图显示了使用当期 EPS 选股时,回测期内每月平均换股的数量。其中变化最多的是五月份。这是因为上市公司需要在每年 4 月 30 日之前披露上一年的年报。因此在每年四月底,使用最新披露的 EPS 选出的股票往往较之前的选择有较大变化,这便解释了五月份的持股较四月份的持股变化最大。其他月份的股票变化和季报、中报披露以及中证 500 调整成分股有关。
类似的,下图显示了使用下个月 EPS 选股时,每月平均换股的数量。比较这前后两张图,其中最大的区别就是正常情况下五月份的变化提前在四月发生(因为我们假设在三月底就知道四月最新披露的 EPS 中最大的股票)。
对比使用当期 EPS 选股和使用未来 EPS 选股的每月平均收益率,可以看到前面提到的这种前移带来的巨大差异。正如下图所示,开天眼(图中 Oracle)选股的四月份收益率较正常(图中 Regular)选股的收益率有巨大提升。此外,开天眼选股在八月份也有巨大的提升(8 月 30 日是中报披露的截止日期)。
以上结果说明,如果能准确的预测并使用未来的 EPS 选股,确实能够获得更高的收益。不幸的是,现实中我们不能开天眼。
4、不完美预测能否带来提高?
第三节的结果仅仅是一个美好的愿景。在实际中,即便能够在一定程度上预测未来的 EPS(或其他基本面信息),其准确性也难以保证。在不完美的预测下,这种努力是否能够带来超额收益呢?这就是本节探讨的问题。
以开天眼的结果作为 EPS 选股的标准答案,可以计算出使用历史 EPS 选股的错误率。从下图不难看出,由于基本面指标变动的频率较低,在很多没有新信息披露的月份里,选股的错误率也很低,但是这并没有什么作用(这一点在构建损失函数的时候值得考虑)。起决定性作用的是错误率高的那些月份。
上一节的分析指出,使用未来 EPS 选股的优势在于提前知道年报和中报(特别是前者)中最新的 EPS,因此四月和八月贡献了巨大的超额收益。观察上图不难发现,使用历史 EPS 选股时,四月份的错误率也是全部十二个月份中最高的。下表统计了回测期内每年四月和八月使用历史 EPS 选股的错误率。
由此可见,预测 EPS 的努力可以考虑以降低四月和(或)八月选股的错误率为目标。为了回答“不完美预测能否带来提高”这个问题,首先考虑四月为目标并按照以下逻辑进行仿真实验。
对于给定的正确率 c,在回测中每年的三月底从四月 EPS 最高的 20 支股票中随机选出 20 × c 支,作为预测模型正确的部分;从剩余 480 支股票中随机选出 20 × (1 - c) 支作为预测模型错误的部分;如此便完成一次选取(这是一个非常粗糙的处理方式,因为从剩余 480 支股票中随机选出的可能是 EPS 非常差的股票;实际的预测模型 —— 无论是机器学习或者其他方法 —— 应该会比这种处理好一些)。为了降低随机性的影响,在每个四月进行 100 次仿真,取它们的平均值作为正确率 c 下该预测模型的选股结果,以此考察 EPS 预测正确率和选股效果的关系。
下表中 Panel A 展示了四月份 EPS 预测不同正确率下选股的效果。结果表明,随着正确率的提升,收益率和夏普率逐渐增加,选股效果远强于使用当前 EPS 的表现(使用当前 EPS 的年化收益率为 6.33%;夏普率为 0.37)。同时也看到,即便是把正确率提高到 90%,其选股效果也显著弱于全部使用未来 EPS 的情况,这说明仅仅改进四月份的正确率是不够的。
上表中 Panel B 展示了同时提高四月和八月正确率的结果。随着年报和中报披露月份的同时改进,选股效果较 Panel A 中的结果进一步显著提升。当然,我们也必须注意到,正确率的边际效应在逐渐减小。上述结果留给我们的启发有以下两点:
1. 以月频进行基本面预测时,应该着重考虑年报和季报集中披露的月份的正确率;
2. 正确率对选股效果提升的边际效应逐渐减弱,当对重点月份预测的正确率提高到一定水平后,可考虑提升其他月份预测的正确性。
从实证结果来看,即便是不完美的预测也是值得尝试的。
5、结语
上周的文章中提到了“预期差”的概念 —— 如果我们能找到市场中的预期差,便可以利用它来获得超额收益。本文提到的准确预测 EPS 其实质也是提前捕捉预期差,等待价格向价值修正。
想再次强调的是,针对预测基本面这个话题,本文探讨的是 if 的问题,而不是 how 的问题,并通过实证给出了预测中一些可能需要关注的地方。在 how 的问题上,希望文中介绍的 Alberg and Lipton (2017) 给大家提供一些思路。
在基本面的预测方面,无论采用什么方法,预测准确才是最关键的。这就是为什么优秀分析师的盈利预测(一致预期数据)是很值钱的,因为这些数据确实能够带来 α。只不过很多时候,这些 α 的成本太高了。这就给了机器学习契机。希望在未来能够看到学术界和业界在这方面的更多突破,将先进机器学习算法运用到上市公司财务数据的预测中,为低成本的获取 α 提供新的可能性。
参考文献
Alberg, J. and Z. C. Lipton (2017). Improving factor-based quantitative investing by forecasting company fundamentals. NIPS Time Series Workshop 2017 (https://sites.google.com/site/nipsts2017/accepted-papers), available at https://arxiv.org/pdf/1711.04837.
来源:量信投资   
--------------------------------------------------------------------------------
拓展阅读:
1.多因子选股之有效因子
2.多因子策略之冗余因子 
3.多因子选股之策略的实现
4.多因子选股(股票)  量化策略源码

分享资料:

链   接 : https://pan.baidu.com/s/1ihwAYjeMbq1RInmNKeRxqw

提取码: wwsc

  • 2020年脑机接口即将落地.pdf
  • 2030年科幻落地的前夜:人类如何应对机器觉醒.pdf
  • 3D深度视觉产业链全解读 TOF技术或成黑马.pdf
  • 5G技术将如何影响全球经济.pdf
  • AI三板斧_智东西出品.pdf
  • AI产业链解读:老美家大财厚 中国如何才能后发先至.pdf
  • AR红包技术层面全解读 引爆场景营销.pdf
  • CB Insights发布独角兽英雄榜 揭秘资本寒冬下的生存法则.pdf
  • CB Insights起底VC八杰 谁在做独角兽的幕后推手.pdf
  • CB Insight发布创业百强榜单 AI成功案例最强盘点.pdf
  • GfK 2017一季度VR零售市场报告 全面解读产业盈利模式.pdf
  • GFK中国VR零售市场调研报告 平价设备成主力军.pdf
  • GSMA移动经济发展态势全解读 亚太+5G成未来钥匙.pdf
  • IBM全面解读认知计算:IoT和AI并非全部 行业已经开始盈利.pdf
  • IDC:机器人3.0时代开启 细分市场兹待爆发.pdf
  • 联合国:2017全球投资报告.pdf
  • VR市场现状调研:启动期资金才是王道 2C应用五年内难有突破.pdf
  • VR开发者报告:不炒作!我们正经做生意.pdf
  • WEF 2017全球风险报告当平缓的经济撞上技术爆炸.pdf
  • 中国互联网单车租赁市场专题分析 资本驱动下的圈地战.pdf
  • 互联网迎来AI 时代,海外科技巨头争先布局.pdf
  • 产业链视角:怎样设计一款全面屏手机.pdf
  • 人工智能和工业4.0进行时 机器人创企50强都有谁?.pdf
  • 从苹果ARkit看AR未来的黄金五年.pdf
  • 企业AI转型价值详解:百亿资本催化的数字鸿沟.pdf
  • 企业数字化落地加速 下一波机遇在哪里?.pdf
  • 信通院物联网产业深度报告 平台化和数据服务即将爆发.pdf
  • 刘强东马云正面杠 新零售时代智慧物流平台战打响.pdf
  • 创业公司尸检报告:盈利模式错误 融资失败成致命打击.pdf
  • 剧透高通9150 C-V2X.pdf
  • 区块链+IPO靠谱吗?解密首次代币众筹的逻辑与隐忧.pdf
  • 区块链创投热潮力推技术转化 构建价值互联网.pdf
  • 千亿级智能安防市场解读:设备和技术都已经准备好了.pdf
  • 华为VR大数据:全面解读2C市场突破口和技术门槛.pdf
  • 国内AI技术发展快 资本寒冬不难挨.pdf
  • 埃森哲解读5G智慧城市 GDP狂增5000亿美元.pdf
  • 如何抓准新能源汽车蓝海的目标用户.pdf
  • 学院派发达国家是如何制定AI发展计划的?.pdf
  • 已有12+飞行器研发公司 NASA联手FAA推进航空商业化.pdf
  • 德勤技术趋势全面盘点:企业如何搭上现代化快车.pdf
  • 德勤物联网工业全解读:从“后知后觉”到“先见之明”.pdf
  • 战略解读:库克为何入局智能音箱.pdf
  • 截至2030年技术爆发点全面预测 3D打印和人工智能火力全开.pdf
  • 捷孚凯3C市场报告:手机大卖电脑回血消费走向中高端.pdf
  • 摩根大通智能汽车百亿市场深度调研 看23家中国零部件制造商如何突围.pdf
  • 数字时代北京深圳创业最强 川渝地区或成第四极经济圈.pdf
  • 数据大象流对网络架构发起挑战 MR才是产业的未来 .pdf
  • 新能源后补贴时代 自主品牌的“野化”路.pdf
  • 新能源浪潮的第二大风口:电能存储.pdf
  • 无人机基站——应急通信新方案.pdf
  • 普华永道全球科技行业IPO回顾 独角兽缺席导致的冷场.pdf
  • 普华永道蓝皮书 全面盘点中国汽车市场新常态.pdf
  • 普华永道:15.7万亿美元AI市场的八大入口.pdf
  • 新能源后补贴时代 自主品牌的“野化”路.pdf
  • 智慧医疗是如何成为AI规模最大,增长最快的领域的?.pdf
  • 智能传感器:未来机器的感官 百亿美元的市场.pdf
  • 智能语音生态盘点:科技巨头战略布局 两大场景率先爆发.pdf
  • 智能音箱市场分析:为什么大家都在抢这个两亿小蛋糕?.pdf
  • 毕马威17Q1风投报告:正常化下的VC生存法则.pdf
  • 毕马威电子商务深度调研:中国成手机端网购大户 引领社交平台的品牌宣传.pdf
  • 毕马威颠覆性技术调研 841名高管共寻突破.pdf
  • 毕马威:20个痛点对策看懂金融科技.pdf
  • 深度学习成最大爆点 巨头们如何构建AI生态.pdf
  • 深度解读白宫58页AI白皮书:全面盘点技术、产业和战略.pdf
  • 深度:从供需革命看智能手机的七大发展趋势.pdf
  • 特斯拉现有及Model3潜在国产产业链梳理.pdf
  • 电子消费市场总值缩水又怎样 17年移动互联和可穿戴照样赚个盆满钵.pdf
  • 白宫再推人工智能白皮书 技术过渡期应如何应对工种转型.pdf
  • 突围新零售电商时代:移动为先 社交互动.pdf
  • 维度提升 AR 开启视觉入口时代.pdf
  • 美国信息技术产业委员会:14条人工智能政策准则.pdf
  • 联合国点名表扬:中国数字支付生态系统是如何实现领先的.pdf
  • 致企业管理者:下一场工业革命的十大原则.pdf
  • 解密:NB-IoT商用元年的背后推手都有谁?.pdf
  • 让李彦宏梭哈的AI+医疗有何神通 产业链报告解读万亿市场.pdf
  • 诚实回答:AI产业界现在,究竟在做啥?.pdf
  • 谈谈你们都在怕的国内AI人才缺口.pdf
  • 谷歌壕无人性收购史:14家公司,260.5亿美元.pdf
  • 谷歌自曝无人驾驶核心技术!700亿估值Waymo炼成之谜.pdf
  • 软银世界大会:一文读懂孙正义眼中的不久和将来.pdf
  • 量子计算创业盘点:无敌是多么寂寞.pdf
  • 阿里云服务战略解读:马云如何布张新零售包围圈.pdf
  • 高盛史上最全面AI产业盘点 深度解析背后技术.pdf
  • 麦肯锡中国市场调研:AI是科技板块的狂欢 传统行业的两难.pdf
  • 麦肯锡市场深度观察:如何电动汽车的销售和盈利.pdf
  • 麦肯锡深度解读中国AI路的三座大山预言五大战略重点.pdf

如果我们能正确预测基本面因子相关推荐

  1. 如果我们能正确测本因子

    转 如果我们能正确预测基本面因子 作者:石川,量信投资创始合伙人,清华大学学士.硕士,麻省理工学院博士:精通各种概率模型和统计方法,擅长不确定性随机系统的建模及优化.知乎专栏:https://zhua ...

  2. 基于财务预测的基本面因子的分析

    本文开发了一个上市公司财务预测模型,基于公司的(预测)财务数据构建基本面因子,进行因子有效性回测. 一 哪些基本面因子有效? 在电子元件制造-被动元件这个三级细分行业里面,成长性因子有效. ['成长性 ...

  3. 【转】几个期货基本面因子的研究

    @[几个期货基本面因子的研究 引言 随着传统中低频CTA策略的普及,尤其16年黑色的一大波行情后,越来越多的机构/个体都已经开始布局期货市场上的量化趋势策略,但不论是通道突破类策略.还是趋势指标.均线 ...

  4. 几个期货基本面因子的研究

    转 几个期货基本面因子的研究 引言 随着传统中低频CTA策略的普及,尤其16年黑色的一大波行情后,越来越多的机构/个体都已经开始布局期货市场上的量化趋势策略,但不论是通道突破类策略.还是趋势指标.均线 ...

  5. python随机森林回归预测股票,收益率做标签,基本面因子做特征

    从BP神经网络训练模型后,想着换个模型训练训练数据集,于是在SVM和随机森林中选择,最后选择了随机森林.随机森林的原理不在这里做详细解释,有大佬比我讲的要好太多.我仅仅是就这我的代码做一些解释. 导入 ...

  6. matlab 效度,如果某测验的效度系数为0.80,那么在实验中能够作出正确预测的比例是()...

    我国古代的丧服制,以祭奠死者时丧服的等差来区别亲属关系的亲疏远近,共分五等.大功的服期是(). 关于小儿液体疗法的叙述,正确的是: 基于复杂操作系统的嵌入式系统的主要特点有哪些? (10.0分) 22 ...

  7. 正确预测适合自己的职业

    职业经历: John是一所重点大学的硕士研究生,学计算机专业,07年毕业.他在去年年底的时候找到职业顾问咨询.John说"自己很擅长编程,在校时和老师做了一些项目,做得很好.快面临找工作了, ...

  8. 如果我们能正预基面因子

    转 如果我们能正确预测基本面因子 作者:石川,量信投资创始合伙人,清华大学学士.硕士,麻省理工学院博士:精通各种概率模型和统计方法,擅长不确定性随机系统的建模及优化.知乎专栏:https://zhua ...

  9. 如果们正预测基本面子

    转 如果我们能正确预测基本面因子 作者:石川,量信投资创始合伙人,清华大学学士.硕士,麻省理工学院博士:精通各种概率模型和统计方法,擅长不确定性随机系统的建模及优化.知乎专栏:https://zhua ...

最新文章

  1. mysql崩溃恢复过程_一起看下MySQL的崩溃恢复到底是怎么回事
  2. 深度学习(计算机视觉方向)小白入门的一些建议
  3. ML基石_10_LogisticRegression
  4. catia齿轮宏程序_Catia宏程序
  5. HSIC简介:一个有意思的判断相关性的思路
  6. 康乐php5.2_搭建PHP服务器调试环境套件下载-Easy2PHP5正式版下载[环境套件]-华军软件园...
  7. 在行进中开火 Fire and Motion By Joel Spolsky
  8. 从0.5到1写个rpc框架 - 2:远程服务调用(grpc)
  9. linux6磁盘绑定,关于Linux 6使用udev绑定共享磁盘的测试
  10. sqlyog设置自动补全_SQLYog快捷键大全
  11. jabber服务器搭建
  12. 【Cubieboard2】配置编译内核支持SPI全双工通信驱动
  13. POC原型开发:巡店
  14. nn.Conv1d 理解
  15. 办公室必备-上班偷看小说利器
  16. 洛谷P2634 [国家集训队]聪聪可可(点分治)
  17. 1w存银行一年多少利息_100万存银行,一年利息有多少?
  18. 动词的时态---将来时
  19. 安利一个非常好用的 echarts geojson 生成器
  20. liunx系统的常用命令【实用】

热门文章

  1. 身份证复印件的正确写法
  2. java8 collectors_java8的Collectors.reducing()
  3. 读书笔记 摘自:《为什么精英都是时间控》
  4. 安徽新科技计算机学校是高中吗,2021最新安徽高中排名一览表 所以高中学校
  5. 机器人的发展历史及未来发展趋势
  6. 知识图谱问答 | (3) 关系分类概述
  7. 生也有涯而知也无涯,以有涯应无涯,殆矣
  8. 尤雨溪:重头来过的 Vue 3 带来了什么?
  9. 血淋淋的经验!2021做亚马逊测评是搭上末班车?还是成为新韭菜?
  10. Android 蓝牙手柄 延迟,安卓免设置,0.15s低延迟,飞智银狐蓝牙耳机体验