量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。

量化投资与机器学习公众号 独家解读

量化投资与机器学公众号  QIML Insight——深度研读系列 是公众号全力打造的一档深度、前沿、高水准栏目。

公众号遴选了各大期刊前沿论文,按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章,愿与你共同进步!

本期遴选论文
来源:Journal of Financial Economics 145 (2022) 64–82
作者:Markus Leippolda,Qian Wanga,Wenyu Zhou
标题:Machine learning in the Chinese stock market

Gu(2020)在The Review of Financial Studies发表的Empirical Asset Pricing via Machine Learning中,详细实证了机器学习模型在美股市场的表现。结果表明,机器学习改善了对预期收益的预测,当应用于投资组合构建时,性能的改善在更复杂的模型中表现得最显著,这在很大程度上是由于机器学习模型考虑到了因子间的非线性关系,而这些非线性关系是简单的方法所忽略的。

A股市场作为新兴市场,很多特征与发达市场有着明显的区别,主要有以下三点:

  • 以散户为主要投资者导致了A股市场的高换手率;

  • 大部分公司是国有控股企业;

  • 相对发达国家,更严格的做空机制(2010年开始才逐渐开始融券制度)。

基于以上的市场特征,并参考Gu(2020),作者主要探讨了机器学习的多因子模型在A股市场上的表现是否能够达到预期效果?哪些因子模型在A股市场上表现更优?不同的股票(国有/非国有,大盘/小盘等)是否有明显的区别?

数据和模型

本文使用了2000年1月至2020年6月的A股数据,并使用1年期国债利率作为无风险利率。一共使用了94个股票因子,11个宏观因子(具体见附注)。94个股票因子中,其中最后4个因子是描述股票是否属于某一类的哑变量因子,比如是否是国有控股公司(是为1,否为0)。最终输入到模型的因子数量是1160个,其中包括90个股因子(连续变量),90个股因子与11个宏观因子的乘积(90*11=990个),以及80个哑变量因子(包括行业分类等)共计1160个因子。

初始训练时间为2000-2008,验证集为2009-2011,测试集2012-2020。每次训练都用上一个月末的因子去预测股票下一个月的收益,验证集主要用于超参数优化。连续变量的因子在模型中以截面的Rank值作为输入。本文使用了以下模型,模型滚动训练,每一年重新训练一次。

  • OLS

  • OLS-3(只使用Size,BP及动量三个自变量)

  • PLS(Partial least squares)

  • LASSO

  • GBRT

  • RF(Random forest)

  • VASA(Variable subsample aggregation)

  • Enet(Elastic net)

  • NN1-NN5(1-5层的Neural network)

以上部分模型使用的超参数如下:

预测能力

样本外的预测能力主要采用R方进行评估,即样本外预测收益与实际收益的拟合度,如下式表示:

下表给出了所有模型在不同样本空间的R方表现,主要有以下几个发现,全样本(All)测试中的模型表现说明:

  • OLS模型的R方为0.81%,说明OLS还是有一定的预测能力。仅使用三个因子的OLS-3表现不如OLS,说明Size/BP/Momentum不足以构建预测模型。

  • 基于OLS的增强模型PLS/LASSO/Enet的R方均大于1%,RF/GBRT两个树模型和NN1-NN5五个深度神经网络模型的R方都超过2%,说明模型复杂度的提升带来了预测效果的提升。

A股全样本测试的结果,特别是GBRT的效果要比美国市场的表现好的多。这可能是因为A股市场的特殊结构导致的。接下来分别从以下角度进行对比测试:大盘股(Top 70%)与小盘股(Bottom 30%)、大股东股票(指股东平均持股市值前70%的公司,表中用A.M.C.P.S Top 70%表示)与小股东股票(表中用A.M.C.P.S Bottom 30%表示)及国有控股股票与非国有控股股票。

  • 表1 的结果表明,模型在小市值股票中的表现更优。

  • PLS、RF及NN模型在小股东股票的表现更优。OLS-3在小股东股票样本中比在大股东股票样本中表现更差,这意味着传统的三因子模型可能不适用于中国的小股东股票。

  • 预测国有企业的收益需要一种高度灵活的方法,能够更有效解释非线性效应。这种额外的复杂性可能是必要的,因为国有企业由国家控制,有两个主要目标:创造利润和执行国家政策。然而,我们的研究结果与早期的研究结果形成了对比,这些研究认为,由于中国国有企业的财务不透明和股价的低信息化,预测其股票收益并不容易。

  • 树模型和神经网络,在中国股市的样本外R方表现令人满意。此外,我们的分析揭示了中国股市不同于Gu等人(2020)研究的美国市场的两个重要特征。首先,几乎所有模型都能更好地预测中国市场上小股(非国企)股票的月收益,而不是大股(国企)股票。其次,神经网络可以跨不同的子样本提供健壮的性能。

因子重要性

我们一共使用了94个股因子和11个宏观因子,采用以下方法测试因子在模型中的贡献度:将目标因子的值全部设定为0,并计算模型R方的下降程度,以此判断该因子对于模型的重要程度。下表是11个宏观因子在各模型中的重要程度。

总体而言,我们发现infl和ntis是预测中国股市月收益的两个最具影响力的宏观经济变量,尤其是神经网络。另一方面,股息价格比率(dp)、市场波动率(svar)、每股总收益(ep)、期限息差(tms)和市场流动性(mtr)不那么重要,因为它们被大多数模型忽略了。

下图给出了90多个个股因子在各模型中的重要度(颜色越深越重要),我们发现:

  • 我们发现与市场流动性相关的股票特征在预测中国股市时最有用,如流动性波动率(std_dolvol和std_turn)、零交易天数(zerotrade)和非流动性测度(ill)是最显著的预测因子。

  • 第二组有影响力的因子包括基本面因子及估值比率,如行业调整后的资产周转率变化(chaotia)、行业调整后的员工变化(chempia)、总市值(mve)、近期盈利增长数(nincr)、行业调整后的利润率变化(chpmia)和行业调整后的账面市值比(bm_ia)。

  • 第三组由风险指标组成,包括特殊收益波动率(idiovol),总收益波动率(volatility)和市场beta (beta)。

  • 我们还观察到,神经网络模型(NN1-NN5)、正则化线性模型(PLS、LASSO、Enet)和VASA倾向于选择一组类似的因子。

  • 树模型,包括GBRT和RF,比其他模型倾向于选择更广泛的特征集,这也在Gu等人(2020)中观察到。同样,流动性变量和基本面因子是GBRT和RF最重要的两组预测因子。

样本外收益

下表给出了月度分10组调仓,多空和纯多的收益统计及累计收益曲线(费前收益),我们在图5和表6中的结果证实了Gu等人(2020)的发现,即神经网络优于他们研究中考虑的所有其他模型。对于多空组合,我们得到的中国股市的夏普比率远高于Gu等人(2020)发现的美国股市的夏普比率。例如,NN3在中国市场上给出的最高夏普比率(SR= 3.45)是NN4产生的最佳夏普比率(SR= 1.35)的两倍多。如上所述,由于交易限制,多空策略几乎不可行,因此我们在解释这些结果时很谨慎。同时,只做多的投资组合夏普比率最高为1.76,仍高于美国市场的多空策略。鉴于这种高水平,在更现实的假设下评估只做多的投资组合的表现至关重要。

在表10中,我们报告了包括不同交易成本水平时的月收益和夏普比率。事实证明,由于我们的策略使用频率较低,这些投资组合仍然提供了可观的、经济上显著的表现。对于我们的基准策略NN4,当我们假设往返成本为80个基点时,在极端情况下,多空设置中的夏普比率从2.91下降到2.34。使用更现实的20个基点的假设,夏普比率仅下降到2.76。对于只做多策略也可以得出类似的观察结果,从实践者的角度来看,这更相关。对于只做多策略,在假设80个基点的情况下,夏普比率从1.68下降到1.46。因此,我们的交易成本分析表明,即使在交易成本规模的保守假设下,不同策略的表现仍然具有经济意义。

总结

本文研究了几种机器学习方法对中国股市的预测能力。我们发现,最关键的因子是基于流动性的因子。让我们惊讶的是,基于趋势的因子只发挥了次要作用。我们的结果还表明,基本面因子是第二大最关键的因子类别。我们还发现,散户投资者的短期主义在短期投资范围内产生了可观的可预测性,特别是对小股。与此同时,由于政府信号在中国市场扮演着如此重要的角色,我们观察到国有企业在较长时期内的可预测性大幅提高。

我们的投资组合分析表明,短期内的高可预测性转化为多空投资组合的高夏普比率。特别是神经网络和VASA在2015年中国股市暴跌期间也提供了强劲的表现。然而,在中国市场做空股票是不现实的。因此,我们也分析了只做多的组合,发现业绩仍然具有经济意义。

文章下载:

https://www.sciencedirect.com/science/article/pii/S0304405X21003743?via%3Dihu

参考文献

  • Gu, Kelly, Xiu, 2020 S. Gu, B. Kelly, D. Xiu “Empirical asset pricing via machine learning”

  • Rev. Financ. Stud., 33 (5) (2020), pp. 2223-2273

A股市场机器学习多因子模型实证相关推荐

  1. Fama-French 三因子模型在A股市场的实证研究

    https://uqer.io/community/share/5784b3d1228e5b8a09932d9e Fama-French 三因子在A股市场的实证研究 Fama-French三因子模型无 ...

  2. Barra模型初探,A股市场风格解析

    >>> 引言 本篇内容是参考方正金工研究报告"星火" 多因子系列报告的第一篇<Barra模型初探,A股市场风格解析>,下面将对Barra模型的基本原理 ...

  3. 波动率因子在中国A股市场的表现——从波动率异象出发

    引言 >>> 研究目的 本文参考民生证券因子专题研究四<低波动异象:解析.改进及成因实证>内容,对波动率因子进行探索.在量化投资的领域,波动率是最常见的选股因子之一.全球 ...

  4. 全市场等权中位数_A股市场周内效应研究

    引言 >>> 研究目的 本文参考东吴证券研报<A股市场的周内效应>内容,对A股市场的日历效应在周内表现进行探索.日历效应,是一个鱼龙混杂的题目.有诙谐逗笑的,如马克吐温老 ...

  5. python抓取A股市场历史数据(个股、指数)

    @抓取金融市场数据 A股市场的关键数据 如果不是做短线,在一天内拼瞬时交易锁定投机收益.那每天只取一份数据就可以,用长时间的历史数据做决策分析(机会选择.持有收益计算,及交易策略的评估). 个股数据与 ...

  6. 表示学习的挑战:三场机器学习竞赛报告Challenges in Representation Learning: A report on three machine learning contests

    摘要(Abstract) ICML 2013代表挑战研讨会学习3个主要关注三个挑战:黑盒学习挑战.面部表情识别挑战和多模态学习挑战.我们描述了为这些挑战创建的数据集,并总结了竞赛的结果.我们为未来挑战 ...

  7. 聊聊A股市场反映情况

    聊聊A股市场反映情况 2021-11-08 价值投资看人性 价值投资看人性 最近的市场表现不温不火, 我们 不能坐以待毙,毕竟现在这样的下跌,只为了以后有更高的一个上涨空间形成 ,现在上涨指数下跌到3 ...

  8. A股市场全景分析系列—行业板块和热门概念RPS排名

    说明 股票分析应该遵循先大后小.先宏观后微观的原则,先分析整体市场的趋势,然后挖掘当前的热点概念板块,最后聚焦到强势股中. 当前市面上有各种各样的指标,我理解的是任何指标都有它的适用场景.我们应该深入 ...

  9. 一个文科生,用Python检验CAPM模型在A股市场的有效性,老师期末给了95分

    提示:文章内容主要来自<金融统计分析>课程的课题作业. 文章目录 文章目录 前言 一.检验方案简述 二.实现步骤 1.数据获取 2.数据整理 3.一阶回归与个例展示 4. 二阶回归 总结 ...

最新文章

  1. 为什么有的人喜欢看烧脑剧?
  2. 比较两篇文章的相似性
  3. 获取input内容并回填_超详细的软件测试内容实战
  4. 演练:创建和使用静态库 (C++)
  5. 业务技术协同线上化的研发管理实战
  6. adf开发_在EL表达式中引用ADF Faces组件
  7. 54include对象
  8. ubuntu 安装过程所需软件
  9. linux找到占用空间比较大的文件夹并按大小排序输出
  10. 从零开始学keras之kaggle猫狗识别分类器
  11. Zookeeper集群搭建(涵盖命令详解)与Error contacting service. It is probably not running的问题解决
  12. (二)、WCF通道模型
  13. 极客学院30天免费vip
  14. windows 安装 perl 教程
  15. 何凯明最新一作:Masked Autoencoders Are Scalable Vision Learners
  16. 分享java50道基础面试题(有答案)
  17. 卸载mac的flash player
  18. 不要让刷单限制了你的运营能力,零基础店铺流量爆发技巧!
  19. Apollo星火计划学习笔记——第八讲Apollo控制模块解析与实践1
  20. GlobalSign即将停止签发SHA1代码签名证书

热门文章

  1. kip6000打印服务器系统安装,KIP6000驱动安装步骤.
  2. 基于51单片机的电梯控制器设计资料全套。
  3. .NET Core 和 .NET Framework 中的 MEF2
  4. Windows10 锁屏界面黑屏,无法显示图片——解决方法
  5. 精致好看的真无线耳机,音质也不错,JEET ONE升级版上手
  6. 程序员的乐趣,生成自定义二维码,5行Python代码就解决
  7. 透过TCP/IP看HTTP
  8. 1131 Subway Map
  9. 钱币兑换 C/C++
  10. 开发人员360杀毒软件的配置