本文由BigQuant翻译来自于MSCI研究,原文标题为《机器学习因子:在线性因子模型中捕捉非线性》

作者:George Bonne, Jun Wang, Howard Zhang

发表时间:2021年3月

概要

虽然机器学习(机器学习)算法已经存在了几十年,但最近它们在包括金融在内的许多领域受到了越来越多的关注,尤其是在解释资产回报的应用上。虽然线性因子模型多年来一直是理解风险敞口、风险和投资组合表现的重要工具,但没有哪一种模型是一成不变的,即因子敞口和回报之间的关系必须是线性的。

在这里,我们研究了在去除线性成分后,机器学习算法在多大程度上可以检测因子暴露和安全回报之间的关系中的显著非线性和相互作用。 通过使用简单的技术,我们之前证明了因子风险敞口和回报之间可能存在非线性关系,特别是在波动的市场条件下,动量和流动性因子(Wang, Yao和Bonne, 2020)。

在这项研究中,我们发现机器学习算法可以识别非线性关系,并可以用来构建一个具有显著解释力的因子。我们还确定了几个关键因子,它们显著影响机器学习算法解释安全回报横截面的能力,包括输入和因变量的标准化,以及将许多机器学习模型的输出平均到一个集成中。

为了深入了解机器学习算法识别出的关系,我们检查了部分依赖曲线(dependence curves)、特征重要性和交互效应。我们发现流动性和动量因子对机器学习模型的输出影响最大,并且它们的影响也与我们之前的研究一致。此外,我们发现因子之间的交互作用对机器学习模型的输出有显著影响。

我们在MSCI Barra全球股票交易模型(GEMTR, Morozov et al., 2016)中评估了我们的机器学习因子作为附加因子,发现在1998-2020全样本期间,它生成了所有GEMTR类型中最强的信息比率(IR)和因子回报。我们假设机器学习因子的强而一致的表现是由在一个因子中捕获许多小型非线性效应的多样化收益驱动的。

我们认为,使用机器学习技术构建的因素可能对只做多和多做空组合的组合构建过程有价值,并将帮助投资者理解和捕捉对业绩的非线性和交互影响。

介绍

多年来,线性因子模型被广泛用于理解投资组合风险和回报(Rosenberg, 1974)。这类模型中的大多数因子,如GEMTR,都是基于基本和直观的公司特征构建的,如行业成员、估值或其他财务比率、价格回报或波动性,甚至是基本指标的非线性转换(例如,对数或立方)。其他因子是用统计技术构建的,如主成分分析,但缺乏直观的解释。然后将产生的因子合并到一个线性模型中,该模型假设因子暴露和回报之间的关系是线性的。这种假设允许一个非常可解释和计算效率高的模型,但可能无法捕捉到非线性关系或因子之间的相互作用。

机器学习算法擅长拟合复杂的关系和变量之间的相互作用,它们也已经存在了几十年。例如,Breman(1984)描述了一般的基于树的方法,这些方法后来通过套袋和助推等技术得到了增强(Friedman, 2001)。第一个人工神经网络是由心理学家Frank Rosenblatt在1958年发明的,这些算法在图像识别、蛋白质折叠(protein folding)和语言翻译等多个领域都取得了成功。最近,人们对机器学习在金融领域的应用产生了浓厚的兴趣,尤其是在资产回报方面。例如,见Gu, Kelly and Xiu (2020);Dixon and Polson (2019);和Aw, Jiang and Jiang(2019)。

然而,如果所使用的数据包含很少的信号和大量的噪声,就像资产回报的情况一样,机器学习在拟合复杂模式方面的优势也可能是一个弱点。在这种情况下,机器学习模型最终可能会拟合更多的噪声而不是信号。然而,Lopez de Prado(2018)和Rasekhschaffe(2019)等人提出了在金融应用中使用机器学习同时最小化过拟合风险的框架和最佳实践。我们在研究中使用了许多这样的技术。

与Rasekhschaffe(2019)一致,我们的研究还表明,在应用于资产回报的机器学习模型取得的成功水平上,有一些细微差别可以发挥重要作用。这些细微差别包括特征工程(对原始输入特征进行标准化或转换)、因变量的标准化或分组,以及多个机器学习模型预测的集合平均。

机器学习技术的另一个缺陷是它们的黑箱特性。一个新的可解释机器学习领域已经出现,以减轻这一缺点。Li(2020)在汇率预测研究中利用可解释机器学习技术对模型进行分解,预测分为线性、非线性和相互作用分量。我们使用类似的方法来查看黑箱内部。

在使用机器学习识别非线性关系的过程中,我们研究了在多个维度上训练的各种机器学习模型的敏感性,这些维度包括复杂性参数、输入特征的重要性、因变量的比例、训练窗口和集成方法。在接下来的章节中,我们将检查这些敏感性以及产生的机器学习因子的性能,它们的稳定性以及与传统因子的相关性。

方法

我们的基线框架使用GEMTR的22种风格因子暴露作为机器学习算法的输入特征(注:参见Morozov等人2016年对GEMTR中所有22种风格因子的完整描述)。 风格因子暴露均标准化,约为[- 3,3](注:我们在每个日期对每个因子进行横截面标准化,方法是减去市值加权平均值,并除以剔除离群值后的MSCI ACWI IMI指数中所有股票的等加权标准差。)。我们还探讨了添加更多输入特征的影响,如行业和国家因子暴露和额外的风格因子或描述符(因子的构建块)。因变量设为下个月的标准化专项收益,即考虑各因子线性贡献后的收益。换句话说,我们训练一个机器学习模型来预测下个月的具体回报,使用风格因子暴露作为输入。因此,我们明确地指导机器学习模型捕捉线性模型在其残差中留下的非线性关系。这与其他研究有显著差异,其他研究多以总回报作为因变量。我们的框架允许我们保持线性模型和因子的可解释性,同时利用机器学习仅捕捉线性模型错过的非线性和交互影响。在数学上,我们的机器学习因子可以表示基本线性因子模型方程:

机器学习因子:在线性因子模型中捕捉非线性相关推荐

  1. [云炬python3玩转机器学习] 6-4 在线性回归模型中使用梯度下降法

    在线性回归模型中使用梯度下降法 In [1]: import numpy as np import matplotlib.pyplot as plt import datetime;print ('R ...

  2. caffe模型文件解析_「机器学习」截取caffe模型中的某层

    通常情况下,训练好的caffe模型包含两个文件: prototxt:网络结构描述文件,存储了整个网络的图结构: caffemodel:权重文件,存储了模型权重的相关参数和具体信息 对于某些大型的网络, ...

  3. 今日机器学习概念:感知机模型

    点击上方"AI有道",选择"设为星标" 关键时刻,第一时间送达! 感知机模型是机器学习二分类问题中的一个非常简单的模型.它的基本结构如下图所示: 感知机的运算过 ...

  4. 一文讲述如何将预测范式引入到机器学习模型中

    作者 | Filip Piekniewski 编译 |ziqi zhang 随着人工智能的持续深入,深度学习技术在多智能体学习.推理系统和推荐系统上取得了很大进展. 对于多智能体来说,预测能力有着关键 ...

  5. 机器学习:贝叶斯和优化方法_Facebook使用贝叶斯优化在机器学习模型中进行更好的实验

    机器学习:贝叶斯和优化方法 I recently started a new newsletter focus on AI education. TheSequence is a no-BS( mea ...

  6. 机器学习中的数据泄露是什么?构建模型中如何防止数据泄露?正确的方案是什么?如何使用pipeline防止数据泄露?

    机器学习中的数据泄露是什么?构建模型中如何防止数据泄露?正确的方案是什么?如何使用pipeline防止数据泄露? 目录

  7. R语言使用pROC包绘制ROC曲线实战:roc函数计算AUC值、plot.roc函数绘制ROC曲线、添加置信区间、为回归模型中的每个因子绘制ROC曲线并在同一个图中显示出来

    R语言使用pROC包绘制ROC曲线实战:roc函数计算AUC值.plot.roc函数绘制ROC曲线.添加置信区间.为回归模型中的每个因子绘制ROC曲线并在同一个图中显示出来 目录

  8. 利用colab保存模型_在Google Colab上训练您的机器学习模型中的“后门”

    利用colab保存模型 Note: This post is for educational purposes only. 注意:此职位仅用于教育目的. In this post, I would f ...

  9. 机器学习模型中的评价指标

    1.回归模型 1.1 MSE(均方误差) MSE是Mean Square Error的缩写,其计算公式如下: m s e = 1 m ∑ i = 1 m ( y i − y i ^ ) 2 mse=\ ...

最新文章

  1. 第一篇: 词向量之Word2vector原理浅析
  2. CSP认证201512-1 数位之和[C++题解]:模拟、水题
  3. 复制内存时检测到可能的io争用条件_这篇高并发服务模型大科普,内部分享时被老大表扬了...
  4. Remove Duplicates from Sorted Array II
  5. Apollo 在Windows下安装使用
  6. 修改linux终端的提示字符
  7. oracle11g 冷备,oracle11G Windows冷备恢复
  8. 元素出现在页面时,添加动画,配合animate.css使用
  9. Acoustica Premium Edition Mac(音频编辑软件)
  10. JEB配合IDA神器逆向
  11. 在腾讯云开通短信验证服务并完成群发消息测试
  12. QQ桌球瞄准器开发(2)创建项目添加主窗体
  13. html 水印插件,jquery图片水印插件
  14. vue幸运大转盘实现
  15. 【JS】网页点击悬浮小苹果+小虫子追踪鼠标位置(可替换)
  16. Web防火墙(WAF)是什么?和传统防火墙区别是什么?
  17. 中琅条码打印软件如何制作条形码
  18. 用计算机弹一笑倾城简谱,一笑倾城歌词,一笑倾城歌词简谱
  19. 哥:我要嫁给你!(让人巨感动)
  20. 【SpringBoot】application配置文件及注入

热门文章

  1. 「WinddowInsets(二)」我们能用WindowInsets做什么?
  2. Linux系统配置及服务管理_02章_文件和用户管理
  3. 在Excel中如何把每三行数据合并为一行?
  4. unity urp 棉麻织物渲染
  5. 计算机组装图纸手画,原神玩家为造家园能有多拼?工科大佬直接画出图纸,成品效果惊人...
  6. 经历三家千人互联网公司,总结出25条职场黄金法则
  7. 初入职场,菜鸟北漂记
  8. 微信小程序显示空格符
  9. EXCEL数值变为文本型
  10. HEVC视频编码技术概述