2021 牛津大学：Recent Advances in Reinforcement Learning in Finance

Recent Advances in Reinforcement Learning in Finance

1 本文概述

本文是牛津大学2021年对 深度强化学习在金融领域内各种决策的应用 的综述文章。文章分为四个部分，第一部分是整体介绍；第二部分详细介绍了强化学习的基础知识，包括马尔科夫决策过程的定义、基于值的方法、基于策略的方法；第三部分介绍了深度强化学习的相关算法；最后一部分介绍了目前深度强化学习在金融领域里的最新应用。

2 文章详读

2.1 基本介绍

传统技术的弊端

处理许多财务决策问题的数学方法传统上是通过用 随机过程建模 和使用由 随机控制 产生的技术。模型的选择往往取决于需要平衡可处理性和适用性之间的关系。简单的模型导致可处理和可实现的封闭策略，或可以通过传统的数值方法找到。然而，这些模型有时过于简化了金融市场的机制和行为，这可能导致在实践中次优的策略，并可能导致财务损失。另一方面，试图捕捉金融市场现实特征的模型要复杂得多，而且使用随机最优控制的经典工具，往往在数学和计算上都难以处理。

强化学习

强化学习描述了在某些系统中起作用的代理可能通过与系统交互所获得的重复经验来学习做出最佳决策的方法。在金融业，RL 算法在订单执行、做市和投资组合优化等领域取得了许多成功，引起了广泛关注。这导致了在参与者对市场和其他竞争对手的信息有限时，在采用 RL 技术以改进各种金融市场的交易决策方面取得的快速进展。

2.2 DRL在金融领域的应用

2.2.1 电子市场与市场微观结构

Electronic Markets. 电子市场目前已成为各种金融资产交易的热门场，在加拿大、德国、以色列和英国在内的许多国家的证券交易所都采用了电子平台来交易股票。在美国，电子通信网络使用电子订单结构，在纳斯达克股市交易高达 45% 的交易量。同时在外汇领域，EBS 和路透社等电子系统主导着货币交易。瑞士-德国电子交易所 Eurex 目前是世界上最大的期货市场，而自 2000 年国际证券交易所开业以来，期权一直在电子市场进行交易。许多这样的电子市场被组织为电子限价订单簿。

Limit Order Books. 限价订单簿，是一个用来记录买卖双方对特定金融资产或工具的利益的订单清单。买方（卖方）可以提交两种类型的订单：一种是 【限价单】 给定数量的限额买（卖）订单，或者一种是 【市价单】 给定数量的市场买（卖）订单，将立即以最佳的限额卖（买）订单执行。因此，限价单有价格保证，但不能保证被执行，而市价单则立即以可用的最佳价格执行。所有卖出限价单的最低价格称为要价（ask price），所有买入限价指令的最高价格称为出价（bid price）。出价与要价之间的差额称为价差，竞价的平均值称为中价。

一个匹配引擎用于匹配传入的买卖订单。这通常遵循 价格-时间优先级规则，即订单根据其价格进行优先排序，然后，具有相同价格的多个订单将根据它们被输入的时间进行排序。如果传入订单的价格和时间相同，则首先执行较大的订单。匹配引擎使用 LOB 来存储在到达时无法执行的未决订单。

Over-the-counter Markets. 场外交易市场，直接在双方之间进行，无需交易所的监督。许多围绕交易商组织的场外交易市场，包括许多国家的公司债券市场，在过去十年里也经历了与电子化相关的动荡。电子化过程由多经销商到客户平台主导，使客户能够同时向多个经销商发送相同的报价请求(RFQ)，从而使经销商之间开始竞争。然后，这些经销商可以各自向客户提供交易价格（不一定是经销商流媒体的价格）。经销商知道客户的身份（这不同于围绕一个中央 LOB 组织的大多数系统）和所要求的经销商价格的数量。然而，他们并没有看到其他经销商所提供的价格。他们只看到一个基于一些最好的流媒体价格的综合价格。客户逐步收到 RFQ 的答案，并可以在任何时候与提出最佳价格或决定不交易的经销商进行交易。每个经销商都知道是否完成了交易（与她 / 他，但也与另一个经销商——但不知道这个经销商的身份）。如果发生了一笔交易，最好的经销商通常知道封面价格（在 RFQ 中第二好的出价价格）。我们建议读者向[69]更深入地讨论 MD2C 债券交易平台。

J.-D. Fermanian, O. Guéant, and A. Rachez, Agents’ Behavior on Multi-Dealer-to-Client Bond Trading Platforms, CREST, Center for Research in Economics and Statistics, 2015.

Market Participants. 当考虑不同的市场参与者时，有时根据其目标和交易策略对它们进行分类是有帮助的。主要分为以下三类：

•Fundamental (or noise or liquidity) traders：那些受交易所外经济基本面驱动的人；•Informed traders：利用预期升值或贬值的资产交易未反映在市场价格中的信息获利的交易员；•Market makers：从促进特定资产的交易中获利并利用其执行交易的技能的专业交易员。

所有这些交易者之间的互动的影响是市场微观结构领域研究的关键问题之一。如何从一类市场参与者的角度改进交易决策，同时与其他市场参与者进行战略性互动，是该领域的一大挑战之一。最近的文献已经看到了许多尝试利用 RL 技术来解决这些问题。

2.2.2 Optimal Execution (最优执行)

最优执行是财务建模中的一个基本问题。最简单的版本是交易员希望在指定的时间段内购买或出售特定数量的单一资产。交易员寻求的策略是最大化他们的回报，或者，尽量减少执行交易的成本。

传统策略：The Almgren–Chriss Model.

最优执行的经典框架是 Almgren–Chriss 模型。在这种配置中，交易员需要出售的资产为，在时间步时价格为，在时间段，中，在离散时间点做出交易决策，最终库存要求为零。因此，目标为确定一个清算策略，其中表示在时间点时需要出售的资产。假设销售数量的资产将有两种类型的价格影响 — 临时影响 是指任何暂时的价格变动由于供需失衡造成的销售和 永久影响，即由交易导致的一个长期影响的“平衡”价格，至少在交易期间一直存在着。

定义为时间步时的资产价格。Almgren–Chriss Model 假设资产价格根据离散算术随机游动而演化：

其中，为波动率参数（常数），是从一个均值为零和单位方差的分布中抽取的独立随机变量，是衡量永久影响的交易策略的一个函数。库存过程 在每个时间步时记录资产中的当前持有情况。因此，有下式： 出售资产可能会造成暂时的价格影响，即 每股平均价格的下降，因此收到的每股实际价格是：

其中，是一个量化这种暂时的价格影响的函数。这个交易轨迹的成本被定义为初始账面价值与收入之间的差额，即，它的期望与方差为：

因此，交易员希望 最小化预期成本以及成本的方差，这使得该模型中的最优执行问题为：

其中，是一个风险规避的衡量标准。当我们假设这两种价格的影响都是线性的时，即：

其中，和 η 是永久和临时的价格影响参数，最优执行轨迹为：

同时，

对应的最优库存轨迹为：

上述清算单个资产的 Almgren-Chriss 框架可以扩展到多个资产的情况。

Almgren-Chriss 框架的简单版本有一个封闭的解决方案，但它 很大程度上依赖于动力学假设和永久和临时价格影响的线性形式。对动态和市场影响的错误说明可能会导致不可取的战略和潜在的损失。此外，上述解决方案是一个预先计划好的策略，它不依赖于实时的市场条件。因此，当市场波动时，这种策略可能会错过某些机会。这促使了 RL 方法的使用，RL 方法更灵活，并能够在做决策时纳入市场条件。

Evaluation Criteria and Benchmark Algorithms.

•PnL 是一个给定的执行算法在整个时间段内所产生的最终损益，它由所有时间点的交易组成。一个执行算法的实现不足被定义为该算法的 PnL 与通过立即交易该资产的全部金额而收到的 PnL 之间的差异。•Sharp ratio 被定义为预期回报与回报的标准差的比率。因此，它衡量每单位风险的回报。夏普比率的两个流行的变体是 差分夏普比率 和 索蒂诺比率。

此外，一些经典的预先指定的策略被用作基准来评估给定的基于 RL 的执行策略的性能。

•基于时间加权平均价格（TWAP）;•交易量加权平均价格（VWAP）;•提交和离开（SnL）策略，即交易员以固定的限价指令价格对所有股票发出卖出指令，并将在 $T$ 时刻将剩余的任何未执行的股票进入市场。

RL Approach.

在最优执行问题中使用的最流行的 RL 方法类型是 Q-learning 算法和 (double) DQN。

[1] D. Hendricks and D. Wilcox, A reinforcement learning extension to the Almgren-Chriss framework for optimal trade execution, in 2014 IEEE Conference on Computational Intelligence for Financial Engineering & Economics (CIFEr), IEEE, 2014, pp. 457–464.

[2] B. Ning, F. H. T. Ling, and S. Jaimungal, Double deep Q-learning for optimal execution, arXiv preprint arXiv:1812.06600, (2018).

[3] Z. Zhang, S. Zohren, and S. Roberts, Deep reinforcement learning for trading, The Journal of Financial Data Science, 2 (2020), pp. 25–40.

[4] G. Jeong and H. Y. Kim, Improving fifinancial trading decisions using deep Q-learning: Predicting the number of shares, action strategies, and transfer learning, Expert Systems with Applications, 117 (2019), pp. 125–138.

[5] K. Dabérius, E. Granat, and P. Karlsson, Deep execution-value and policy based reinforcement learning for trading and beating market benchmarks, Available at SSRN 3374766, (2019).

[6] Y. Nevmyvaka, Y. Feng, and M. Kearns, Reinforcement learning for optimized trade execution, in Proceedings of the 23rd International Conference on Machine Learning, 2006, pp. 673–680.

[7] Y. Shen, R. Huang, C. Yan, and K. Obermayer, Risk-averse reinforcement learning for algorithmic trading, in 2014 IEEE Conference on Computational Intelligence for Financial Engineering & Economics (CIFEr), IEEE, 2014, pp. 391–398.

基于策略的算法在这一领域也很流行，包括 (deep) policy gradient methods, A2C, PPO 和 DDPG。

[1] B. Hambly, R. Xu, and H. Yang, Policy gradient methods for the noisy linear quadratic regulator over a fifinite horizon, SIAM Journal on Control and Optimization, 59 (2021), pp. 3359–3391.

[2] Z. Zhang, S. Zohren, and S. Roberts, Deep reinforcement learning for trading, The Journal of Financial Data Science, 2 (2020), pp. 25–40.

[3] K. Dabérius, E. Granat, and P. Karlsson, Deep execution-value and policy based reinforcement learning for trading and beating market benchmarks, Available at SSRN 3374766, (2019).

[4] S. Lin and P. A. Beling, An end-to-end optimal trade execution framework based on proximal policy optimization, in IJCAI, 2020, pp. 4548–4554.

[5] Z. Ye, W. Deng, S. Zhou, Y. Xu, and J. Guan, Optimal trade execution based on deep deterministic policy gradient, in Database Systems for Advanced Applications, Springer International Publishing, 2020, pp. 638–654.

state variables 通常由时间戳、市场属性，包括资产的（中间）价格和/或价差、库存过程和过去的回报组成。

control variables 通常设置为在每个时间点进行交易的资产数量（使用市场订单）和/或相对价格水平（使用限制订单）。

reward signals 包括现金流入或流出（取决于我们是卖出还是购买）、实施缺口（Pnl）、利润、夏普比率、回报和 PnL。

performance measures包括实施不足、PnL（交易成本惩罚期限）、交易成本、利润、夏普比率、Sortino比率和回报。

为了比较基于价值的算法和基于策略的算法，在不同的市场环境下探索了 Double DQN 和 PPO 算法——当基准 TWAP 是最优的时，PPO 收敛于 TWAP，而 Double DQN 可能不会；当 TWAP 不是最优时，两种算法的性能都优于这个基准。在 50 个流动性期货合约的测试数据上，DQN、Policy Gradient 和 A2C 的表现优于包括经典时间序列动量策略在内的几个基线模型。在他们的工作中同时考虑了连续的和离散的动作空间。他们观察到，DQN 的性能最好，第二好的是 A2C 方法。

此外，基于模型的 RL 算法也被用于最优执行。[1] 建立了一个有利可图的电子交易代理，使用基于模型的 RL 进行买卖订单，它在 LOB 数据上的 PnL 方面优于两种基准策略。他们使用了一个递归神经网络来学习状态转移概率。同时，multi-agent RL 也被用于解决最优执行问题，例如：

[1] H. Wei, Y. Wang, L. Mangu, and K. Decker, Model-based reinforcement learning for predictions and control for limit order books, arXiv preprint arXiv:1910.03743, (2019).

[2] W. Bao and X.-y. Liu, Multi-agent deep reinforcement learning for liquidation strategy analysis, arXiv preprint arXiv:1906.11046, (2019).

[3] M. Karpe, J. Fang, Z. Ma, and C. Wang, Multi-agent reinforcement learning in a realistic limit order book market simulation, in Proceedings of the First ACM International Conference on AI in Finance, ICAIF ’20, 2020.

2.2.3 Portfolio Optimization (投资组合优化)

在投资组合优化问题中，交易员需要选择和交易最佳的资产组合，以最大化一些目标函数，这通常包括预期回报和一些风险度量。投资于此类投资组合的好处是，投资的多样化比只投资于单一资产更能获得更高的单位风险回报。

传统策略：Mean-Variance Portfolio Optimization.

投资组合优化的一个重要数学模型是 马科维茨模型 (Markowitz model)，也称为均值-方差模型，其中投资者寻求一个投资组合，以最大化通过方差衡量的任何给定风险水平的预期总回报。在这个均值-方差框架中，投资组合的风险被财富的方差量化，然后寻求最优投资策略，以最大化由方差项惩罚的最终财富。均值-方差框架特别有趣，因为它不仅捕获了投资组合的回报和风险，而且还遭受了 时间不一致 的问题，即在时刻选择的最优策略在时刻不再是最优的，贝尔曼方程不成立。有相关学者推导出了离散时间多周期均值-方差问题的解析解。他们应用了一种嵌入的方法，它将均值-方差问题转换为一个 LQ 问题，其中经典的方法可以用来找到解决方案。然后用同样的方法来求解连续时间的均值-方差问题。除嵌入方案外，还有一些学者采用一致性规划方法和动态最优策略等其他方法解决了投资组合优化的均值-方差公式中出现的时间不一致性问题。

本文将介绍多周期均值-方差投资组合优化问题。假设市场上有个风险资产，一个投资者在时刻 0 以初始财富进入市场。投资者的目标是在每个时间点重新分配他的财富。在个资产中，以实现回报和投资风险之间的最佳权衡。在时刻资产的随机收益率记为，其中为时刻第个资产的收益率。假设这个向量是统计独立的，具有均值和标准差。协方差矩阵表示为，其中对于，且有，式中的为 t 时刻资产 i 与 j 的相关性。在 t 时刻投资者具有的财富为，同时为投资者对资产 i 的投资金额。因此，投资者在 t 时刻对第 n 项资产的投资金额为。投资策略表示为，目标是找到一个最优策略，使投资组合回报最大化，同时最小化投资风险，即：

同时有：

其中，是一个加权参数平衡风险与收益，风险由的方差表示。如上所述，这个框架被嵌入到下文中的一个 LQ 问题中，而 LQ 问题的解决方案给出了上述两个式子的解决方案。

D. Li and W.-L. Ng, Optimal dynamic portfolio selection: Multiperiod mean-variance formulation, Mathematical Finance, 10 (2000), pp. 387–406.

推导出的解析解的形式如下：

其中，和分别为和的显式函数。

上述框架以不同的方式进行了扩展，例如，无风险资产也可以涉及到投资组合中，并且可以最大化上式的累积形式，而不是只关注最终的财富。除了均值-方差框架外，投资组合优化中的其他主要范式还有 Kelly Criterion 和 Risk Parity。我们参考来回顾这些最优控制框架和流行的无模型 RL 算法的投资组合优化。

需要注意的是，跨多个资产的投资组合优化问题的经典随机控制方法既需要单个资产的时间动态的现实表示，也需要它们的共同运动的充分表示。当资产属于不同的类别（例如，股票、期权、期货、利率及其衍生品）时，这是极其困难的。另一方面，无模型的 RL 方法并不依赖于跨资产的联合动态的规范。

RL Approach.

基于值的方法，例如使用 Q-learning，SARSA，DQN：

[1] X. Du, J. Zhai, and K. Lv, Algorithm trading using Q-learning and recurrent reinforcement learning, Positions, 1 (2016), p. 1.

[2] P. C. Pendharkar and P. Cusatis, Trading fifinancial indices with reinforcement learning agents, Expert Systems with Applications, 103 (2018), pp. 1–13.

[3] H. Park, M. K. Sim, and D. G. Choi, An intelligent fifinancial portfolio trading strategy using deep Q-learning, Expert Systems with Applications, 158 (2020), p. 113573.

基于策略的方法，例如 DPG，DDPG：

[1] Z. Xiong, X.-Y. Liu, S. Zhong, H. Yang, and A. Walid, Practical deep reinforcement learning approach for stock trading, arXiv preprint arXiv:1811.07522, (2018).

[2] Z. Jiang, D. Xu, and J. Liang, A deep reinforcement learning framework for the fifinancial portfolio management problem*, arXiv preprint arXiv:1706.10059, (2017).

[3] P. Yu, J. S. Lee, I. Kulyatin, Z. Shi, and S. Dasgupta, Model-based deep reinforcement learning for dynamic portfolio optimization, arXiv preprint arXiv:1901.08740, (2019).

[4] Z. Liang, H. Chen, J. Zhu, K. Jiang, and Y. Li, Adversarial deep reinforcement learning in portfolio management, arXiv preprint arXiv:1808.09940, (2018).

[5] A. M. Aboussalah, What is the value of the cross-sectional approach to deep reinforcement learning?, Available at SSRN, (2020).

state variables 通常为时间、资产价格、资产过去收益、当前持有的资产和余额。

control variables 通常为投资组合中的每个组成部分投资财富的数量或者比例。

reward signals 通常为投资组合回报、差分夏普比率和利润。

benchmark strategies 通常为：

1.Constantly Rebalanced Portfolio (CRP) ：在每个时期，投资组合被重新平衡到资产之间的初始财富分配；2.buy-and-hold or do-nothing：不采取任何行动，而是持有初始投资组合直到最后。

performance measures 通常为夏普比率、索提诺比率、投资组合回报、投资组合价值和累计利润。

2.2.4 Option Pricing and Hedging (期权定价和对冲)

了解如何为金融衍生品定价和对冲是现代数学和计算金融的基石，因为它在金融行业的及其重要。金融衍生物是一种从基础实体的表现中获得其价值的合同。例如，看涨期权或看跌期权是一种合同，它赋予持有人在到期日之前或之前以指定的执行价格购买或出售标的资产或工具的权利。期权类型的例子包括只能在到期时行使的欧洲期权，以及可以在期权到期前的任何时候行使的美国期权。

传统模型：The Black-Scholes Model.

期权定价的最重要的数学模型是 Black-Scholes Model (BSM)，我们的目标是找到欧洲期权的价格，，其标的股价为，到期时间为，到期时的回报为。基础股票价格被假定为非股息支付，并遵循一个几何布朗运动：

其中，和称为标的资产的偏移和波动参数，是定义在滤波概率空间上的标准布朗运动。

标的资产 (underlying asset)：金融中的标的资产，是指衍生品合约中约定的资产，可以是实物物品（小麦、原油等）、金融资产（外汇、股票、证券等）、利率、汇率的各种综合指数等。

BSM 的关键理念是，欧洲期权可以通过基础资产和无风险资产的持续重新平衡投资组合来完美复制，假设不存在市场摩擦，交易可以以任意小的数量持续地进行。如果衍生品可以复制，通过分析套期策略的成本，衍生品的价格必须满足以下布莱克-斯科尔斯偏微分方程

具有终止条件，，其中 r 为已知的（恒定）无风险利率。当我们有一个具有收益，的看涨期权，给予期权购买者购买标的资产的权利时，布莱克-斯科尔斯方程的解由下式给出：

其中，为标准正态累积分布函数，和为

关于 BSM 模型的扩展、其他经典期权定价模型以及蒙特卡罗方法等数值方法的细节，可以参考：

M. Broadie and J. B. Detemple, Anniversary article: Option pricing: Valuation models and applications, Management Science, 50 (2004), pp. 1145–1177.

在一个完整的市场中，人们可以通过以正确的方式买卖标的资产来消除风险，对冲给定的衍生品合约，从而确保该衍生品有一个独特的价格。在布莱克-斯科尔斯分析中，使用了 delta 对冲，我们通过用（期权价格对资产价格的敏感性）做空标的资产的单位来对冲看涨期权的风险。这样也可以使用金融衍生品来对冲基础资产中给定头寸的波动性。然而，在实践中，我们只能在离散的时间点重新平衡投资组合，频繁的交易可能会导致高昂的成本。因此，最优的套期保值策略取决于套期保值误差和交易成本之间的权衡。

但是，在实践中，BSM 模型的一些假设是不现实的：

•实际市场中存在佣金、市场影响和非零买卖价差导致的交易成本；•波动性不是恒定的；•短期回报通常具有重尾分布。因此，当实际资产动态不完全符合假设的情况，且交易成本难以建模时，由此产生的价格和对冲可能会遭受模型不规范的影响。

因此，我们将专注于一种可以解决这些问题的无模型 RL 方法。

RL Approach.

常用于寻找对冲策略和价格金融衍生品的 RL 方法有 DQN，PPO，DDPG。

[1] QLBS: Q-learner in the Black-Scholes (-Merton) worlds, The Journal of Derivatives, 28 (2020), pp. 99–122.

[2] J. Du, M. Jin, P. N. Kolm, G. Ritter, Y. Wang, and B. Zhang, Deep reinforcement learning for option replication and hedging, The Journal of Financial Data Science, 2 (2020), pp. 44–57.

[3] J. Cao, J. Chen, J. Hull, and Z. Poulos, Deep hedging of derivatives using reinforcement learning, The Journal of Financial Data Science, 3 (2021), pp. 10–27.

[4] Y. Li, C. Szepesvari, and D. Schuurmans, Learning exercise policies for American options, in Artifificial Intelligence and Statistics, PMLR, 2009, pp. 352–359.

[5] I. Halperin, The QLBS Q-learner goes NuQlear: Fitted Q iteration, inverse RL, and option portfolios, Quantitative Finance, 19 (2019), pp. 1543–1553.

state variables 通常包括资产价格、当前头寸、期权交易和剩余的到期时间。

control variable 通常是持股的变化。

reward signals 通常设为（风险调整后的）预期财富/回报（如均值-方差投资组合优化）、期权收益和（风险调整后的）对冲成本。

benchmarks 通常为 BSM模型和二项式期权定价模型。

performance measures 包括（预期）套期成本/误差/损失、PnL 和平均收益。一些实际问题已经考虑在 RL 模型，包括交易成本和头寸约束，如 lotting（一轮很多是一个标准数量的证券交易，如100股）和限制交易规模（例如购买或出售100股）。

2.2.5 Market Making (做市)

金融工具中的做市商是指个人交易员或机构，通过在限价订单簿中发出买入和卖出限价指令，同时赚取买卖价差。

做市的目标不同于最优执行（目标头寸）或投资组合优化（针对长期投资）的问题。做市商的目标不是从确定正确的价格变动方向中获利，而是从赚取买卖价差中获利。

一家做市商面临着的三个主要风险来源。

•库存风险是指累积不受欢迎的大量净库存的风险，显著增加市场波动而增加的波动性。•执行风险是指限制订单可能无法在预期的范围内被填满的风险。•不利选择风险是指价格有方向性的移动，通过市场标记提交的限价订单，使价格在交易期限结束时不会反弹。这可能会导致巨大的损失，因为做市商通常需要在交易结束时清理库存（通常是在一天结束时，以避免隔夜库存）。

O. Guéant, C.-A. Lehalle, and J. Fernandez-Tapia, Optimal portfolio liquidation with limit orders, SIAM Journal on Financial Mathematics, 3 (2012), pp. 740–764.

RL Approach.

大多数开发都围绕着基于价值的方法，如 Q-learning 和 SARSA。

[1] J. D. Abernethy and S. Kale, Adaptive market making via online learning, in NIPS, Citeseer, 2013, pp. 2058–2066.

[2] T. Spooner, J. Fearnley, R. Savani, and A. Koukorinis, Market making via reinforcement learning*, in International Foundation for Autonomous Agents and Multiagent Systems, AAMAS ’18, 2018, pp. 434–442.

state variables 通常由买卖价格、当前持有的资产、订单流不平衡、波动性和一些复杂的市场指数组成。

control variables 通常被设置为发布两个限制买入和限制卖出指令的价差。

reward signals 包括库存成本的PnL 或库存成本的实现不足。

2.2.6 Robo-advising

robo-顾问，或自动投资经理，是一类提供最少人工干预的在线财务建议或投资管理的财务顾问。他们基于数学规则或算法提供数字金融建议。近年来，机器人顾问获得了广泛的欢迎，并成为传统人类顾问的显著替代品。第一批机器人顾问是在2008年金融危机之后成立的，当时金融服务机构正面临着从客户那里失去信任的损失。先锋机器人咨询公司的例子包括改善和健康前沿。截至2020年，机器人管理下的资产价值在美国最高，超过了6500亿美元的。

机器人顾问事先不知道客户的风险偏好，但在与客户互动时学习。然后，机器人顾问会根据其目前对客户风险偏好的估计，改进其投资决策。机器人咨询的应用存在几个挑战。首先，客户的风险偏好可能会随着时间的推移而发生变化，并可能取决于市场回报和经济状况。因此，机器人顾问需要确定与客户互动的频率，以确保在调整投资组合分配时，风险偏好的高度一致性。其次，机器人顾问在满足客户意愿的时候，即根据客户的风险偏好进行投资，或为寻求更好的投资表现而违背客户意愿的困境。最后，在从客户那里获取信息的速率和所获取信息的准确性之间也有一个微妙的权衡。一方面，如果交互没有一直发生，机器人顾问可能并不总是能够访问有关客户机配置文件的最新信息。另一方面，传达给机器人顾问的信息可能不能代表客户真正的风险厌恶，因为客户受到行为偏见的影响。

[1] H. Alsabah, A. Capponi, O. Ruiz Lacedelli, and M. Stern, Robo-advising: Learning investors’ risk preferences via portfolio choices, Journal of Financial Econometrics, 19 (2021), pp. 369–392.

[2] H. Wang and S. Yu, Robo-advising: Enhancing investment with inverse optimization and deep reinforcement learning, arXiv preprint arXiv:2105.09264, (2021).

[3] S. Yu, H. Wang, and C. Dong, Learning risk preferences from investment portfolios using inverse optimization, arXiv preprint arXiv:2010.01687, (2020).

2.2.7 Smart Order Routing

为了执行某一特定资产的交易，市场参与者可能有机会分割交易，并向不同的地点提交订单，包括明池和暗池，该资产的交易。这可能会提高整体的执行价格和数量。决策和结果都受到不同场地的特点以及不同场地的交易费用和回扣结构的影响。

Dark Pools vs. Lit Pools. 暗池是投资公众无法进入的证券交易的私人交易所。这些交易所的名字也被称为“流动性的暗池”，这是指它们完全缺乏透明度。创建暗池是为了促进机构投资者的大宗交易，他们不希望以大量订单影响市场，并为其交易获得不利价格。根据美国证券交易委员会 (SEC) 最近的数据，截至2021年5月，有59个注册的替代交易系统，其中有三种类型：

1.经纪人-经销商拥有的黑池2.代理经纪人或交易所拥有的黑池3.电子市场制造商的黑池。

明池实际上是暗池的对立面。与暗池不同的是，参与者愿意交易的价格不会透露，灯光池会显示出价，并询问不同股票的出价。主要交易所的运作方式是，可随时显示流动性，并构成交易员可用的大部分照明池。

对于智能订单路由(SOR)问题，不同暗池的最重要特征是与交易对手匹配的机会和价格(dis)优势，而明池的相关特征包括订单流、队列大小和取消率。关于使用数据驱动的方法来解决暗池分配和跨明池分配的SOR问题的参考文献很少。

2.3 Further Developments

Risk-aware or Risk-sensitive RL.

风险来自于与未来事件相关的不确定性，这是不可避免的，因为在作出决定时，行动的后果是不确定的。许多决策问题在金融导致交易策略和重要的是考虑提出策略的风险（可以衡量例如的最大后撤，方差或5%的百分比分布）和/或市场环境的风险，如不利选择风险。

因此，在金融应用的RL算法的设计中包括风险度量将是很有趣的。风险敏感RL的挑战既在于目标函数与奖励相关的非线性，又在于设计一个风险感知的探索机制。

Offline Learning and Online Exploration.

在线学习需要实时更新算法参数，这对于许多金融决策问题是不切实际的，特别是在高频情况下。最合理的设置是在交易时间内用预先指定的勘探方案收集数据，并在交易结束后用新收集的数据更新算法。这与在线学习转化为批量数据的离线回归和 RL 密切相关。然而，这些发展侧重于一般的方法，而不是专门针对金融应用程序。

Learning with a Limited Exploration Budget.

探索可以帮助代理商找到新的政策来提高他们未来的累积回报。然而，过多的探索可能既耗时又耗计算，特别是，对于一些金融应用，它可能非常昂贵。此外，在金融机构内部探索黑盒交易策略可能需要很多理由，因此投资者倾向于限制投入勘探的努力，并试图在给定的勘探预算内尽可能地提高业绩。这一想法在精神上类似于保守的RL中，代理探索新的策略来最大化收入，同时将收入保持在固定的基线以上，随着时间的推移一致。这也与经济商品和运营管理所研究的信息获取和成本问题有关。调查金融市场中决策问题的这些成本可能也很有趣。

Learning with Multiple Objectives.

在金融，一个常见的问题是选择一个投资组合时有两个冲突的目标——希望投资组合回报的预期价值尽可能高，希望风险，通常由投资组合回报的标准差，尽可能低。这个问题通常用一个图来表示，其中有效边界显示了可用的风险和预期回报的最佳组合，其中无差异曲线显示了投资者对各种风险-预期回报组合的偏好。决策者有时将这两个标准组合成一个单一的目标函数，包括预期奖励的差异和风险的标量倍数。然而，对于某些应用，将相关标准以线性格式组合起来很可能不符合决策者的最佳利益。例如，场外交易市场上的做市商倾向于将周转时间、资产负债表约束、库存成本、损益等标准视为单独的目标函数。多目标 RL 的研究仍处于初步阶段。

[1] D. Zhou, J. Chen, and Q. Gu, Provable multi-objective reinforcement learning with generative models, arXiv preprint arXiv:2011.10134, (2020).

[2] R. Yang, X. Sun, and K. Narasimhan, A generalized algorithm for multi-objective reinforcement learning and policy adaptation, in Advances in Neural Information Processing Systems, vol. 32, 2019.

Robo-advising in a Model-free Setting.

Sample Effiffifficiency in Learning Trading Strategies.

近年来，样本复杂性被广泛研究，以理解现代强化学习算法。然而，大多数RL算法仍然需要大量的样本来训练一个像样的交易算法，这可能超过相关可用历史数据的数量。金融时间序列被认为是非平稳，因此在时间上较远的历史数据可能没有助于为当前市场环境训练有效的学习算法。这就引出了一些重要的问题，即为金融应用设计更高样本效率的RL算法，或开发良好的市场模拟器，从而产生（无限的）现实的市场场景。

Transfer Learning and Cold Start for Learning New Assets.

金融机构或个人可能会改变其一篮子资产以进行交易。可能的原因可能是不时地发行新的资产（例如合作债券），或者投资者可能会将他们的兴趣从一个部门转移到另一个部门。与这种情况相关，有两个有趣的研究方向。当一个投资者有一个良好的交易策略，通过一个资产的RL算法进行训练时，他们应该如何转移经验来训练一个具有更少样本的“相似”资产的交易算法？这与迁移学习密切相关。据我们所知，目前还没有沿着这个方向进行过关于金融应用的研究。另一个问题是新发行资产的冷启动问题。当我们对一个新资产的数据非常有限时，我们应该如何初始化一个RL算法，并使用有限的可用数据和我们的经验（即训练过的RL算法或数据）来学习一个像样的策略？