【论文 CCF C】An adaptive portfolio trading system

An adaptive portfolio trading system: A risk-return portfolio
optimization using recurrent reinforcement learning with expected
maximum drawdown

期刊：Expert Systems With Applications 87 (2017) 267–279 （CCF C）
原论文链接：An adaptive portfolio trading system: A risk-return portfolio
optimization using recurrent reinforcement learning with expected
maximum drawdown

abstract
1. Introduction
2. Literature review 略
3. Data and methodology
- 3.1. Methodology
- 3.2. Portfolio constraints 投资组合约束
- 3.3. Data collection
4. Trading algorithms comparison
- 4.1. Sharpe ratio recurrent reinforcement learning portfolios
- 4.2. Sterling ratio recurrent reinforcement learning portfolios
- 4.3. Calmar ratio recurrent reinforcement learning portfolios
- 4.4. Transaction cost sensitivity analysis
5. Trading system and discussion
- 5.1. Dynamic stop−loss strategy
6. Conclusion

abstract

长期以来，动态控制理论（Dynamic control theory）一直被用于解决资产配置优化问题，许多基于强化学习方法的交易决策系统被应用于资产配置和投资组合再平衡。
本文中，我们对已有的循环强化学习recurrent reinforcement learning (RRL) 工作进行扩展，建立了一个可变权重的投资组合方法，使用最大回撤的期望（expected maximum drawdown,，E(MDD)）来评估风险。我们提出了一种RRL的方法，使用Calmar比率作为目标函数，来获得买卖信号和资产配置的权重。使用交易最频繁的基金进行实验，与别人先前提出的以夏普比率、Sterling比率作为目标函数相比，我们提出的方法具有更高的回报收益，且在不同的交易成本下，可变权重的投资组合表现优于等权重的投资组合。我们基于以上方法给出了投资组合决策系统，考虑交易成本并采用止损策略。我们证明了该系统对不同的交易成本表现均较好，并始终优于对冲基金的基准。

1. Introduction

在金融投资中，常见的目标是动态地分配资产使得在一段时间内收益最大化，同时最小化风险。建立最优的投资组合，使其达到预设的目标，然后再平衡使该组合保持最优。再平衡投资组合：在预设的时间范围内，重新优化投资组合的权重。由于动态规划的维数灾难，通常使用自动学习算法来设计最优交易策略。本文中，我们应用RRL方法，生成买卖信号和最优的资产配置权重。
我们认为，大的回撤会导致基金的赎回。我们分别将Calmar比率、夏普比率作为目标函数进行比较，风险调整后的性能评估是根据一段时间范围内回报的标准差计算的。我们证明了，对于一组具有不同交易成本（5年内）的高流动性交易基金（ETF），可变权重投资组合的方法表现较好。
Calmar比率考虑最大回撤的数学期望，与夏普比率相比，可以生成更优的投资组合。此外，基于RRL，我们提出了一种投资组合再平衡系统，将最大回撤的期望作为风险，考虑了交易成本和市场情况，自动重新训练系统的参数，以获得更好的性能。基于市场波动机制的止损交易系统，能够使投资组合产生更高的成本。当波动性较大时，将止损退出，并重新训练参数，产生新的买入信号时重新进入市场。这种系统适应市场情况，对交易成本更具适应性。

2. Literature review 略

3. Data and methodology

3.1. Methodology

我们使用循环强化学习（RRL）方法，考虑不同的风险因素（使用两种目标函数），对投资组合进行优化。我们使用差分夏普比率对系统进行动态优化，使用性能函数（performance functions）来加快学习过程的收敛，并适应实时交易中不断变化的市场环境，见图1.

这个过程中，可以在每次向前传递训练数据的时候更新参数，可以在任何时间计算性能指标的影响。我们假设：交易成本固定，一个中小投资者可以改变或维持每项资产的股份规模，而不影响市场价格。
我们比较了不同的风险测量指标：夏普比率、Sortino 比率、Calmar 比率、 Sterling 比率……
我们选择Calmar比率，因为从最大回撤的定义可以看出，该比率是可微的。Calmar比率和夏普比率的关系如图2、图3所示：

图2显示了每个单位最大回撤的标准差与夏普比率之间的关系，图3显示了Calmar比率（在不同的夏普比率下）与移动的时间步长之间的关系。Calmar比率在非线性方面与夏普比率一致，与夏普比率相比长期来看差异明显（图3）。
Calmar比率与夏普比率类似，是一种风险衡量指标，用最大回撤的期望计算风险，我们使用Calmar比率作为目标函数。

用激活函数logsig，训练参数θ，生成[0, 1]之间的数。softmax函数被应用于在t时刻的所有资产决策，根据激活函数获得的决策，将对资产的配置权重进行更新，对最大资产决策（the largest asset decision）分配最高权重，从高到低重新分配权重。在我们的例子中，投资组合与等权重投资组合密切相关，除非某项资产的决策接近于0，否则将在其他资产之间重新分配权重。因此，执行决策的时候，就是重新分配资产之间的权重。我们使用softmax训练模型。训练和初始的决策，是由模型中的logsig函数决定的。此模型对资产的数量敏感，资产数量越多，模型将通过分配权重对资产进行选择。将Calmar比率作为目标函数。

3.2. Portfolio constraints 投资组合约束

在投资组合的优化过程中，需要考虑现实世界中的一些约束：
cardinality constraint：用于将资产选择限制在k个资产；
floor and ceiling constraint：将每个资产配置的权重限制在确定的范围；
round-lot constraint：将任何资产的数量限制为正常交易商品的精确倍数；
pre-assignment constraint：允许投资者预先选择想要的资产；
class constraint：限制有共同特征的资产的投资比列；

本文中，我们将注意力集中在无约束的问题上，将我们的方法与现有的约束方法进行结合来解决具体实际需求，也是可以实现的……

3.3. Data collection

我们使用来自不同资产类别的最常见的五个基金，来构建投资组合。这些ETF基金如下：
• IWD: iShares Russell 1000 Value，股票基金，持有中大盘美国股票，跟踪的是Russell 1000价值指数的表现；
• IWC: iShares Micro-Cap，与Russell微小盘指数类似，由一些美国的小公司组成；
• SPY: SPDR S&P 500 ETF，跟踪标普500指数，代表了所有的500支股票，每个季度派息一次；
• DEM: WisdomTree Emerging Markets High Dividend，跟踪WisdomTree新兴市场股票收益指数的价格和利润，与地理位置有关；
• CLY: iShares 10+ Year Credit Bond，固定收益的资产类别，类似于由长期美国公司债券和剩余期超过10年的美元主导的债券构成的指数；

我们使用MATLAB中的fetch函数，从雅虎金融中提取了五种基金每周的收盘价。时间从2011年1月1日到2015年12月31日，用三年数据作为训练，两年数据作为测试，见表1：

4. Trading algorithms comparison

我们将三种不同的比率作为目标函数进行比较，分析了各自的优点：

the Sharpe ratio RRL (SR-RRL)
the Sterling ratio RRL (TR-RRL)
the Calmar ratio RRL (CR-RRL)

我们将buy-and-hold作为基准策略，与以上方法进行比较。M的值设为104，因为测试数据中两年一共104周。为了用模型生成交易信号和权重，我们将tanh模型的评估次数设为10000，logsig模型设为500.由于资产数量不同，将logsig模型对等权重投资组合的权重做了小幅修改。

4.1. Sharpe ratio recurrent reinforcement learning portfolios

这个模型中，需要优化的目标函数是夏普比率。我们使用夏普比率的微分，它是通过计算夏普比率的平均值得到的。根据夏普比率的梯度，对模型中的权重进行更新。标准差用于衡量波动性，平均收益的变化越大，波动性就越大。
标准差不应该是衡量投资组合风险的唯一标准。例如，平均回报率在4%-6%的基金，其标准差将低于平均回报率在4%-14%的基金。在不同资产类型、不同波动率的投资组合中，夏普比率会对投资组合的表现和决策过程产生不利影响。我们使用不同的夏普比率作为RRL的目标函数，得到两种不同的投资组合：夏普比率等权重（SR-RRL EW）长期和短期的投资组合、夏普比率权重可变（SR-RRL VW）长期和短期的投资组合。
我们使用式（1）作为激活函数，在训练中获得每种资产的信号，然后用相同的权重，将信号应用于相同的权重上。

信号来自式（1），权重来自式（6）和式（8）。

我们从Markowitz 有效边界（efficient frontier）和等权重的buy-and-hold策略中，选择了四种投资组合，将其与不同的RRL投资组合进行比较。

图5显示了SR-RRL 等权重和可变权重的投资组合，与上述四种投资组合、基准策略在累计收益方面进行了比较。四种来自有效边界的投资组合，用Markowitz均值-方差进行优化，即最小方差、最大收益、最大夏普比率和Pareto optimal。在投资结束时，两种SR-RRL投资组合的表现均优于Pareto optimal投资组合。在测试中，我们选择μ = 100 ，δ = 0 bp，即每支股票交易的一个基点。等权重SR投资组合在资产收益方面存在波动。由于它是等权重的投资组合，因此受到每种资产变动的影响相等。从每种资产的收益可以得出，DEM ETF基金导致我们的投资组合出现了回撤，因为这是所有资产中唯一一个有较大回撤的。

图6显示了基准策略的资产回报，表明DEM ETF导致了急剧的亏损。通过观察SR可变权重投资组合中每种资产的收益，可以得出结论，该投资组合的行为与等权重的投资组合关系密切。由于它基于相同的信号，这些微小的变化导致了投资组合的表现不佳，因为第40周之前的SPY ETF和第40-100周的IWD ETF的权重较高。第60-80周，CLY的权重有所降低，从而降低了ETF的损失。

4.2. Sterling ratio recurrent reinforcement learning portfolios

TR-RRL是将Sterling ratio作为目标函数，最大化Sterling ratio。根据Sterling ratio的梯度，更新权重。

为了训练该模型使其具有与其他模型相同的循环数量，我们需要选择一个接近零的数（例如0.0001），以避免出现除零错误。我们提出了两种投资组合：the Sterling Ratio Equally Weighted (TR-RRL EW) Long/Short (L/S) Portfolio 和 the Sterling Ratio Variable Weight (TR-RRL VW) Long/Short (L/S) Portfolio，即等权重和可变权重两种。
图7中，这两种投资组合、根据有效边界（efficient frontier）生成的四种投资组合、基准策略进行比较：

TR-RRL在投资期结束时的表现最好，其中μ = 100 ，δ = 0bp。

4.3. Calmar ratio recurrent reinforcement learning portfolios

我们使用Calmar比率作为目标函数。与夏普比率相比，Calmar比率对极端亏损更为敏感，而夏普比率则考虑了平均偏差。我们的目标是确定较大的亏损是否会导致动态优化过程中的差异。在Calmar比率中，我们增加了方程评估的数量到10000.因为最大回撤的期望是基于回报的均值和标准差，不会产生除零错误。实验中，我们测试了两种投资组合：the Calmar Ratio Equally Weighted (CR-RRL EW) Long/Short (L/S) Portfolio 和 the Calmar Ratio Variable Weights (CR-RRL VW) Long/Short (L/S) Portfolio.
图8中展示了投资组合的表现，使用Calmar比率作为目标函数，其中μ = 100 and δ = 0 bp。
这两种投资组合、根据有效边界（efficient frontier）生成的四种投资组合、基准策略进行比较：

CR-RRL在大部分时间都比其他方法好，直到结束。
表2中，我们使用多核计算机，显示了每个模型的训练计算时间：

可以观察到，不同方法在计算时间方面的差异很小，只相差几分钟。目标函数的选择，会影响梯度的计算，进而影响参数的训练。目标函数不能沿梯度方向增加的情况下，算法可能会停在局部最大值，而没能有效地训练参数。

4.4. Transaction cost sensitivity analysis

在交易系统中，需要考虑所有的交易成本。本节中，我们考察了交易成本对不同投资组合策略盈利能力的影响。经验表明，纽约证券交易所大盘股的平均买卖的交易成本至少为20个基点。在成本的敏感性分析中，我们采用了单向交易成本，分别为10、15、20、25个基点。即使实际交易成本为每次（per round-trip）10个基点，投资组合策略仍优于对冲基金的行业指数表现。对15个基点的交易成本来说，CR-RRL策略平均来说依然是盈利的，但存在巨大亏损的可能。一般而言，这些策略无法补偿超过20个基点的交易成本。这需要系统级别的设计，以适应高交易成本，进一步改善投资组合的性能表现。
图9中，我们比较了CR-RRL和SR-RRL的表现：

由于交易成本，CR-RRL的累计回报比SR-RRL高。我们可以根据所产生的信号得出，与SR-RRL相比，CR-RRL在某些资产中的持仓变化频率较低。对于CLY ETF来说，这一点尤为明显，投资组合因交易成本而遭受损失。信号的一致性意味着，保持资产仓位不变的时间更长，从而降低了交易成本。
图10和11分别显示了CLY ETF使用CR-RRL和SR-RRL方法产生的信号之间的差异。

这是合理的，因为相比夏普比率，Calmar比率对较大的损失更敏感，从而导致交易频率更低。因此，夏普比率产生频繁的再平衡信号，所以交易成本相对Calmar比率更高。
表3显示了，投资组合中分别将夏普比率、Sterling比率和Calmar比率作为目标函数，再计算每种投资组合的夏普比率：

总体而言，Calmar比率的表现一直优于夏普比率和Sterling比率。当交易成本增加时，夏普比率的表现下降了，而Calmar比率保持几乎相同的表现，见表4和表5：

基于Calmar比率的投资组合，对应的夏普比率随着交易成本的增加而增大了。因为交易成本对收益标准差的影响大于收益的平均值，这是因为低标准差的投资组合能产生较高的收益。无论有无交易成本，Sterling比率的表现处于中间。当交易成本上升到15个基点时，夏普比率和Sterling比率都开始产生负的年化收益。在没有交易成本的情况下，Calmar比率的表现较好。在高交易成本下（δ = 20 bps），夏普比率损失较大，Calmar比率的收益有轻微的下降。
在第5节中，我们建议进行止损（stop-loss）控制，以限制交易成本的影响，见表6.

5. Trading system and discussion

我们基于RRL开发了三种不同的自适应交易系统，分别使用三种不同的目标函数。在RRL系统中，交易员可以选择一个对投资组合有利的目标函数，系统参数根据目标函数进行训练。我们使用了三种不同的目标函数，并对五个ETF基金的组合进行了实验。实验中，投资组合的权重默认是等权重的。
图12展示了交易系统的设计，用户需要选择目标函数（在三种比率中选一种），以及资产和价格的时间框架T。用户还需要选择决策步骤的数目M，M<T.资产的数据来自yahoo财经。系统将使用时间T的历史回报对参数进行训练。训练后，用户需要从两种资产配置策略中进行选择（等权重的组合，还是RRL定义的组合）。系统将输出每项资产的长期、短期的决策以及配置策略。用户需要选择是否使用动态止损退出策略，该策略将会停止交易并对系统重新训练。如果用户不希望止损退出，则输出将会被保存供系统的下一次使用，会从给定的输出中继续学习。系统按照预先定义的交易成本每股δ = 10 bps， μ = 100进行训练，期间没有使用止损策略。在真实交易系统中，投资者能够根据过去的交易记录估计其交易成本，同一组资产的交易成本可以在不同时期发生变化，然后系统为了适应这些变化重新进行训练。当每股δ ≥ 15bps时，系统建议用户使用Calmar比率，Calmar比率会最小化最大回撤。

图13中，我们比较了三种策略的表现，2014到2015这两年内的每个月的数据，δ = 1 bp and μ = 100。

表7展示了不同策略的表现，CR-RRL在各项指标中均表现较好：

5.1. Dynamic stop−loss strategy

在系统中，累计回报的定义如式（13）所示：

止损策略仅在测试阶段使用，在训练过程中不使用。图14中，CR-RRL在第91周时退出市场并停止交易：

系统将根据最新的市场变动对参数重新进行训练。表8中，我们比较了CR-RRL在不同交易成本下的表现：

表8中，止损策略在δ ≥ 25 bps时，止损策略会在波动性较大的时候退出市场，并且重新训练模型参数，然后生成新的信号重新进入市场。利用最新的回报对模型参数重新训练，直到退出点，以面对不断变化的市场。

6. Conclusion

本文中，我们使用循环强化学习来解决动态投资组合优化问题，提出了四种投资组合，并将他们与buy-and-hold策略进行对比。我们使用RRL方法来优化投资组合的权重，并在预先设定的时间范围内对投资组合重新平衡。我们比较了夏普比率和Calmar比率作为目标函数时的差别，并通过交易成本来检测其性能。我们比较了Sterling比率的表现，该比率是用回撤的平均指数移动来表示下行风险的。由于缺乏必要的统计特性，Sterling比率在优化过程中会出现计算故障。
通过使用ETF对投资组合进行回测，我们可以得到以下结论：

可变权重的表现优于等权重的；
Calmar比率的表现一直优于Sterling比率；
基于最大回撤期望值的交易系统，采用止损策略，对交易成本表现更好，并且始终优于作为基准的对冲基金；

与夏普比率相比，基于Calmar比率和RRL的投资组合的表现明显更好，对交易成本也更加灵活。
基于提出的投资组合再平衡策略，我们提出了自适应交易决策系统，考虑了交易成本和市场变化，结果表明系统的表现一直优于基准策略和对冲基金行业平均指数（hedge fund industry average index）。我们说明了这种使用最大回撤期望值的方法如何过滤市场噪音和识别重大交易型号，也说明了交易决策系统在交易成本和止损策略下如何适应不同的市场条件。