MSPM: A modularized and scalable multi-agent reinforcement learning-based system for financial portfolio management

1 本文解决了什么问题？

金融市场是不断变化的，但很少有方法关注系统的可扩展性和可重用性，以适应不断变化的市场。现有的系统几乎无法扩展，无法满足在投资组合中扩大资产数量和增加异构数据输入的需求。此外，现有的系统缺乏模块化设计，无法兼容不同资产的不同 RL agent。

本文提出的 MSPM 系统，具有 模块化 和 可扩展 的特点。本文贡献：

MSPM 是第一种将模块化和可扩展的多智能体强化学习系统形式化，使用由信号组成的信息进行金融投资组合管理的方法。
MSPM 的模块化和可扩展的设计解决了现有基于 RL 的方法中固定且低效的模型训练问题。
通过实验和比较，在2020年1月至12月的全球流感大流行期间，在美国股市的极端市场条件下，MSPM 系统的表现优于五种不同的基线。

2 解决方法是什么？

MSPM 的框架如下图所示，其中包含了两个模块，分别为 Evolving Agent Modules (EAMs) 和 Strategic Agent Modules (SAMs)。每个 EAM 负责一个资产，使用 DQN 方法，利用异构的数据产生由信号组成的信息。每个 SAM 都是一个投资组合模块，通过接收来自不同 EAM 连接堆叠的三维张量 profound state V+V^+V+，使用 PPO 方法来重新分配资产。

每个 EAM 包含一个 DQN 代理，并为指定的资产生成由信号组成的信息（带有买入/交割/跳跃标签的历史价格）。为了在 EAM 中训练代理，作者构建了一个序列决策问题，并将指定 资产的历史价格 和 财务新闻 作为代理在每个时间步长中所观察到的状态。DQN 代理的动作是根据最新价格和财务新闻数据输入购买头寸、关闭头寸或保持不变，以最大化其总回报。然后，这些动作（信号）将被匹配并堆叠回相应的价格数据，以形式化由信号组成的信息。

SAM 管理一个投资组合，并包含一个 PPO 代理，它可以重新分配该投资组合中的资产。SAMs 与多个 EAMs 相连，因为一个投资组合通常有多个资产。在 SAM 的决策过程中，PPO 代理在每个时间步长中观察到的状态是所连接的 EAMs 产生的由信号组成的信息的组合。PPO 代理将为投资组合中的资产生成重新分配权重。

对于 EAM 和 SAM 来说，资产的历史价格和财务新闻或新闻情绪的构成是它们的代理所互动的环境。每个 EAM 都是可重用的。EAM 会定期使用来自市场、媒体、金融机构等的最新信息进行再训练。

2.1 Evolving Agent Module (EAM)

EAM 的框架如下图所示。EAM 是一个指定资产的模块。每个 EAM 采用两种类型的异构数据：

指定资产的历史价格
与资产相关的财务新闻

在 EAM 的中心是一个扩展的 DQN 代理（就是使用了 duling network，double DQN 和 two-step Bellman unrolling），使用一维卷积残差网络来进行序列决策。我们不是从头开始训练每个 EAM，而是通过使用基础 EAM 进行迁移学习来训练 EAM。在每一个时间步 ttt，DQN 代理 EAM 观察状态 vtv_tvt 的历史价格 sts_tst 和新闻情绪 ρtρ_tρt 指定资产，对交易作出动作 atsiga_t^{sig}atsig 包括买、卖和跳过。最终使用价格张量 sts_tst 和信号 atsiga_t^{sig}atsig 生成二维信号张量 stscs_t^{sc}stsc。

State. 在任何给定的周期（每日）时间步长 ttt 时，EAM 中的代理观察状态 vtv_tvt，该状态 vtv_tvt 包括指定资产最近的 nnn 天历史价格 sts_tst 和情绪得分 ρtρ_tρt：
vt=(st,ρt)v_{t}=\left(s_{t}, \rho_{t}\right) vt=(st,ρt)

其中，sss 包括指定资产的 nnn 日收盘、开盘、最高、最低价格和成交量。ρρρ 包括预测的和平均的新闻情绪，使用预先训练的 FinBERT 分类器对资产相关的金融新闻，其范围连续从 -5.0 到 5.0，表明看跌（-5.0）或看涨（5.0）。此外，ρρρ 还包括 news_buzz。这一属性是为了缓解现有研究中的不平衡新闻问题。环境并不是在每次情景重置后就从头重新开始，而是在数据的一个随机时间点进行重置。

由于来自 FinSentS 数据的新闻情绪和由 FinBERT 产生的情绪是相似的，并且由于 api 和 web 抓取的限制，本文只使用 FinSentS 数据作为本文实验的情绪输入。

Deep Q-Network. 对于 EAM，作者训练一个 DQN 代理，并遵循 Deep Q-Learning 的顺序决策。Deep Q-Learning 是一种基于值的方法，它推导出一个确定性的策略 π(θ)\pi(\theta)π(θ)，该策略做一个从状态空间到离散的动作空间的映射 S→AS \rightarrow AS→A。作者使用具有 1-D 卷积的残差网络来表示状态值函数 QθQ^θQθ，代理基于以下行为进行操作：
Qθ(st,at)=Eπθ[∑k=0∞γkrt+k+1∣st=s,at=a]Q^{\theta}\left(s_{t}, a_{t}\right)=\mathbb{E}_{\pi_{\theta}}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s, a_{t}=a\right] Qθ(st,at)=Eπθ[k=0∑∞γkrt+k+1∣st=s,at=a]

Transfer learning. 我们不是从头开始培训每一个 EAM，而是使用 AAPL（苹果公司）的历史价格来启动并培训一个基础的 EAM，然后基于这个预先训练过的 EAM 来培训所有其他的 EAM。通过这样做，基础 EAM 与其他 EAM 共享其参数，从而获得对股票趋势模式的先验知识。这种迁移学习方法可能有助于解决新上市股票的数据短缺问题，因为历史价格和可用于培训目的的新闻数据有限。

Actions. EAM 中的 DQN 代理在 ttt 的每个时间步中都以买卖或跳过的行为来交易指定的资产。动作的选择 at={buying, closing or skipping }a_{t}=\{\text { buying, closing or skipping } \}at={ buying, closing or skipping } 被称为资产交易信号。注意，动作没有空头（卖空）头寸，只有在现有头寸关闭后才会开设新头寸。

Reward. DQN 代理在每个时间步 ttt 处收到的奖励 rtr_trt 为：
rt(st,lt)={100(∑i=tttvt(close)vt−1(close)−1−β),if ιt0,if not ιtr_{t}\left(s_{t}, l_{t}\right)=\left\{\begin{array}{l} 100\left(\sum_{i=t_{t}}^{t} \frac{v_{t}^{(\text {close})}}{v_{t-1}^{(\text {close})}}-1-\beta\right), \text { if } ι_{t} \\ 0, \text { if not } ι_{t} \end{array}\right. rt(st,lt)=⎩⎨⎧100(∑i=tttvt−1(close)vt(close)−1−β), if ιt0, if not ιt

其中，vt(close)v_{t}^{( \text {close})}vt(close) 为给定资产在 ttt 时刻的收盘价格，tlt_ltl 是开立多头头寸并扣除佣金时的时间步长。βββ 代表 0.0025 的佣金，ιtι_{t}ιt 是一个开仓指标（即，一个仓位持续开放）。

2.2 Strategic Agent Module (SAM)

SAM 的框架如下所示。SAM 是一个投资组合生成的模块，SAM 的输入是一个三维张量，称为深度状态 Vt+∈Rf×m∗×nV_{t}^{+} \in \mathbb{R}^{f \times m^{*} \times n}Vt+∈Rf×m∗×n。其中 fff 为特征的数量，m∗=m+1m^{*}=m+1m∗=m+1 为资产的数量 mmm 加上现金，nnn 为固定的滑动窗口的长度。每个 SAM 采用由连接的二维张量堆叠和转换的深度状态 Vt+V_t^+Vt+，并进一步生成投资组合中资产的重新分配权值。

State (stacked signal-comprised tensor). EAMs 经过训练后，就会根据指定资产的新的历史价格 sts_tst 和财务新闻，产生预测交易信号。然后，我们将相同的新历史价格堆叠到一个 atsiga_t^{sig}atsig 中，以形式化一个由二维信号组成的张量 atsca_t^{sc}atsc 作为训练 SAM 的数据源。由于一个 SAM 连接到多个 EAM，来自所有连接 EAM 的二维信号组成的张量被堆叠并转换为一个三维信号组成的张量，称为深度状态 vt+v_t^+vt+，这是 SAM 在每个时间步 ttt 观察到的状态。

Proximal policy optimization. PPO 代理是 SAM 的中心来重新分配资产。PPO 是一种 actor-critic 的策略梯度方法，由于其理想的性能和易于实现，被广泛应用于连续动作空间问题。策略 πθπ_θπθ 是一个从状态空间转换到动作空间的参数化映射：S×A→[0,1]S \times A \rightarrow[0,1]S×A→[0,1]。在 PPO 的不同目标函数中，我们实现了裁剪的目标函数：
L(θ)=E^πθ′[min⁡(rt(θ)Atθ′,clip⁡(rt(θ),1−ϵ,1+ϵ)Atθ′)]L(\theta)=\hat{\mathbb{E}} \pi_{\theta^{\prime}}\left[\min \left(r_{t}(\theta) A_{t}^{\theta^{\prime}}, \operatorname{clip}\left(r_{t}(\theta), 1-\epsilon, 1+\epsilon\right) A_{t}^{\theta^{\prime}}\right)\right] L(θ)=E^πθ′[min(rt(θ)Atθ′,clip(rt(θ),1−ϵ,1+ϵ)Atθ′)]

其中，
rt(θ)=πθ(at∣st)πθ′(at∣st)r_{t}(\theta)=\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta^{\prime}}\left(a_{t} \mid s_{t}\right)} rt(θ)=πθ′(at∣st)πθ(at∣st)

并且 Atθ′A_{t}^{\theta^{\prime}}Atθ′ 为优势函数，表示为：
Atθ′=Qθ′(st,at)−Vθ′(st)A_{t}^{\theta^{\prime}}=Q^{\theta^{\prime}}\left(s_{t}, a_{t}\right)-V^{\theta^{\prime}}\left(s_{t}\right) Atθ′=Qθ′(st,at)−Vθ′(st)

其中，状态-动作价值函数 Qθ′(st,at)Q^{\theta^{\prime}}\left(s_{t}, a_{t}\right)Qθ′(st,at) 为：
Qθ′(st,at)=Eπθ′[∑k=0∞γkrt+k+1∣st=s,at=a]Q^{\theta^{\prime}}\left(s_{t}, a_{t}\right)=\mathbb{E}_{\pi_{\theta^{\prime}}}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s, a_{t}=a\right] Qθ′(st,at)=Eπθ′[k=0∑∞γkrt+k+1∣st=s,at=a]

价值函数 Vθ′(st)V^{\theta^{\prime}}\left(s_{t}\right)Vθ′(st) 为：
Vθ′(st)=Eπθ′[∑k=0∞γkrt+k+1∣st=s]V^{\theta^{\prime}}\left(s_{t}\right)=\mathbb{E}_{\pi_{\theta^{\prime}}}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t+k+1} \mid s_{t}=s\right] Vθ′(st)=Eπθ′[k=0∑∞γkrt+k+1∣st=s]

针对 PPO 代理，作者受 EIIE 拓扑的启发，设计了一个针对财务投资组合管理问题中连续行动空间的唯一性的策略网络架构。因为资产在 ttt 时刻重新分配权重严格要求总和为 1，因此作者设置了 m∗m^*m∗ 个正态分布，N1(μt1,σ),…,Nm∗(μtm∗,σ)N_{1}\left(\mu_{t}^{1}, \sigma\right), \ldots, N_{m^{*}}\left(\mu_{t}^{m^{*}}, \sigma\right)N1(μt1,σ),…,Nm∗(μtm∗,σ)。作者从分布中采样 xt∈Rm∗×1x_{t} \in \mathbb{R}^{m^{*} \times 1}xt∈Rm∗×1，其中，m∗=m+1m^{*}=m+1m∗=m+1，μt∈R1×m∗×1\mu_{t} \in \mathbb{R}^{1 \times m^{*} \times 1}μt∈R1×m∗×1 为神经网络最后一层的线性输出，标准差 σ=0\sigma=0σ=0。最终得到了在 at=Softmax⁡(xt)a_{t}=\operatorname{Softmax}\left(x_{t}\right)at=Softmax(xt) 下的重新分配权值和 PPO 代理学习的对数概率。

Action. PPO 代理在每个时间步长 ttt 时所采取的动作为：
at=(a1,t,a2,t,…,am∗,t)Ta_{t}=\left(a_{1, t}, a_{2, t}, \ldots, a_{m^{*}, t}\right)^{T} at=(a1,t,a2,t,…,am∗,t)T
这是在每个时间步长 ttt 处重新分配权值的向量，并且 ∑i=1m∗ai,t=1\sum_{i=1}^{m^{*}} a_{i, t}=1∑i=1m∗ai,t=1。投资组合会随着价格波动而发生变化。

在 ttt 时刻，是先做出动作 ata_tat，这个 ata_tat 是根据历史情况和交易信号得出的。但在 ttt 时刻资产的价格发生了变动，因此最终的投资组合需要做一个跟资产价格变化相关的变化。

一旦资产被 ata_tat 重新分配，投资组合的分配权重最终成为：
wt=yt⊙atyt⋅atw_{t}=\frac{y_{t} \odot a_{t}}{y_{t} \cdot a_{t}} wt=yt⋅atyt⊙at

在时间步 ttt 结束时，由于时间步 ttt 期间的价格波动；其中：
yt=vt+(close)vt−1+(close)=(1,v2,t+(close)v2,t−1+(close),…,vm∗,t+(close )vm∗,t−1+(close ))Ty_{t}=\frac{v_{t}^{+(\text {close})}}{v_{t-1}^{+(\text {close})}}=\left(1, \frac{v_{2, t}^{+(\text {close})}}{v_{2, t-1}^{+(\text {close})}}, \ldots, \frac{v_{m^{*}, t}^{+(\text {close })}}{v_{m^{*}, t-1}^{+(\text {close })}}\right)^{T} yt=vt−1+(close)vt+(close)=(1,v2,t−1+(close)v2,t+(close),…,vm∗,t−1+(close )vm∗,t+(close ))T

是相对价格向量，即资产价格随时间的变化，包括资产和现金的价格。vi,t+(close)v_{i, t}^{+(\text {close})}vi,t+(close) 表示第 iii 个资产在 ttt 时间点的收盘价，其中 i={2,…,m∗}i=\{2, \ldots,m^*\}i={2,…,m∗}，不包括其收盘价应始终为 1 的现金（无风险资产）。

Reward. 作者将奖励设置为风险调整的回报率 rt∗r_t^*rt∗，PPO 代理在每个时间步 ttt 收到：
rt∗(st,at)=ln⁡(at⋅yt−β∑i=1m∗∣ai,t−wi,t∣−ϕσt2)r_{t}^{*}\left(s_{t}, a_{t}\right)=\ln \left(a_{t} \cdot y_{t}-\beta \sum_{i=1}^{m^{*}}\left|a_{i, t}-w_{i, t}\right|-\phi \sigma_{t}^{2}\right) rt∗(st,at)=ln(at⋅yt−βi=1∑m∗∣ai,t−wi,t∣−ϕσt2)

其中，m∗m^*m∗ 为资产数量，wtw_twt 表示时间步长 ttt 结束时资产的分配权重。交易成本为：
β∑i=0n∣ai,t−wi,t∣\beta \sum_{i=0}^{n}\left|a_{i, t}-w_{i, t}\right| βi=0∑n∣ai,t−wi,t∣

其中 β=0.0025β=0.0025β=0.0025 为佣金率，φ=0.001φ=0.001φ=0.001 为风险折扣，可以作为超参数进行微调。
σt2=1n∑t−n+1t∑i=1m∗(yi,t−n+1,yi,t−n+1‾)2\sigma_{t}^{2}=\frac{1}{n} \sum_{t-n+1}^{t} \sum_{i=1}^{m^{*}}\left(y_{i, t-n+1}, \overline{y_{i, t-n+1}}\right)^{2} σt2=n1t−n+1∑ti=1∑m∗(yi,t−n+1,yi,t−n+1)2

衡量过去 nnn 天内资产价格波动的波动性。其中，
yi,t−n+1‾=1n∑t−n+1tyi,t−n+1\overline{y_{i, t-n+1}}=\frac{1}{n} \sum_{t-n+1}^{t} y_{i, t-n+1} yi,t−n+1=n1t−n+1∑tyi,t−n+1

是个人资产利润的波动性。我们期望代理在 每一步都能获得最大的风险调整回报率（资本利得），正如投资组合经理所预期的那样。

3 有什么关键实验结果？

作者构建不同的投资组合，并训练 MSPM 定期重新分配每个投资组合中的资产。

3.1 实验设置

作者首先提出两个投资组合来比较回测的性能：

(a) 包含三支股票：Apple, AMD, and Alphabet (symbol codes: [AAPL, AMD, GOOGL]);

(b) 包含三支股票：Alphabet, Nvidia, and Tesla (symbol codes: [GOOGL, NVDA, TSLA]).

为了构建投资组合(a)和投资组合(b)，作者训练了两名 SAM/MSPMs：SAM/MSPM(a) 和 SAM/MSPM(b).

随后，我们提出了另外两个投资组合©和(d)，它们总共有四个投资组合，以验证 EAM 的必要性。对于所有这四个投资组合，我们将初始投资组合值设置为 p0=10,000p_0=10,000p0=10,000。

在待训练的 EAMs 中，对基础 EAM(AAPL) 进行初始训练，其参数与其他 EAMs 共享，作为迁移学习的基础。

EAM-training 数据：从2009年1月到2015年12月，包含了投资组合(a)和(b)中包括 AAPL 在内的股票的历史价格(sts_tst)和新闻情绪(ρtρ_tρt)

EAM-predicting 数据：具有与 EAM-training 相同的数据结构，范围为2016年1月至2020年12月，用于 EAMs 预测和生成交易信号(DQN 代理的行动)。

然后，EAM-predicting 数据和生成的交易信号成为 SAM/MSPMs 的信号组成数据。有三个数据集的信号组成数据：SAM/MSPM-training 和 SAM/MSPM-validating 数据分别为 SAMs 的训练数据和测试数据。SAM/MSPM-experiment 数据从2020年1月到2020年12月，用于回测。

Performance metrics. 作者用以下指标来评估性能：

Daily Rate of Return (DRR) 每日收益率：
DRRT=1T∑t=1Texp⁡(Rt)D R R_{T}=\frac{1}{T} \sum_{t=1}^{T} \exp \left(R_{t}\right) DRRT=T1t=1∑Texp(Rt)
其中，TTT 是终止时间步长，同时
Rt=ln⁡(at⋅yt−β∑i=1m∗∣ai,t−wi,t∣)R_{t}=\ln \left(a_{t} \cdot y_{t}-\beta \sum_{i=1}^{m^{*}}\left|a_{i, t}-w_{i, t}\right|\right) Rt=ln(at⋅yt−βi=1∑m∗∣ai,t−wi,t∣)
是在每个时间步获得的风险未调整的周期（每日）回报率。
Accumulated rate of return (ARR) 累计收益率：
ARRT=pTp0A R R_{T}=\frac{p_{T}}{p_{0}} ARRT=p0pT
其中，TTT 为终止时间步长，p0p_0p0 为初始时间步长时的投资组合值，以及
pT=p0exp⁡(∑t=1TRt)p_{T}=p_{0} \exp \left(\sum_{t=1}^{T} R_{t}\right) pT=p0exp(t=1∑TRt)
这代表了在终止时间步长中的投资组合价值。
Sortino ratio (SR)
Max drawdown (MD)

对于 DRR，ARR 和 SR，我们希望它们尽可能高，而我们希望 MD 尽可能低。

Baseliens 作者用以下方法作为对比实验：

CRP，持续重平衡投资组合，保持平均分配资产 1/N1/N1/N；
Buy and hold (BAH)，不再平衡进行投资。一旦投入，就不会再分配；
Exponential gradient portfolio (EG)，将资本投资到表现最好的最新股票上，并使用一个正则化项来维护投资组合信息。
Follow the regularized leader (FTRL)，跟踪最佳常数重新平衡组合直到上一时期，附加一个正则化项。该策略基于数据的整个历史进行重新加权，并期望获得最大的回报。
ARL，投资组合管理中的对抗性深度强化学习，最先进的基于 RL 的投资组合管理方法。

3.2 实验结果

如图7和图8所示，对于投资组合(a)和(b)，MSPM 系统在 2020 年的 ARR 相比至少提高了 49.3% 和 426.6% ，比传统策略策略 CRP 提高了 186.5% 和 369.8%。研究结果表明了 MSPM 在获得资本回报方面的优势。表3给出了 MSPM 在 ARR 和 DRR 方面优于现有基线的详细表现。此外，MSPM 在 SR 上的优越表现表明，MSPM 更好地考虑了有害的波动性，并获得了更高的风险调整回报。

值得注意的是，对于投资组合(a)，MSPM 和 ARL 都实现了良好的 SR，但对于投资组合(b)，只有 MSPM 的 Sortino比率比 ARL 好得多，这表明 MSPM 对不断变化的市场具有更高的适应性。

Stability of daily rate of return (DRR)

由于 MSPM 对投资组合(b)的高最大下降(MD)（60.6%），我们想要检查和比较 MSPM 和 ARL 之间的 DRR 的一般稳定性。为此，我们首先计算 DRR 的 5天滚动标准差（RstdDRR）作为 DRR 稳定性的代理。RstdDRR 越高，说明 DRR 的稳定性越低。
SMAi=DRRi−n+1+DRRi−n+2+…+DRRinRstdDRRi=(DRRi−n+1−SMAi)2+(DRRi−n+2−SMAi)2+…+(DRRi−SMAi)2nS M A_{i}=\frac{D R R_{i-n+1}+D R R_{i-n+2}+\ldots+D R R_{i}}{n} \\ R_{s t d D R} R_{i}=\sqrt{\frac{\left(D R R_{i-n+1}-S M A_{i}\right)^{2}+\left(D R R_{i-n+2}-S M A_{i}\right)^{2}+\ldots+\left(D R R_{i}-S M A_{i}\right)^{2}}{n}} SMAi=nDRRi−n+1+DRRi−n+2+…+DRRiRstdDRRi=n(DRRi−n+1−SMAi)2+(DRRi−n+2−SMAi)2+…+(DRRi−SMAi)2

图9为投资组合(a)的 MSPM 和 ARL 的 RstdDRR 的直方图，图10中的直方图为投资组合(b)。从图9可以看出，ARL 的 RstdDRR 的右尾比 MSPM 的 RstdDRR 更大，MSPM 的平均 RstdDRR (M(a)M_{(a)}M(a)=0.031，SDaSD_aSDa=0.019) 低于 ARL (M(a)M_{(a)}M(a)=0.034，SDaSD_aSDa=0.020)，表明 MSPM 在投资组合(a)上具有更高的 DRR 稳定性。

图10显示 MSPM 的 RstdDRR 右尾比 ARRR 的 RstdDRR更大，MSPM 的平均 RstdDRR (M(b)M_{(b)}M(b)=0.049，SDbSD_bSDb=0.027) 高于 ARL (M(b)M_{(b)}M(b)=0.032，SDaSD_aSDa=0.022)。

结果表明，MSPM 虽然在获得资本回报方面取得了突出的表现，但它自然并没有具有较高的稳定性。然而，低稳定性（或高风险）并不一定是指危险。由于对于投资组合(a)和(b)，MSPM 都具有最高的 Sortino 比率，这只考虑了下行风险，因此 MSPM 对投资组合(b)的较低的稳定性可能来自于较高的上行风险。总之，在性能和稳定性之间应该存在权衡，这可以在未来的研究中进一步研究和考虑。

EAM: Case study

为了更好地理解EAM对SAM的贡献，我们使用图11-15中投资组合(a)和(b)的 EAMs 产生的信号来说明位置持有信息。这些数字代表了五种基础资产：AAPL、AMD、GOOGL、NVDA、TSLA。在每个图中，购买和跳过的信号用青色和橙色的圆圈标记，打开或关闭的仓位用星号或正方形符号标记。当一个仓位被打开而尚未关闭后产生第一个关闭信号时，一个位置被关闭。我们使用虚线来划分不同的位置保持周期。无仓位的期间将被保留为空。根据图中所示的结果，对于大多数资产，相应的 EAMs 在正确的时间开平仓。

Validation of EAM

如图所示，启用 EAM 的 MSPMs 总是比禁用 EAM 的 MSPMs 表现得更好。如表中所示，在 DRR、ARR 和 SR 方面的性能大大优于禁用 EAM 的MSPMs。在投资组合(d)方面，EAM 启用的 MSPM 的 ARR 和 SR 分别为 115.6% 和 2.45，而 EAM 禁用的 MSPM 的 ARR 和 SR 分别为 -5.9% 和 0.01。

投资组合©由三只股票组成：Alphabet, Nvidia, and Amazon (symbol codes: [GOOGL, NVDA, AMZN])，投资组合(d)由其他三只股票组成：Nvidia, Facebook, and Microsoft (symbol codes: [NVDA, FB, MSFT])。

【文献阅读】MSPM： A multi-agent reinforcement learning-based system for financial portfolio management相关推荐

【文献阅读】Actor-Attention-Critic for Multi-Agent Reinforcement Learning
1 解决了什么问题? 多智能体强化学习算法主要有三种. 第一种方法是独立地训练环境中的每个 agent,以最大化个人的收益,将其他 agent 视为环境的一部分.该方法违反了强化学习的基本假设,即环 ...
【文献阅读03】Deep Reinforcement Learning Based Resource Allocation for V2V Communications
Deep Reinforcement Learning Based Resource Allocation for V2V Communications(点击可见原文) p.s.此文19年发表,到20 ...
阅读《A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping Debang》
阅读<A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping Debang> 一: 文章的主要任务本文介绍的是 ...
文献阅读：SimCSE：Simple Contrastive Learning of Sentence Embeddings
文献阅读:SimCSE:Simple Contrastive Learning of Sentence Embeddings 1. 文献内容简介 2. 主要方法介绍 3. 主要实验介绍 1. STS ...
基于深度强化学习的车道线检测和定位（Deep reinforcement learning based lane detection and localization）论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位官方源码下载:https://github.co ...
POSTER: A PU Learning based System for Potential Malicious URL Detection
POSTER: A PU Learning based System for Potential Malicious URL Detection 基于PU学习的潜在恶意URL检测系统 POSTER: ...
论文阅读：DRN: A Deep Reinforcement Learning Framework for News Recommendation
文章目录摘要一.Introduction 1.引入原因 2.结构框架二.相关工作 1.新闻推荐算法 2.推荐中的强化学习 3.问题定义三.实现原理 1.模型框架 2.特征构造 3.深度强化推荐 ...
多模态机器学习入门——文献阅读（一）Multimodal Machine Learning: A Survey and Taxonomy
文章目录说明论文阅读 Abstract Introduction Introduction总结 Applications:A Historical Perspective 补充与总结 3 MULT ...
文献阅读：《Generative Adversarial Active Learning for Unsupervised Outlier Detection》-2020 trans
文章工作:用GAN网络生成伪异常样本,结合已有正常样本,把异常检测转化为一个二分类任务贡献1: 本文提出用GAN作为异常样本的生成器,使生成的异常是有意义的异常.(针对问题:为了应对高维空间中异常样 ...

【文献阅读】MSPM： A multi-agent reinforcement learning-based system for financial portfolio management