【文献阅读】Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning

1 解决了什么问题？

在投资组合管理任务中存在两大问题：

非平稳的价格序列 和 复杂的资产相关性 使得特征表示的学习非常困难；
金融市场的实践性原则要求同时控制 交易成本 和 风险成本。

而现有的研究大多数都采用手工特征或没有考虑成本约束。

大致思路：本文设计了一种新型的 双流投资组合策略网络 来提取价格序列模式和资产相关性，并通过强化学习开发了一种新的成本敏感奖励函数来实现累积收益最大化和两种成本约束。

本文的主要贡献如下：

为了提取有意义的特征，本文设计了一种新颖的双流网络架构来捕获价格序列信息和资产相关信息；
为了控制交易成本和风险成本，本文开发了一种新颖的成本敏感奖励函数，利用强化学习去优化该奖励函数，所提出的 PPN 能够在控制两种成本的同时最大化累计回报；
作者从理论上分析了所提出的奖励函数接近最优性，也就是说，这个奖励函数的财富增长率可以接近理论最优值；
在真实数据集上的大量实验证明了该方法在盈利能力、成本敏感性和表示能力方面的有效性和优越性。

2 具体方法是什么？

2.1 PROBLEM SETTINGS

考虑一个金融市场上 nnn 个时期 m+1m+1m+1 资产的投资组合选择任务，包括 111 个现金资产和 mmm 个风险资产。在第 ttt 个时期，作者表示所有资产的价格为 pt∈R+(m+1)×dp_{t} \in \mathbb{R}_{+}^{(m+1) \times d}pt∈R+(m+1)×d，其中每一行 pt,i∈R+dp_{t,i} \in \mathbb{R}_{+}^dpt,i∈R+d 表示资产 iii 的特征，ddd 代表了价格的数量。在本文中，作者设置 d=4d=4d=4，只考虑四种价格，分别为开市价格、最高价格、最低价格和收市价格。可以将它推广到更多的价格以获得更多的信息。价格序列可以表示为 Pt={pt−k,..,pt−1}P_{t}=\left\{p_{t-k}, . ., p_{t-1}\right\}Pt={pt−k,..,pt−1}，其中，kkk 是价格序列的长度。

第 ttt 时刻的价格变化由价格相关矩阵 xt=ptcpt−1c∈R+m+1x_{t}=\frac{p_{t}^{c}}{p_{t-1}^{c}} \in \mathbb{R}_{+}^{m+1}xt=pt−1cptc∈R+m+1 决定，其中 ptcp_t^cptc 为资产的收市价格。xt,0x_{t,0}xt,0 为现金资产价格的变化。假设没有通货膨胀或通货紧缩，现金是无风险的，价格不变，也就是 {∀t∣xt,0=1}\left\{\forall t \mid x_{t, 0}=1\right\}{∀t∣xt,0=1}。由于现金资产在学习的过程中影响较弱，因此作者将其排除在输入之外，即 Pt∈Rm×k×4P_{t} \in \mathbb{R}^{m \times k \times 4}Pt∈Rm×k×4。在做决策时，投资的仓位由投资组合向量 at=[at,0,at,1,at,2,…,at,m]∈Rm+1a_{t}=\left[a_{t, 0}, a_{t, 1}, a_{t, 2}, \ldots, a_{t, m}\right] \in \mathbb{R}^{m+1}at=[at,0,at,1,at,2,…,at,m]∈Rm+1 所决定，其中 at,i≥0a_{t,i}≥0at,i≥0 为资产 iii 的占比，同时满足 ∑i=0m+1at,i=1\sum_{i=0}^{m+1} a_{t, i}=1∑i=0m+1at,i=1。这里的投资组合的决策也考虑了现金资产 at,0a_{t,0}at,0。

作者初始化投资组合向量为 a0=[1,0,...,0]a_0=[1,0,...,0]a0=[1,0,...,0]，将总财富初始化为 S0=1S_0=1S0=1。在 nnn 个时期后，累计财富（不考虑交易成本 ctc_tct）为 Sn=S0∏t=1nat⊤xtS_{n}=S_{0} \prod_{t=1}^{n} a_{t}^{\top} x_{t}Sn=S0∏t=1nat⊤xt；否则，考虑交易成本的累计财富为 Sn=S0∏t=1nat⊤xt(1−ct)S_{n}=S_{0} \prod_{t=1}^{n} a_{t}^{\top} x_{t}\left(1-c_{t}\right)Sn=S0∏t=1nat⊤xt(1−ct)。

两个假设：

完美的流动性：每笔交易都可以立即进行；

零市场影响：代理人的投资对金融市场，即环境没有影响。

当金融市场的交易量足够高时，两个一般假设都接近现实。

2.1.1 Markov Decision Process for Portfolio Selection

马尔可夫决策过程 (S,A,P,R)(\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R})(S,A,P,R)。

在时刻 ttt，agent 观测到一个状态 st=Pt∈Ss_{t}=P_{t} \in \mathcal{S}st=Pt∈S，然后做出动作 at=π(st,at−1)∈Aa_{t}=\pi\left(s_{t}, a_{t-1}\right) \in \mathcal{A}at=π(st,at−1)∈A，获得奖励 rt=at⊤xt∈Rr_{t}=a_{t}^{\top} x_{t} \in \mathcal{R}rt=at⊤xt∈R，下一个状态根据随机转移函数给出 st+1∼P(st)s_{t+1} \sim \mathcal{P}\left(s_{t}\right)st+1∼P(st)，其中 π(st,at−1)\pi\left(s_{t}, a_{t-1}\right)π(st,at−1) 为投资组合策略，at−1a_{t-1}at−1 为最后一个时期的动作。

当考虑到交易成本时，奖励调整为 rtc:=rt∗(1−ct)r_{t}^{c}:=r_{t} *\left(1-c_{t}\right)rtc:=rt∗(1−ct)，其中 ctc_tct 为交易成本的占比。如下图所示，投资组合政策网络充当 agent，旨在最大化累积回报，同时控制交易和风险成本。

2.2 PORTFOLIO POLICY NETWORK

在实践中，价格序列模式和资产相关性对于投资组合选择任务的决策都很重要。具体来说，价格序列模式反映了每种资产的价格变化；而资产相关性则反映了宏观市场走势和资产之间的关系。因此，有必要在学习过程中捕获这两种类型的信息。

为此，作者为 投资组合策略网络（PPN） 开发了一种双流架构来提取投资组合特征。PPN 由三个主要部分组成：

提取价格序列模式的序列信息网；
提取资产相关性的相关信息网；
决策模块。

2.2.1 Sequential Information Net

作者提出了一个基于 LSTM 的序列信息来提取投资组合的序列模式。如图所示，Sequential Information Net 分别对每个资产进行处理，并将每个资产的特征沿高度维串接成一个整体特征图。实证结果表明，仅考虑价格序列信息时，序列信息网能够提取良好的序列特征，有助于获得更多的利润。

2.2.2 Correlation Information Net

作者提出了 Correlation Information Net，以基于完全卷积操作来捕获资产相关信息。具体来说，作者设计了一个新的时间相关卷积块（TCCB）并用它来构建相关信息网络，利用扩张因果卷积操作对投资组合时间序列变化进行建模，并设计了一种新的相关卷积操作来捕获资产相关信息。

Dilated causal convolutions

作者使用基于 一维卷积的因果卷积 操作来提取序列信息。具体来说，它可以通过使用填充和过滤移位来保持序列顺序不变，并保证从未来到过去的信息不会泄漏。下图给出了一个简单的例子，它描绘了一堆内核大小为 3×1 的因果卷积。然而，因果卷积通常需要非常大的内核大小或过多的层来增加感受野，从而导致大量参数。

为了克服这个问题，作者使用膨胀操作来改进因果卷积，因为它可以保证指数级大的感受野。膨胀操作相当于在每两个相邻的滤波器抽头之间引入一个固定步长。上图中提供了一个简单的示例，该示例描述了内核大小为 3×1 的膨胀因果卷积堆栈。可以发现，扩张的因果卷积的感受野比因果卷积要大得多，两个卷积之间的感受野差距随着网络深度的增加呈指数增长。

Correlational convolutions

需要注意的是，现有的全卷积网络，如扩张的因果卷积，很难提取资产相关性，因为它们使用 1D 卷积分别处理 每个资产的价格。为了解决这一问题，作者设计了一种相关卷积运算，通过融合所有资产在每个时间步上的特征，将不同资产的价格信息结合起来。作者应用填充操作来保持特征映射的结构不变。通过此操作，关联信息网可以构造如图2所示的多块体系结构，在不改变资产特征结构的情况下，渐近提取资产相关性。

此外，我们将 TCCB 的退化变体表示为不使用相关卷积运算的 TCB。TCB 仅通过扩张的因果卷积提取价格序列信息。我们的实证研究表明，与 TCB 相比，TCCB 的相关信息网可以提取出良好的资产相关性，有助于获得更多的利润。这一结果进一步证明了资产相关性在投资组合选择中的重要性，并验证了相关信息网络的有效性。

2.2.3 Decision-making Module

根据所有提取的特征，PPN 做出最终的投资组合决策。为了避免交易成本过高，我们在决策过程中采用了递归的机制。也就是说，决策需要考虑上一时期的行动，这有助于阻止投资组合之间的巨大变化，从而限制激进的交易。

在实践中，我们直接将上一时期的投资组合向量连接到特征图中。这里，递归投资组合向量 at−1∈Rma_{t-1} \in \mathbb{R}^{m}at−1∈Rm 也排除了现金项，因为它是无风险的，对学习过程的影响很小。然后在所有的特征中加入一个固定的现金偏差来构造完整的投资组合 at∈Rm+1a_{t} \in \mathbb{R}^{m+1}at∈Rm+1，并通过 softmax 函数进行卷积运算来确定最终的投资组合。

PPN 的递归机制使得最优投资组合策略随时间变化，即，它是一个非平稳的投资组合选择过程。更关键的是，投资组合选择中标记良好的数据非常稀缺。这些挑战使 PPN 难以通过监督学习进行训练。

2.3 REINFORCEMENT LEARNING

作者采用强化学习来优化 PPN，并开发一种新的成本敏感奖励函数来约束优化过程中的交易成本和风险成本。

2.3.1 Direct Policy Gradient Algorithm

本文直接优化奖励函数，并使用奖励的策略梯度来训练 PPN，这种简单的策略梯度方法至少可以保证如下的次优解决方案。

Proposition 1 策略网络，也就是 PPN 的网络参数设为 θ\thetaθ，奖励设置为 RRR。如果策略网络的更新近似与梯度 △θ≈η∂R∂θ\triangle \theta \approx \eta \frac{\partial R}{\partial \theta}△θ≈η∂θ∂R 成正比（其中，η\etaη 为学习率），那么 θθθ 通常可以保证收敛于奖励 RRR 中的局部最优策略。

2.3.2 Cost-sensitive Reward Function

为了约束交易成本和风险成本，作者开发了一个新的成本敏感的回报函数。为此，首先设计了一个无交易成本的风险敏感奖励。

Risk-sensitive reward

假设没有交易成本，大多数现有方法都使用 log-return (log⁡rt)\left(\log r_{t}\right)(logrt) 作为奖励，因为它有助于保证 log-optimal 策略。

Proposition 2 如果没有交易成本且市场是平稳遍历的，则最大化期望对数收益（expected log-return E{log⁡rt}\mathbb{E}\left\{\log r_{t}\right\}E{logrt}）的投资组合策略可以达到对数最优策略，且理论增长率 Wˉ∗=lim⁡t→∞1tlog⁡Sˉt∗\bar{W}^{*}=\lim _{t \rightarrow \infty} \frac{1}{t} \log \bar{S}_{t}^{*}Wˉ∗=limt→∞t1logSˉt∗ 最大，其中 Sˉt∗\bar{S}_{t}^{*}Sˉt∗ 为累计财富。

在实践中，我们可以使用期望对数回报的经验近似 E{log⁡rt}\mathbb{E}\left\{\log r_{t}\right\}E{logrt} 作为奖励：R=1T∑t=1Tr^tR=\frac{1}{T} \sum_{t=1}^{T} \hat{r}_{t}R=T1∑t=1Tr^t，其中，r^t:=log⁡rt\hat{r}_{t}:=\log r_tr^t:=logrt 是第 ttt 期的对数回报，TTT 是抽样投资组合数据的总数。

然而，这种奖励忽略了风险成本，因此不太实用。为了解决这个问题，作者将抽样投资组合数据的 对数回报的经验方差定义为风险惩罚，即 σ2(r^t∣t=1,..,T)\sigma^{2}\left(\hat{r}_{t} \mid t=1, . ., T\right)σ2(r^t∣t=1,..,T)。根据这个，作者就定义出了一个风险敏感的奖励函数：
R=1T∑t=1Tr^t−λσ2(r^t)R=\frac{1}{T} \sum_{t=1}^{T} \hat{r}_{t}-\lambda \sigma^{2}\left(\hat{r}_{t}\right) R=T1t=1∑Tr^t−λσ2(r^t)
其中，λ≥0\lambda \geq 0λ≥0 为平衡两项的超参数。

接下来，作者证明了 风险敏感回报的近似最优性。它代表了关于这种风险敏感回报的策略与 Proposition 2 中不能约束风险成本的对数最优策略之间的关系。

Theorem 1 设 Wˉ∗\bar{W}^{*}Wˉ∗ 为 log-optimal 策略的增长率，设 St∗S_{t}^{*}St∗ 为最大化 E{log⁡rt}−λVar⁡{log⁡rt}\mathbb{E}\left\{\log r_{t}\right\}-\lambda \operatorname{Var}\left\{\log r_{t}\right\}E{logrt}−λVar{logrt} 的最优投资组合策略所获得的财富。在与 **Proposition 2 ** 相同的条件下，对于任何的 λ≥0\lambda \geq 0λ≥0 和 1e≤rt≤e\frac{1}{e} \leq r_{t} \leq ee1≤rt≤e，该策略的最大增长率满足:
Wˉ∗≥lim inf⁡t→∞1tlog⁡St∗≥Wˉ∗−94λ\bar{W}^{*} \geq \liminf _{t \rightarrow \infty} \frac{1}{t} \log S_{t}^{*} \geq \bar{W}^{*}-\frac{9}{4} \lambda Wˉ∗≥t→∞liminft1logSt∗≥Wˉ∗−49λ
由 Proposition 1 可知，当 λλλ 足够小时，该奖励的最优策略的增长率接近理论的最优策略，即对数最优策略。

Cost-sensitive reward

尽管有理论上的保证，但风险敏感回报不假设交易成本，因此是不够的。为了解决这一问题，作者通过考虑比例交易成本对其进行了改进。在此设置中，log-return 将被调整为 r^tc:=log⁡rtc=log⁡rt∗(1−ct)\hat{r}_{t}^{c}:=\log r_{t}^{c}=\log r_{t} *\left(1-c_{t}\right)r^tc:=logrtc=logrt∗(1−ct)。Expected rebalanced log-return 在面对交易成本时也能保证最优。

Proposition 3 如果市场是平稳的，且收益过程是齐次的一阶马尔可夫过程，那么在面对交易成本时，最大化 Expected rebalanced log-return E{log⁡rtc}\mathbb{E}\left\{\log r_{t}^{c}\right\}E{logrtc} 的策略是最优的，且增长率最大 W~∗=lim⁡t→∞1tlog⁡S~t∗\tilde{W}^{*}=\lim _{t \rightarrow \infty} \frac{1}{t} \log \tilde{S}_{t}^{*}W~∗=limt→∞t1logS~t∗，其中，S~t∗\tilde{S}_{t}^{*}S~t∗ 是该最优策略所获得的财富。

然而，优化这种 rebalanced log-return 并不能很好地控制交易成本。为了解决这一问题，作者进一步 对交易成本比例进行约束。设 ωt:=1−ct\omega_{t}:=1-c_{t}ωt:=1−ct 为净财富的比例，设 ψp\psi_{p}ψp 和 ψs\psi_{s}ψs 分别为购买和销售的交易成本率。在第 ttt 个周期，做完动作 ata_tat 后，我们需要从上一时刻的投资组合 a^t−1=at−1⊙xt−1at−1⊤xt−1\hat{a}_{t-1}=\frac{a_{t-1} \odot x_{t-1}}{a_{t-1}^{\top} x_{t-1}}a^t−1=at−1⊤xt−1at−1⊙xt−1 重新平衡到 ata_tat，其中 ⊙\odot⊙ 是元素乘法。在重新平衡后，如果 a^t−1,i−at,iωt>0\hat{a}_{t-1, i}-a_{t, i} \omega_{t}>0a^t−1,i−at,iωt>0 则进行销售；如果 at,iωt−a^t−1,i>0a_{t, i} \omega_{t}-\hat{a}_{t-1, i}>0at,iωt−a^t−1,i>0 则进行购买，因此：
ct=ψs∑i=1m(a^t−1,i−at,iωt)++ψp∑i=1m(at,iωt−a^t−1,i)+c_{t}=\psi_{s} \sum_{i=1}^{m}\left(\hat{a}_{t-1, i}-a_{t, i} \omega_{t}\right)^{+}+\psi_{p} \sum_{i=1}^{m}\left(a_{t, i} \omega_{t}-\hat{a}_{t-1, i}\right)^{+} ct=ψsi=1∑m(a^t−1,i−at,iωt)++ψpi=1∑m(at,iωt−a^t−1,i)+
其中，(x)+=max⁡(x,0)(x)^{+}=\max (x, 0)(x)+=max(x,0)。作者设置 ψp=ψs=ψ∈[0,1]\psi_{p}=\psi_{s}=\psi \in [0,1]ψp=ψs=ψ∈[0,1]，于是得到：
ct=ψ∥atωt−a^t−1∥1c_{t}=\psi\left\|a_{t} \omega_{t}-\hat{a}_{t-1}\right\|_{1} ct=ψ∥atωt−a^t−1∥1
去掉 ωt\omega_{t}ωt，就可以按照如下对 ctc_tct 进行约束。

Proposition 4 设交易成本比例为 ψ\psiψ，在 rebalance 之前和之后的的分仓为 a^t−1\hat{a}_{t-1}a^t−1 和 ata_{t}at。在 ttt 时刻的成本 ctc_tct 被约束为：
ψ1+ψ∥at−a^t−1∥1≤ct≤ψ1−ψ∥at−a^t−1∥1\frac{\psi}{1+\psi}\left\|a_{t}-\hat{a}_{t-1}\right\|_{1} \leq c_{t} \leq \frac{\psi}{1-\psi}\left\|a_{t}-\hat{a}_{t-1}\right\|_{1} 1+ψψ∥at−a^t−1∥1≤ct≤1−ψψ∥at−a^t−1∥1
其中，∥at−a^t−1∥1∈(0,2(1−ψ)1+ψ]\left\|a_{t}-\hat{a}_{t-1}\right\|_{1} \in\left(0, \frac{2(1-\psi)}{1+\psi}\right]∥at−a^t−1∥1∈(0,1+ψ2(1−ψ)]。

Proposition 4 表明，ctc_tct 的上下界与在 ∥at−a^t−1∥1\left\|a_{t}-\hat{a}_{t-1}\right\|_{1}∥at−a^t−1∥1 有关：L1L1L1 范数越小，上下界越小，ctc_tct 也就越小。通过约束 L1L1L1范数，根据 Theorem 1 和 Proposition 4，作者得到最终的成本敏感奖励为:
R=1T∑t=1Tr^tc−λσ2(r^tc)⏟risk-sensitive reward −γT−1∑t=2T∥at−a^t−1∥1⏟transaction cost constraint R=\underbrace{\frac{1}{T} \sum_{t=1}^{T} \hat{r}_{t}^{c}-\lambda \sigma^{2}\left(\hat{r}_{t}^{c}\right)}_{\text {risk-sensitive reward }}-\underbrace{\frac{\gamma}{T-1} \sum_{t=2}^{T}\left\|a_{t}-\hat{a}_{t-1}\right\|_{1}}_{\text {transaction cost constraint }} R=risk-sensitive reward T1t=1∑Tr^tc−λσ2(r^tc)−transaction cost constraint T−1γt=2∑T∥at−a^t−1∥1
其中，λ\lambdaλ 为 trade-off 超参数。

接下来，作者给出了成本敏感报酬的接近最优性，它反映了关于这种成本敏感报酬的策略与 Proposition 3 中不能同时控制两种成本的理论最优策略之间的关系。

Theorem 2 设 Wˉ∗\bar{W}^{*}Wˉ∗ 为优化 E{log⁡rtc}\mathbb{E}\left\{\log r_{t}^{c}\right\}E{logrtc} 的理论最优策略的增长率，St∗S_{t}^{*}St∗ 是最优政策最大化 E{log⁡rtc}−λVar⁡{log⁡rtc}−γE{∥at−a^t−1∥1}\mathbb{E}\left\{\log r_{t}^{c}\right\}-\lambda \operatorname{Var}\left\{\log r_{t}^{c}\right\}-\gamma \mathbb{E}\left\{\left\|a_{t}-\hat{a}_{t-1}\right\|_{1}\right\}E{logrtc}−λVar{logrtc}−γE{∥at−a^t−1∥1} 所获得的财富。在 **Proposition 3 ** 和 4 中相同的条件下，对于任何的 λ≥0\lambda \geq 0λ≥0 ，γ≥0\gamma \geq 0γ≥0，ψ∈[0,1]\psi \in[0,1]ψ∈[0,1] 和 1e≤rt≤e\frac{1}{e} \leq r_{t} \leq ee1≤rt≤e，本策略的最大增长率满足:
W~∗≥lim inf⁡t→∞1tlog⁡St∗>W~∗−94λ−2γ(1−ψ)1+ψ\tilde{W}^{*} \geq \liminf _{t \rightarrow \infty} \frac{1}{t} \log S_{t}^{*}>\tilde{W}^{*}-\frac{9}{4} \lambda-\frac{2 \gamma(1-\psi)}{1+\psi} W~∗≥t→∞liminft1logSt∗>W~∗−49λ−1+ψ2γ(1−ψ)
具体来说，当 λλλ 和 γγγ 足够小时，该策略对于成本敏感回报的财富增长率可以接近理论最优。

在实际工作中面对交易成本和风险成本时，这种奖励可以帮助设计出更有效的接近最优保证的投资组合选择方法。具体来说，通过使用直接策略梯度方法优化这个 Reward，所提出的 PPN 可以学习至少一个次最优策略，以有效地最大化累积收益，同时控制两种成本。

3 有什么关键实验结果？

作者从三个主要方面评估 PPN：

真实数据集的盈利能力；
投资组合系列的特征提取能力；
对交易成本和风险成本的成本敏感性。

3.1 Experimental Settings

3.1.1 Baselines

作者将 PPN 与几种最先进的方法进行比较，包括： Uniform Buy-And-Hold (UBAH), best strategy in hindsight (Best), CRP, UP, EG, Anticor, ONS, CWMR, PAMR, OLMAR，RMR, WMAMR 和 EIIE。此外，为了评估资产相关性的有效性，作者还将 PPN 与仅利用独立价格信息的退化变体 PPN-I 进行了比较。

3.1.2 Metrics

accumulated portfolio value (APV)
APV=Sn=S0∏t=1nat⊤xt(1−ct)\mathrm{APV}=S_{n}=S_{0} \prod_{t=1}^{n} a_{t}^{\top} x_{t}\left(1-c_{t}\right) APV=Sn=S0t=1∏nat⊤xt(1−ct)
Sharpe Ratio (SR)
SR=Average⁡(rtc)Standard Deviation (rtc)\mathrm{SR}=\frac{\operatorname{Average}\left(r_{t}^{c}\right)}{\text { Standard Deviation }\left(r_{t}^{c}\right)} SR= Standard Deviation (rtc)Average(rtc)
Calmar Ratio (CR)
CR=SnMDD\mathrm{CR}=\frac{S_{n}}{\mathrm{MDD}} CR=MDDSn
Maximum Drawdown (MDD)
MDD=max⁡t:τ>tSt−SτSt\mathrm{MDD}=\max _{t: \tau>t} \frac{S_{t}-S_{\tau}}{S_{t}} MDD=t:τ>tmaxStSt−Sτ
average turnover (TO)
TO=12n∑t=1n∥a^t−1−atωt∥1\mathrm{TO}=\frac{1}{2 n} \sum_{t=1}^{n}\left\|\hat{a}_{t-1}-a_{t} \omega_{t}\right\|_{1} TO=2n1t=1∑n∥a^t−1−atωt∥1

3.1.3 Datasets

作者在几个真实世界的加密货币数据集上评估 PPN。所有数据集都使用 Poloniex 访问。具体来说，作者将比特币设置为无风险现金，根据 Poloniex 上月交易量最高的加密货币选择风险资产。除现金资产外，所有资产都包含所有 4 种价格。每个资产的价格窗口跨越 30 个交易周期，每个周期为 30 分钟。

3.1.4 Implementation details

PPN 主要由三个主要组成部分：相关信息网、顺序信息网和决策模块。

具体来说，在相关信息网络中，我们采用时间相关卷积块作为基本模块。具体来说，它由两个部分组成，即扩张因果卷积层（DCONV）和相关卷积层（CCONV）。请注意，决策模块中的串联操作有两个步骤。首先，我们连接所有提取的特征和上一期的投资组合向量。然后，我们将现金偏差连接到所有特征图中。

此外，我们使用 Tensorflow 实现了投资组合策略网络。具体来说，我们在单个 NVIDIA TITAN X GPU 上使用批量大小为 128 的 Adam 优化器。我们将学习率设置为 0.001，并使用交叉验证从 10[−4:1:−1]10^{[-4: 1:-1]}10[−4:1:−1] 中选择 γγγ 和 λλλ。此外，训练步长为 10510^5105，现金偏差固定为 0，交易成本率为 0.25%，这是 Poloniex 的最高费率。此外，PPN 在 Crypto-A、Crypto-B、Crypto-C 和 Crypto-D 数据集上的训练时间分别约为 4、5.5、7.5 和 15 个 GPU 小时。加密货币数据集的所有结果均使用随机初始化种子在 5 次运行中取平均值。

3.2 Evaluation on Profifitability

从结果来看，EIIE 和基于 PPN 的方法在 APV 方面的表现优于所有其他基线。由于这三种方法采用神经网络通过强化学习来学习策略，这一观察结果证明了深度强化学习在投资组合选择中的有效性和优越性。此外，基于 PPN 的方法的性能优于 EIIE。这一发现意味着基于 PPN 的方法可以提取更好的序列特征表示，这有助于学习更有效的投资组合策略和更好的盈利能力。

此外，PPN 在 APV 方面优于 PPN-I。这一观察证实了资产相关性在投资组合选择中的有效性和重要性。最后，PPN 也取得了最好或相对较好的 SR 和 CR 性能。由于这两个指标都属于风险调整指标，因此这一发现意味着 PPN 能够获得比其他基线更稳定的利润。

3.3 Evaluation on Representation Ability

接下来，我们在固定所有其他参数时评估 PPN 具有不同提取模块的表示能力。具体来说，我们将 PPN 和 PPN-I 与仅采用一个模块的变体进行比较，即 LSTM、TCB 或 TCCB，即 PPN-LSTM、PPN-TCB 和 PPN-TCCB。为了演示并行结构，我们还将 PPN 和 PPN-I 与使用级联结构的变体进行比较，即 PPN-TCB-LSTM 和 PPN-TCCB-LSTM。这些变体之间的唯一区别是提取的特征不同。我们在表 4 和图 5 中展示了结果，从中我们得出了几个观察结果。

首先，我们讨论仅使用一个特征提取模块的变体。具体来说，PPN-LSTM 优于 PPN-TCB，这意味着所提出的序列信息网络提取了更好的价格序列模式。此外，PPN-TCCB 优于 PPN-LSTM 和 PPN-TCB，这对 TCCB 和相关信息网都进行了验证。

其次，所有考虑资产相关性的变体，即 PPN、PPN-TCCB 和 PPN-TCCB-LSTM，都优于它们的独立变体，即 PPN-I、PPN-TCB 和 PPN TCB-LSTM。这一观察证实了资产相关性在投资组合选择中的重要性和有效性。

第三，所有组合变体，即 PPN、PPN-I 和级联模块，优于仅采用 LSTM、TCB 或 TCCB 的变体。这意味着结合两种类型的信息有助于提取更好的特征，这进一步证实了双流架构的有效性。

接下来，PPN 优于所有其他变体，这证实了其强大的表示能力。请注意，PPN 在图 5 中的整个回测中并不总是最好的。例如，在早期阶段，许多变体的表现相似。但在后期，PPN表现非常出色。考虑到两个价格事件之间的相关性随着它们的顺序距离呈指数下降，这个结果证明了 PPN 更好的泛化能力。

最后，如图 5 所示，在某些时期，所有方法（基于 EIIE 和 PPN 的方法）都会出现显着下降，例如 11 月中旬和 12 月初。由于它与模型无关，因此这种回撤可能是由市场因素而不是方法本身造成的。受此启发，探索基于社交文本信息的市场影响力以更好地选择未来的投资组合是很有趣的。

3.4 Evaluation on Cost-sensitivity

在之前的实验中，我们已经证明了 PPN 的有效性，其中交易成本率为 0.25%。但是，交易成本率的影响尚未得到验证。因此，我们研究了它们对 Crypto-A 上三种主要方法的影响。从表 5 中可以看出，PPN 在广泛的交易成本率范围内实现了最佳 APV 性能。这一观察进一步证实了 PPN 的盈利能力。与 EIIE 相比，基于 PPN 的方法获得相对较低的 TO，即较低的交易成本。由于 EIIE 仅优化了重新平衡的对数回报，这一发现表明我们提出的奖励更好地控制了交易成本。此外，当交易成本率非常大时，例如c=5%，基于PPN的算法往往会停止交易，几乎没有收益或损失，而 EIIE 则损失了TO较高的大部分财富。这意味着我们提出的方法对交易成本更敏感。

我们还检查了 λλλ 在成本敏感奖励中的影响，并在表 7 中报告了结果。具体而言，随着 λλλ 的增加，PPN 的 STD 值在所有数据集上逐渐减小。由于 λλλ 控制了风险惩罚 σ2(r^t)\sigma^{2}\left(\hat{r}_{t}\right)σ2(r^t)，这个结果与预期一致，也证明了 PPN 在控制风险成本方面的有效性。此外，随着 λλλ 的增加，大多数数据集的 MDD 结果下降。由于 MDD 依赖于金融市场的价格波动，这个结果意味着约束收益的波动有助于控制下行风险。