标题：Experience Replay with Likelihood-free Importance Weights
文章链接：An Equivalence between Loss Functions and Non-Uniform Sampling in Experience Replay
发表：PMLR 2022
领域：强化学习 —— Experience Replay

摘要：经验回放（Experience Replay），即使用过去的经验来加速价值函数的时序差分（TD）学习，是深度强化学习的关键组成部分。对重要的经验进行优先排序或重新加权已经被证明可以提高TD学习算法的性能。在这项工作中，我们建议根据经验在当前策略的平稳分布下的出现概率进行重放加权，这隐含地鼓励在频繁遇到的状态上减少价值函数的近似误差。具体实现时，我们在 replay buffer 上使用无似然密度比估计器（likelihood-free density ratio estimator）来分配优先级权重。我们将提出的方法应用于 SAC 和 TD3 这两种有竞争力的方法，并在一系列 OpenAI gym 任务上进行实验。我们发现，与其他 Baseline 方法相比，我们的方法实现了更高的性能和样本效率（superior sample complexity）

文章目录

1. 本文方法
- 1.1 思想
- - 1.1.1 建立直觉
  - 1.1.2 形式化描述
- 1.2 理论分析
- 1.3 使用快慢缓冲区估计当前策略诱导的 ( s , a ) (s,a) (s,a) 分布 d π d^\pi dπ
- 1.4 伪代码
2. 实验
3. 分析 & 讨论

1. 本文方法

1.1 思想

1.1.1 建立直觉

这篇文章考虑的是对非均匀经验重放设计重放优先级的问题，关于这方面的背景请参考论文理解【RL - Exp Replay】—— An Equivalence between Loss Functions and Non-Uniform Sampling in Exp Replay 第 1 节
过去的重放优先级设计通常是针对学习最优价值 Q ∗ Q^* Q∗ 而设计的（如 PER），这时 TD target 由 Bellman optimal equation 给出。学习 Q ∗ Q^* Q∗ 通常意味着我们要利用它调整策略（很可能是 value-based 方法如 DQN），因此策略不稳定，其诱导的 ( s , a ) (s,a) (s,a) 的分布也不稳定，这时通常基于 TD error 设计优先级，使当前价值估计尽快靠近最新的 TD target，从而加速策略优化，从直觉上想也是比较合理的；本文针对 actor-critic 框架中的 critic 设计重放优先级，目标是学习某个平稳策略的价值函数 Q Q Q，这时再简单地根据 TD error 设计优先级可能就不是很合理了，考虑当前策略诱导的 ( s , a ) (s,a) (s,a) 分布下某个出现概率很小但 TD error 很大的 transition
1. 此时对 Q Q Q 估计值的调整不会影响到策略（其实更新策略时也会影响，但是作者这里强行单独考虑价值估计的部分），多重放这个 transition 可以让这里的价值估计更好，但是这个 ( s , a ) (s,a) (s,a) 很少被访问到，因此很难体现出变化
2. 相比而言，多重放那些经常访问到的 ( s , a ) (s,a) (s,a) 可以让当前策略诱导的 ( s , a ) (s,a) (s,a) 分布的整体价值估计更好，从直觉上来看这可能可以给 actor 的优化提供更好的基础，或者说这些高频访问的状态价值估计不好造成的问题更严重
根据上述分析，作者认为应该按策略诱导 ( s , a ) (s,a) (s,a) 分布来设计重放优先级，优先优化那些经常访问的 ( s , a ) (s,a) (s,a) 的价值估计。这个出发点我觉得还是有点牵强，作者强行把 actor 和 critic 分开考虑了

1.1.2 形式化描述

形式地化说明一下作者的想法，虽然作者的目标是设计一个优先级的非均匀经验重放，这可以通过论文理解【RL - Exp Replay】—— An Equivalence between Loss Functions and Non-Uniform Sampling in Exp Replay 这篇文章的方法转换为一个等价的（即损失的期望梯度相等的）均匀重放形式，仅需对损失函数做一点修改，请看下图

此图显示了通过构造损失使得两个分布下的期望梯度相等的方法，可以把这里的 D 1 \mathcal{D}_1 D1 看做一个真正的非均匀重放分布，把 D 2 \mathcal{D}_2 D2 看作 replay buffer 上的均匀分布， L 1 \mathcal{L}_1 L1 是原本的非均匀重放损失，只要向上图那样考虑重要度采样比构造新损失 L 2 \mathcal{L}_2 L2，就能保证 E D 1 [ ▽ Q L 1 ( δ ( i ) ) ] = E D 2 [ ▽ Q L 2 ( δ ( i ) ) ] \mathbb{E}_{\mathcal{D}_1}[\triangledown_Q\mathcal{L}_1(\delta(i))] = \mathbb{E}_{\mathcal{D}_2}[\triangledown_Q\mathcal{L}_2(\delta(i))] ED1[▽QL1(δ(i))]=ED2[▽QL2(δ(i))]。换句话说，随便一个以 L 2 \mathcal{L}_2 L2 为损失的均匀重放机制，都可以反向找出一个转换的重要性采样比将其对应到一个等价的使用另一个损失 L 1 \mathcal{L}_1 L1 和分布 D 1 \mathcal{D}_1 D1 的非均匀重放机制。因此作者的核心目标就是设计一个新的损失 L 2 \mathcal{L}_2 L2，它要能体现出对高频 ( s , a ) (s,a) (s,a) 的倾向性

注： L 2 L_2 L2 损失是价值学习使用的一般损失
看一下公式
1. Bellman operator： B π Q π ( s , a ) : = r ( s , a ) + γ E s ′ , a ′ [ Q ( s ′ , a ′ ) ] \mathcal{B}^\pi Q^\pi(s,a) := r(s,a)+\gamma\mathbb{E}_{s',a'}[Q(s',a')] BπQπ(s,a):=r(s,a)+γEs′,a′[Q(s′,a′)]
2. Bellman equation： Q π ( s , a ) = B π Q π ( s , a ) Q^\pi(s,a) = \mathcal{B}^\pi Q^\pi(s,a) Qπ(s,a)=BπQπ(s,a)
3. 在 replay buffer 分布 D \mathcal{D} D 下的 L 2 L_2 L2 损失： L Q ( θ ; D ) = E ( s , a ) ∼ D [ ( Q θ ( s , a ) − B ^ π Q θ ( s , a ) ) 2 ] L_Q(\theta;\mathcal{D}) = \mathbb{E}_{(s,a)\sim \mathcal{D}}[(Q_\theta(s,a)-\hat{\mathcal{B}}^\pi Q_\theta(s,a))^2] LQ(θ;D)=E(s,a)∼D[(Qθ(s,a)−B^πQθ(s,a))2]其中 B ^ π \hat{\mathcal{B}}^\pi B^π 是指考虑了采样误差，在样本数量属于无穷时有 B ^ π → B π \hat{\mathcal{B}}^\pi \to \mathcal{B}^\pi B^π→Bπ
4. 假设 d d d 是 replay buffer 采样自的分布，且样本量无限（ B ^ π = B π \hat{\mathcal{B}}^\pi = \mathcal{B}^\pi B^π=Bπ），引入优先级权重 w ( s , a ) w(s,a) w(s,a)，损失变为 L Q ( θ ; D ) = E d [ w ( s , a ) ( Q θ ( s , a ) − B ^ π Q θ ( s , a ) ) 2 ] L_Q(\theta;\mathcal{D}) = \mathbb{E}_d[w(s,a)(Q_\theta(s,a)-\hat{\mathcal{B}}^\pi Q_\theta(s,a))^2] LQ(θ;D)=Ed[w(s,a)(Qθ(s,a)−B^πQθ(s,a))2] 注意到 d d d 和 w w w 都是系数，于是可以设 d w ∝ d ⋅ w d^w\propto d·w dw∝d⋅w，从而有
  arg min ⁡ θ L Q ( θ ; d , w ) = arg min ⁡ θ L Q ( θ ; d w ) \argmin_\theta L_Q(\theta;d,w) = \argmin_\theta L_Q(\theta;d^w) θargminLQ(θ;d,w)=θargminLQ(θ;dw) 根据作者的观点，应该将加权系数选为 d w = d π d^w=d^\pi dw=dπ

1.2 理论分析

作者选择 d w = d π d^w=d^\pi dw=dπ 作为加权系数的原因，除了 1.1.1 节给出的直觉以外，还有一个重要的原因是：当 Q Q Q 价值的距离度量设置为按 d w d^w dw 加权的 L 2 L_2 L2 距离时可以更好地满足压缩映射原理。这里涉及到价值收敛的理论证明，更好地满足压缩映射原理意味着更好的收敛性质，这里可以参考强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析
Bellman 算子之所以能收敛，是因为动作状态价值空间 Q \mathcal{Q} Q 本身是一个 L p L_p Lp 空间，而 Bellman 算子是该空间上的一个压缩映射，也就是说对于 ∀ Q , Q ′ ∈ Q = { Q : ( S × A ) → R } \forall Q,Q'\in\mathcal{Q}=\{Q:(\mathcal{S\times A})\to\mathbb{R}\} ∀Q,Q′∈Q={Q:(S×A)→R}，有
∣ ∣ B π Q − B π Q ′ ∣ ∣ ∞ ≤ γ ∣ ∣ Q − Q ′ ∣ ∣ ∞ ||\mathcal{B}^\pi Q-\mathcal{B}^\pi Q'||_\infin \leq \gamma||Q-Q'||_\infin ∣∣BπQ−BπQ′∣∣∞≤γ∣∣Q−Q′∣∣∞ 虽然这足以显示收敛结果，但是无穷范数 ∣ ∣ ⋅ ∣ ∣ ∞ = max ⁡ ( ⋅ ) ||·||_\infin = \max(·) ∣∣⋅∣∣∞=max(⋅) 只能反映最坏的 ( s , a ) (s,a) (s,a) 作用于 Q Q Q 和 Q ′ Q' Q′ 上的差距，这里没有考虑到和策略的相关性。距离来说，如果两个 Q Q Q 和 Q ′ Q' Q′ 只在某个 ( s , a ) (s,a) (s,a) 处有很大差距，其他位置处处相等，则他们在 ∣ ∣ ⋅ ∣ ∣ ∞ ||·||_\infin ∣∣⋅∣∣∞ 这个度量下相距很远，但在实践中 Q Q Q 和 Q ′ Q' Q′ 几乎没有差别，因为当状态动作空间足够大时，策略采样到这个特殊 ( s , a ) (s,a) (s,a) 的概率很小。因为我们要学习的是 Q π Q^\pi Qπ，选择一个和 π \pi π 有关的测度可能更合适，这样能反映出 1.1.1 节讨论的高频 ( s , a ) (s,a) (s,a) 比较 costly 的直觉
作者在这里提出使用按平稳策略 π \pi π 诱导的 ( s , a ) (s,a) (s,a) 分布 d d d 加权的 L 2 L_2 L2 距离作为 Q-function 的测度，即
∣ ∣ Q − Q ′ ∣ ∣ d 2 : = E ( s , a ) ∼ d [ ( Q ( s , a ) − Q ′ ( s , a ) ) 2 ] ||Q-Q'||_d^2 := \mathbb{E}_{(s,a)\sim d}[(Q(s,a)-Q'(s,a))^2] ∣∣Q−Q′∣∣d2:=E(s,a)∼d[(Q(s,a)−Q′(s,a))2] 这个测度和前面按分布 d d d 加权的 L 2 L_2 L2 损失具有相同的形式
L Q ( θ ; d ) = ∣ ∣ Q θ ( s , a ) − B π Q θ ( s , a ) ∣ ∣ d 2 L_Q(\theta;d) = ||Q_\theta(s,a)-\mathcal{B}^\pi Q_\theta(s,a)||_d^2 LQ(θ;d)=∣∣Qθ(s,a)−BπQθ(s,a)∣∣d2 作者进而证明了一个 Theorem 1，说明当且仅当 d = d π d=d^\pi d=dπ 时 ∣ ∣ ⋅ ∣ ∣ d 2 ||·||_d^2 ∣∣⋅∣∣d2 这个测度是压缩映射，即
∥ B π Q − B π Q ′ ∥ d 2 ≤ γ ∥ Q − Q ′ ∥ d 2 , ∀ Q , Q ′ ∈ Q ⟺ d = d π , a.e. \left\|\mathcal{B}^{\pi} Q-\mathcal{B}^{\pi} Q^{\prime}\right\|_{d}^2 \leq \gamma\left\|Q-Q^{\prime}\right\|_{d}^2, \forall Q, Q^{\prime} \in \mathcal{Q} \Longleftrightarrow d=d^{\pi}, \quad \text { a.e. } ∥BπQ−BπQ′∥d2≤γ∥Q−Q′∥d2,∀Q,Q′∈Q⟺d=dπ, a.e. 其中 d π d^\pi dπ 是当前策略 π \pi π 诱导的 ( s , a ) (s,a) (s,a) 的平稳分布，具体证明参考原文
总之，作者对一开始的直觉找出了一个理论支撑，总结一下就是
1. 考虑 Bellman 算子的收敛映射特性时，我们应该使用和策略相关的测度，以得到更快的收敛速度
2. 这个测度可以设计为按 d d d 加权的 L 2 L_2 L2 距离 ∣ ∣ ⋅ ∣ ∣ d 2 ||·||_d^2 ∣∣⋅∣∣d2，当且仅当 d = d π d=d^\pi d=dπ 时它是和策略相关的 γ \gamma γ-压缩映射
3. 因此 ∣ ∣ ⋅ ∣ ∣ d π 2 ||·||_{d^\pi}^2 ∣∣⋅∣∣dπ2 是对 Q-function 而言更好的距离度量
4. 将这个更好的距离度量应用到损失中，损失应该设计为 L Q ( θ ; d π ) = ∣ ∣ Q θ ( s , a ) − B π Q θ ( s , a ) ∣ ∣ d π 2 L_Q(\theta;d^\pi) =||Q_\theta(s,a)-\mathcal{B}^\pi Q_\theta(s,a)||_{d^\pi}^2 LQ(θ;dπ)=∣∣Qθ(s,a)−BπQθ(s,a)∣∣dπ2
接下来作者进行了一个小实验说明其想法的有效性

如左图可见这是一个三状态 MDP，agent 只有达到 s 2 s_2 s2 时可以得到 1 的奖励，待评估的策略设计为：在每个状态下执行正确动作（靠近 s 2 s_2 s2 的动作）的概率为 p p p，各个 ( s , a ) (s,a) (s,a) 的 Q Q Q 价值从 [ 0 , 1 ] [0,1] [0,1] 的均分布中采样初始化，考虑 p = 0.2 p=0.2 p=0.2 和 p = 0.8 p=0.8 p=0.8 两种情况，每个 epoch 会计算所有 transition，按一下 TD 更新公式模拟按学习率 η \eta η 加权的效果
Q ( s , a ) → Q ( s , a ) + ( 1 − ( 1 − η ) w ( s , a ) ) ( B π Q ( s , a ) − Q ( s , a ) ) Q(s, a) \rightarrow Q(s, a)+\left(1-(1-\eta)^{w(s, a)}\right)\left(\mathcal{B}^{\pi} Q(s, a)-Q(s, a)\right) Q(s,a)→Q(s,a)+(1−(1−η)w(s,a))(BπQ(s,a)−Q(s,a)) 实验效果如右图所示，可见按 d π d^\pi dπ 加权时收敛最快

1.3 使用快慢缓冲区估计当前策略诱导的 ( s , a ) (s,a) (s,a) 分布 d π d^\pi dπ

现在我们只要想办法估计在每轮迭代时估计出当前策略 π \pi π 诱导的 ( s , a ) (s,a) (s,a) 分布 d π d^\pi dπ 就可以了，容易想到两种方法
1. 使用 on-policy 方法，每一轮迭代前用 π \pi π 和环境大量交互，利用交互数据估计 d π d^\pi dπ，显然这样样本复杂度太高了
2. 使用 off-policy 方法，利用重要性采样比对 replay buffer 中的历史经验分布进行调整来得到 d π d^\pi dπ，这时的问题在于采样比 w ( s , a ) : = d π ( s , a ) / d D ( s , a ) w(s,a) := d^\pi(s,a)/d^\mathcal{D}(s,a) w(s,a):=dπ(s,a)/dD(s,a) 很难估计（这里 D \mathcal{D} D 是历史混合策略采样得到 replay buffer 数据集）
可见，基于似然的方法（我理解是估计 π \pi π 下 d π d^\pi dπ 的概率的方法）在这里并不好用，因此作者使用了无似然的概率密度比估计方法（likelihood-free density ratio estimation methods）进行处理，仅靠 replay buffer 中的样本估计出当前的 d π d^\pi dπ
作者在此利用了一个引理：假设 f f f 在 [ 0 , + ∞ ) [0,+\infin) [0,+∞) 上有一阶导数 f ′ f' f′， ∀ P , Q s . t . P ≪ Q \forall P,Q \space\space s.t.\space\space P\ll Q ∀P,Q s.t. P≪Q 和 w : X → R + w:\mathcal{X}\to\mathbb{R}^+ w:X→R+，有
D f ( P ∥ Q ) ≥ E P [ f ′ ( w ( x ) ) ] − E Q [ f ∗ ( f ′ ( w ( x ) ) ) ] D_{f}(P \| Q) \geq \mathbb{E}_{P}\left[f^{\prime}(w(\boldsymbol{x}))\right]-\mathbb{E}_{Q}\left[f^{*}\left(f^{\prime}(w(\boldsymbol{x}))\right)\right] Df(P∥Q)≥EP[f′(w(x))]−EQ[f∗(f′(w(x)))] 其中 f ∗ f^* f∗ 是凸共轭， D f ( P ∥ Q ) D_{f}(P \| Q) Df(P∥Q) 是两个概率密度间的 f f f 散度，当 w = P / Q w=P/Q w=P/Q 时等式成立

注： f f f-散度（f -divergences）：对于任意下连续凸函数（convex, lower-semicontinuous） f : [ 0 , ∞ ) → R + f: [0,\infin)\to \mathbb{R}^+ f:[0,∞)→R+，要求满足 f ( 1 ) = 0 f(1)=0 f(1)=0，则对于两个概率密度 P , Q ∈ P ( X ) P,Q\in\mathcal{P}(\mathcal{X}) P,Q∈P(X)（要求 P ≪ Q P\ll Q P≪Q，即 P P P 关于 Q Q Q 绝对连续 absolutely continuous）， f f f-散度定义为
D f ( P ∣ ∣ Q ) = ∫ X Q ( x ) f ( P ( x ) Q ( x ) ) d x D_f(P||Q) = \int_\mathcal{X} Q(x)f(\frac{P(x)}{Q(x)})dx Df(P∣∣Q)=∫XQ(x)f(Q(x)P(x))dx 通过设置 f f f，可以得到 KL 散度等多种散度

注意等号相等时的 w w w 就是一个重要性采样比的形式，对应我们的需求，将 P P P 替换为当前策略分布 d π d^\pi dπ， Q Q Q 替换为 replay buffer 分布 d D d^\mathcal{D} dD，它被 D f ( P ∥ Q ) D_{f}(P \| Q) Df(P∥Q) upper bound 住。
为了估计出 w ( s , a ) : = d π ( s , a ) / d D ( s , a ) w(s,a) := d^\pi(s,a)/d^\mathcal{D}(s,a) w(s,a):=dπ(s,a)/dD(s,a)，使用以下三个步骤
1. 设置一大一小两个 replay buffer，大的称为 regular(slow) replay buffer，小的称为 smaller(fast) replay buffer，每次和环境交互后都用最新的经验去更新两个 buffer。由于尺寸不同
  1. slow buffer 中的样本变化速度较慢，含有更多来自过去历史策略的混合 transition，off-policy 性质更强，可以看做采样自 d D d^\mathcal{D} dD
  2. fast buffer 中的样本变化速度较快，只含有少量近期策略的交互样本，on-policy 性质更强，当 fast buffer 尺寸较小时可以近似看做采样自 d π d^\pi dπ
2. 分别用 D f \mathcal{D}_f Df 和 D s \mathcal{D}_s Ds 表示两个 buffer，使用一个 ψ \psi ψ 参数化的神经网络 w ψ ( s , a ) w_\psi(s,a) wψ(s,a) 来拟合重要性采样比 d π ( s , a ) / d D ( s , a ) d^\pi(s,a)/d^\mathcal{D}(s,a) dπ(s,a)/dD(s,a) （因为概率比不可能为负，通过激活函数限制其输出为非负数），优化目标是最大化
  E d π [ f ∗ ( f ′ ( w ψ ( s , a ) ) ) ] − E d D [ f ′ ( w ψ ( s , a ) ) ] \mathbb{E}_{d^\pi}\left[f^{*}\left(f^{\prime}\left(w_{\psi}(s, a)\right)\right)\right]-\mathbb{E}_{d^\mathcal{D}}\left[f^{\prime}\left(w_{\psi}(s, a)\right)\right] Edπ[f∗(f′(wψ(s,a)))]−EdD[f′(wψ(s,a))] 这个优化的目标的意思就是要尽量增大被 upper bound 的部，使得等号近似成立，从而得到合理的 w ( s , a ) w(s,a) w(s,a)，转换为损失函数形式只需取相反数
  L w ( ψ ) : = E D s [ f ∗ ( f ′ ( w ψ ( s , a ) ) ) ] − E D f [ f ′ ( w ψ ( s , a ) ) ] L_{w}(\psi):=\mathbb{E}_{\mathcal{D}_{\mathrm{s}}}\left[f^{*}\left(f^{\prime}\left(w_{\psi}(s, a)\right)\right)\right]-\mathbb{E}_{\mathcal{D}_{\mathrm{f}}}\left[f^{\prime}\left(w_{\psi}(s, a)\right)\right] Lw(ψ):=EDs[f∗(f′(wψ(s,a)))]−EDf[f′(wψ(s,a))]
3. 最后使用一个带温度系数 T T T 的 self-normalization 步骤解决 finite sample issue 并得到合法的概率形式
  w ~ ψ ( s , a ) : = w ψ ( s , a ) 1 / T E D s [ w ψ ( s , a ) 1 / T ] \tilde{w}_{\psi}(s, a):=\frac{w_{\psi}(s, a)^{1 / T}}{\mathbb{E}_{\mathcal{D}_{\mathrm{s}}}\left[w_{\psi}(s, a)^{1 / T}\right]} w~ψ(s,a):=EDs[wψ(s,a)1/T]wψ(s,a)1/T
经过上述操作即可得到重要性采样比，TD 学习的可以表示为
L Q ( θ ; d π ) ≈ L Q ( θ ; D s , w ~ ψ ) : = E ( s , a ) ∼ D s [ w ~ ψ ( x ) ( Q θ ( s , a ) − B ^ π Q θ ( s , a ) ) 2 ] L_{Q}\left(\theta ; d^{\pi}\right) \approx L_{Q}\left(\theta ; \mathcal{D}_{\mathrm{s}}, \tilde{w}_{\psi}\right):=\mathbb{E}_{(s, a) \sim \mathcal{D}_{\mathrm{s}}}\left[\tilde{w}_{\psi}(\boldsymbol{x})\left(Q_{\theta}(s, a)-\hat{\mathcal{B}}^{\pi} Q_{\theta}(s, a)\right)^{2}\right] LQ(θ;dπ)≈LQ(θ;Ds,w~ψ):=E(s,a)∼Ds[w~ψ(x)(Qθ(s,a)−B^πQθ(s,a))2] 其中 B ^ π Q θ \hat{\mathcal{B}}^{\pi} Q_{\theta} B^πQθ 使用 MC 采样的方法估计。这可以以插件的形式结合到各种 off-policy actor-critic 方法中去

1.4 伪代码

如图所示

2. 实验

作者将其方法应用到 SAC 和 TD3 上，于均匀采样及 PER 方案进行对比，实验使用 gym 环境进行。超参数设置为 T = 5 , ∣ D f ∣ = 1 0 4 , ∣ D s ∣ = 1 0 6 T=5, |\mathcal{D}_f|=10^4,|\mathcal{D}_s|=10^6 T=5,∣Df∣=104,∣Ds∣=106， w ψ w_\psi wψ 使用两层全连接网络，每层 256 个神经元，ReLU 激活函数，散度计算时使用 JS 散度 f ( u ) = u l o g u − ( 1 + u ) l o g ( 1 − u ) f(u)=ulogu-(1+u)log(1-u) f(u)=ulogu−(1+u)log(1−u)
和 SAC 结合的效果
和 TD3 结合的效果
表格总结
可见作者的方法可以在大部分任务上实现更高的性能，且样本效率更高（收敛较快）

3. 分析 & 讨论

本文方法对超参数比较敏感，两个缓冲区尺寸需要针对任务设计，如果一个任务很快就能收敛并维持在较好水平，那么就该把 slow buffer 设置小一点
作者考察了学到 w ψ w_\psi wψ 的精度，他将用 SAC 训练过 5M 步后的交互经验标为正例；训练 1~4M 步中的混合经验标为负例，使用 w ψ w_\psi wψ 来区分，结果为 “precision of 87.3% and an accuracy of 73.1%”，说明通常能判断正确，用 w ψ w_\psi wψ 调整过的损失确实会倾向于高 on-policy 性质的样本
作者还考察了学到 Q Q Q 价值的质量，发现相比普通 SAC 方法更好（更靠近真实 Q ∗ Q^* Q∗）
实验做得不太好，主要的对比方法 PER 是针对学习 Q ∗ Q^* Q∗ 设计的，本文方法则是针对 AC 框架下学习 Q Q Q 设计的；另外相关研究中作者也提到了其他以提升 on-policy 性质为动机的方法（如 ReF-ER），应该对比一下
使用快慢 buffer 估计 d π d^\pi dπ 的想法有点意思，不过看文章也是从 IRL 等相关研究借鉴过来的。更好地估计 d π d^\pi dπ 的方法值得研究一下
这篇问题优化损失时的测度和做 Bellman 迭代时一样，这样是不是能给这个 DRL 方法建立收敛性证明

论文理解【RL - Exp Replay】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights相关推荐

Prioritized Experience Replay
论文链接:https://arxiv.org/pdf/1511.05952v2.pdf 论文题目:PRIORITIZED EXPERIENCE REPLAY Prioritized Experienc ...
论文理解【RL - Exp Replay】—— 【ReMERN ReMERT】Regret Minimization Exp Replay in Off-Policy RL
标题:Regret Minimization Experience Replay in Off-Policy Reinforcement Learning 文章链接:Regret Minimizati ...
论文理解【RL - Exp Replay】—— 【DisCor】Corrective Feedback in RL via Distribution Correction
标题:DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction 文章链接:DisCor: Co ...
RL策略梯度方法之(十二): actor-critic with experience replay(ACER)
本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 . 文章目录 ...
《DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY》强化学习论文笔记
原文下载链接 abstract 本文提出了一种用于大规模深度强化学习的分布式架构,可以使agent能够从比以前数量级更多的数据上更有效地学习.该算法将行为与学习解耦,多个分布式actor与环境进行交互 ...
深度强化学习系列(8): Prioritized Experience Replay(PER-DQN)原理及实现
论文地址: https://arxiv.org/abs/1511.05952 本论文是由DeepMind操刀,Schaul主导完成的文章,发表于顶会ICLR2016上,主要解决经验回放中的" ...
RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING (R2D2)
R2D2采用了分布式框架和LSTM,作为model-free方法在Atari上实现了SOTA的效果.文章的主要贡献在于两个点:一是讨论了一下加入RNN之后对于强化学习的MDP时间序列训练方法的问题:另 ...
DQL: Dueling Double DQN, Prioritized Experience Replay, and fixed Q-targets（三下）
https://www.freecodecamp.org/news/improvements-in-deep-q-learning-dueling-double-dqn-prioritized-exp ...
pytorch 笔记： DQN（experience replay）
1 理论知识 DQN 笔记 State-action Value Function(Q-function)_UQI-LIUWJ的博客-CSDN博客强化学习笔记 experience replay 经 ...

论文理解【RL - Exp Replay】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights

文章目录

1. 本文方法

1.1 思想

1.1.1 建立直觉

1.1.2 形式化描述

1.2 理论分析

1.3 使用快慢缓冲区估计当前策略诱导的 ( s , a ) (s,a) (s,a) 分布 d π d^\pi dπ

1.4 伪代码

2. 实验

3. 分析 & 讨论

论文理解【RL - Exp Replay】—— 【LFIW】Experience Replay with Likelihood-free Importance Weights相关推荐

最新文章

热门文章