Note 8 近似策略迭代 Approximate Policy Iteration

近似策略迭代

  • Note 8 近似策略迭代 Approximate Policy Iteration
    • 8.1 通用框架 (A Generic Framework)
      • Lemma 8.1 单调性下的误差约束(Error bound under monotonicity)
      • Lemma 8.2 单一近似PI扫描的误差边界 (Error bound of single approximate PI sweep)
      • Proposition 8.1 近似PI算法的误差边界 (Error bound of the approximate PI algorithm)
      • Proposition 8.2 策略空间收敛下近似PI的误差界线 (Error bounds of approximate PI under convergence in policy space)
    • 8.2 近似策略评估 (Approximate Policy Evaluation)
      • 定义8.1 近似总成本函数
      • Lemma 8.3 近似成本函数的边界
      • Proposition 8.3 估计值与真实总成本函数之间的约束
    • 8.3 近似的策略评估与遍历性 Approximate Policy Evaluation with Ergodicity
      • 8.3.1 各态历经的MDP(Ergodic MDP)
        • Assumption 8.1 过渡矩阵PπP_{\pi}Pπ​的各态历经性
        • Lemma 8.4 ξ\xiξ加权范数
        • Proposition 8.4 ξ\xiξ加权范数下的贝尔曼算子的收缩性
        • Lemma 8.5 ξ\xiξ加权范数下的边界
        • Proposition 8.5 ξ\xiξ加权范数下的估计值与真实总成本函数之间的约束
      • 8.3.2 平均平方预测贝尔曼误差 (Mean Squared Projected Bellman Error)
        • Lemma 8.6 非扩张性投影算子ΠΦ\Pi_{\Phi}ΠΦ​
        • Proposition 8.6. 投影算子ΠΦ\Pi_{\Phi}ΠΦ​的收缩性
        • Proposition 8.7.
    • 8.4 API 补充
      • 8.4.1 Approximate PI (API)
      • 8.4.2 APE via Bellman Residual Minimisation
      • 8.4.3 ℓ2\ell_{2}ℓ2​ Based Bellman Residual Minimisation
      • 8.4.4 Recap: Closed form policy evaluation
      • 8.4.5 ℓ2\ell_{2}ℓ2​ Based Bellman Residual Minimisation
      • 8.4.6 Approximate PI (API) with LFA + MSBE
      • 8.4.7 Approximate PI (API) with LFA +ξ-weighted MSBE \text { Approximate PI (API) with LFA }+\xi \text {-weighted MSBE } Approximate PI (API) with LFA +ξ-weighted MSBE
      • 8.4.8 Mean Squared Projected Bellman Error (MSPBE)
      • 8.4.9 Approximate PI (API) with LFA + ξ\xiξ-weighted MSPBE
      • 8.4.10 Approximate PI Summary

在Note 7 中,我们介绍了参数化函数近似的概念,以及它在近似值迭代算法中的应用。尽管AVI的收敛特性已被证明是有希望的,但它与原始VIVIVI算法的内在限制仍然存在。在本节中,我们开发了一个近似策略迭代算法的框架。

8.1 通用框架 (A Generic Framework)

与近似的VI算法类似,我们可以构建一个体系来近似策略评估和策略改进步骤,具体如下

  1. 对于一个给定的策略πk\pi_{k}πk​,我们的目标是找到真实总成本JπkJ^{\pi_{k}}Jπk​的近似值JkJ_{k}Jk​,即
    ∥Jk−Jπk∥∞≤δ(8.1)\left\|J_{k}-J^{\pi_{k}}\right\|_{\infty} \leq \delta \tag{8.1}∥Jk​−Jπk​∥∞​≤δ(8.1)
    请注意,真正的总成本JπkJ^{\pi_{k}}Jπk​ 在一般情况下是无法给定的。这里可以采用贝尔曼残差最小化的思想。

  2. 通过采用与公式( 7.317.317.31 )中近似贪婪化步骤相同的策略,我们也可以将其放宽为近似策略改进。也就是说,给定第kkk个价值函数估计值JkJ_{k}Jk​,我们找到一个策略πk+1\pi_{k+1}πk+1​,满足以下条件
    ∥Tπk+1Jk−TgJk∥∞≤ϵ,(8.2)\left\|\mathrm{T}_{\pi_{k+1}} J_{k}-\mathrm{T}_{\mathfrak{g}} J_{k}\right\|_{\infty} \leq \epsilon, \tag{8.2}∥Tπk+1​​Jk​−Tg​Jk​∥∞​≤ϵ,(8.2)
    其中ϵ>0\epsilon>0ϵ>0是不严格策略改进(inexact policy improvement)的准确性。

这样一个通用的近似PI算法在算法10中给出。

为了确定近似PI算法的误差界限,我们需要以下两个引理(Lemma)。

Lemma 8.1 单调性下的误差约束(Error bound under monotonicity)

给出一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ},和一个固定的策略π\piπ。让J∈RKJ \in \mathbb{R}^{K}J∈RK中,满足以下条件
TπJ≤J+c1(8.3)\mathrm{T}_{\pi} J \leq J+c \mathbf{1} \tag{8.3}Tπ​J≤J+c1(8.3)

且有c>0c>0c>0,那么策略π\piπ的总成本函数就有如下的约束
Jπ≤J+c1−γ1(8.4)J^{\pi} \leq J+\frac{c}{1-\gamma} \mathbf{1} \tag{8.4}Jπ≤J+1−γc​1(8.4)


Proof.

贝尔曼算子Tπ\mathrm{T}_{\pi}Tπ​的恒定位移属性意味着对于所有k∈Nk \in \mathbb{N}k∈N来说
TπkJ≤Tπk−1J+γk−1c1(8.5)\mathrm{T}_{\pi}^{k} J \leq \mathrm{T}_{\pi}^{k-1} J+\gamma^{k-1} c \mathbf{1} \tag{8.5}Tπk​J≤Tπk−1​J+γk−1c1(8.5)

然后我们对任意kkk构建
TπkJ−J=TπkJ−Tπk−1J+Tπk−1J−…+TπJ−J=∑t=1k(TπkJ−Tπk−1J)≤∑t=1kγt−1c1(8.6)\begin{aligned} \mathrm{T}_{\pi}^{k} J-J &=\mathrm{T}_{\pi}^{k} J-\mathrm{T}_{\pi}^{k-1} J+\mathrm{T}_{\pi}^{k-1} J-\ldots+\mathrm{T}_{\pi} J-J \\ &=\sum_{t=1}^{k}\left(\mathrm{~T}_{\pi}^{k} J-\mathrm{T}_{\pi}^{k-1} J\right) \\ & \leq \sum_{t=1}^{k} \gamma^{t-1} c \mathbf{1} \end{aligned} \tag{8.6}Tπk​J−J​=Tπk​J−Tπk−1​J+Tπk−1​J−…+Tπ​J−J=t=1∑k​( Tπk​J−Tπk−1​J)≤t=1∑k​γt−1c1​(8.6)

结果是通过t→∞t\rightarrow\inftyt→∞而得出的。


Lemma 8.2 单一近似PI扫描的误差边界 (Error bound of single approximate PI sweep)

给定一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ},一个固定的策略π\piπ,一个在RK\mathbb{R}^{K}RK中的估计值JJJ,以及两个固定的策略π\piπ和π′\pi^{\prime}π′,如果以下两个条件在某些δ≥0\delta\geq 0δ≥0和ϵ≥0\epsilon\geq 0ϵ≥0时成立

∥J−Jπ∥∞≤δ,and ∥Tπ′J−TgJ∥∞≤ϵ(8.7)\left\|J-J^{\pi}\right\|_{\infty} \leq \delta, \quad \text { and } \quad\left\|\mathrm{T}_{\pi^{\prime}} J-\mathrm{T}_{\mathfrak{g}} J\right\|_{\infty} \leq \epsilon \tag{8.7}∥J−Jπ∥∞​≤δ, and ∥Tπ′​J−Tg​J∥∞​≤ϵ(8.7)

然后我们有

∥Jπ′−J∗∥∞≤γ∥Jπ−J∗∥∞+ϵ+2γδ1−γ(8.8)\left\|J^{\pi^{\prime}}-J^{*}\right\|_{\infty} \leq \gamma\left\|J^{\pi}-J^{*}\right\|_{\infty}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \tag{8.8}∥∥∥​Jπ′−J∗∥∥∥​∞​≤γ∥Jπ−J∗∥∞​+1−γϵ+2γδ​(8.8)


Proof.

根据Tg\mathrm{T}_{\mathfrak{g}}Tg​和Tπ′\mathrm{T}_{\pi^{\prime}}Tπ′​的收缩特性,公式(8.7)中的第一个不等式意味着
∥Tπ′J−Tπ′Jπ∥∞≤γδ,and ∥TgJ−TgJπ∥∞≤γδ(8.9)\left\|\mathrm{T}_{\pi^{\prime}} J-\mathrm{T}_{\pi^{\prime}} J^{\pi}\right\|_{\infty} \leq \gamma \delta, \quad \text { and } \quad\left\|\mathrm{T}_{\mathfrak{g}} J-\mathrm{T}_{\mathfrak{g}} J^{\pi}\right\|_{\infty} \leq \gamma \delta \tag{8.9}∥Tπ′​J−Tπ′​Jπ∥∞​≤γδ, and ∥Tg​J−Tg​Jπ∥∞​≤γδ(8.9)

因此
Tπ′Jπ≤Tπ′J+γδ1,and TgJ−TgJπ≤γδ1(8.10)\mathrm{T}_{\pi^{\prime}} J^{\pi} \leq \mathrm{T}_{\pi^{\prime}} J+\gamma \delta \mathbf{1}, \quad \text { and } \quad \mathrm{T}_{\mathfrak{g}} J-\mathrm{T}_{\mathfrak{g}} J^{\pi} \leq \gamma \delta \mathbf{1} \tag{8.10}Tπ′​Jπ≤Tπ′​J+γδ1, and Tg​J−Tg​Jπ≤γδ1(8.10)

类似地,由公式(8.7)中的第二个不等式得出
Tπ′J≤TgJ+ϵ1(8.11)\mathrm{T}_{\pi^{\prime}} J \leq \mathrm{T}_{\mathfrak{g}} J+\epsilon \mathbf{1} \tag{8.11}Tπ′​J≤Tg​J+ϵ1(8.11)

然后我们得到

Tπ′Jπ≤Tπ′J+γδ1≤TgJ+(ϵ+γδ)1≤TgJπ+(ϵ+2γδ)1≤Jπ+(ϵ+2γδ)1(8.12)\begin{aligned} \mathrm{T}_{\pi^{\prime}} J^{\pi} & \leq \mathrm{T}_{\pi^{\prime}} J+\gamma \delta \mathbf{1} \\ & \leq \mathrm{T}_{\mathfrak{g}} J+(\epsilon+\gamma \delta) \mathbf{1} \\ & \leq \mathrm{T}_{\mathfrak{g}} J^{\pi}+(\epsilon+2 \gamma \delta) \mathbf{1} \\ & \leq J^{\pi}+(\epsilon+2 \gamma \delta) \mathbf{1} \end{aligned} \tag{8.12}Tπ′​Jπ​≤Tπ′​J+γδ1≤Tg​J+(ϵ+γδ)1≤Tg​Jπ+(ϵ+2γδ)1≤Jπ+(ϵ+2γδ)1​(8.12)

其中,第二个不等式是由于公式(8.11),第三个不等式由公式(8.10)中的第二个不等式得出,最后一个不等式是由于Tg\mathrm{T}_{\mathfrak{g}}Tg​的策略改进属性,即TgJπ≤TπJπ=Jπ\mathrm{T}_{\mathfrak{g}} J^{\pi} \leq \mathrm{T}_{\pi} J^{\pi}=J^{\pi}Tg​Jπ≤Tπ​Jπ=Jπ

根据Lemma 8.1,我们有
Jπ′≤Jπ+ϵ+2γδ1−γ1(8.13)J^{\pi^{\prime}} \leq J^{\pi}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} 1 \tag{8.13}Jπ′≤Jπ+1−γϵ+2γδ​1(8.13)

并进一步将贝尔曼算子Tπ′T_{\pi^{\prime}}Tπ′​应用于不等式的两边,去得到

Tπ′Jπ′=Jπ′≤Tπ′Jπ+ϵ+2γδ1−γγ1.(8.14)\mathrm{T}_{\pi^{\prime}} J^{\pi^{\prime}}=J^{\pi^{\prime}} \leq \mathrm{T}_{\pi^{\prime}} J^{\pi}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \gamma \mathbf{1} . \tag{8.14}Tπ′​Jπ′=Jπ′≤Tπ′​Jπ+1−γϵ+2γδ​γ1.(8.14)

从不等式的两边减去J∗J^{*}J∗,我们得到
Jπ′−J∗≤Tπ′Jπ−J∗+ϵ+2γδ1−γγ1≤TgJπ+(ϵ+2γδ)1−J∗+ϵ+2γδ1−γγ1=TgJπ−TgJ∗+ϵ+2γδ1−γ1(8.15)\begin{aligned} J^{\pi^{\prime}}-J^{*} & \leq \mathrm{T}_{\pi^{\prime}} J^{\pi}-J^{*}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \gamma \mathbf{1} \\ & \leq \mathrm{T}_{\mathfrak{g}} J^{\pi}+(\epsilon+2 \gamma \delta) \mathbf{1}-J^{*}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \gamma \mathbf{1} \\ &=\mathrm{T}_{\mathfrak{g}} J^{\pi}-\mathrm{T}_{\mathfrak{g}} J^{*}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \mathbf{1} \end{aligned} \tag{8.15}Jπ′−J∗​≤Tπ′​Jπ−J∗+1−γϵ+2γδ​γ1≤Tg​Jπ+(ϵ+2γδ)1−J∗+1−γϵ+2γδ​γ1=Tg​Jπ−Tg​J∗+1−γϵ+2γδ​1​(8.15)

其中,第二个不等式由公式(8.12)中的第三个不等式得出,而平等则是由于最优贝尔曼算子Tg\mathrm{T}_{\mathfrak{g}}Tg​的唯一固定点。最后,我们对公式(8.15)应用无穷范数

∥Jπ′−J∗∥∞≤∥TgJπ−TgJ∗∥∞+ϵ+2γδ1−γ≤γ∥Jπ−J∗∥∞+ϵ+2γδ1−γ(8.16)\begin{aligned} \left\|J^{\pi^{\prime}}-J^{*}\right\|_{\infty} & \leq\left\|\mathrm{T}_{\mathfrak{g}} J^{\pi}-\mathrm{T}_{\mathfrak{g}} J^{*}\right\|_{\infty}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \\ & \leq \gamma\left\|J^{\pi}-J^{*}\right\|_{\infty}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \end{aligned} \tag{8.16}∥∥∥​Jπ′−J∗∥∥∥​∞​​≤∥Tg​Jπ−Tg​J∗∥∞​+1−γϵ+2γδ​≤γ∥Jπ−J∗∥∞​+1−γϵ+2γδ​​(8.16)

这就完成了证明。


最后,我们总结出近似PI算法的误差边界如下。

Proposition 8.1 近似PI算法的误差边界 (Error bound of the approximate PI algorithm)

给定一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ},由近似PI方法产生的πk\pi_{k}πk​序列满足以下条件
lim⁡k→∞∥Jπk−J∗∥∞≤ϵ+2γδ(1−γ)2.(8.17)\lim _{k \rightarrow \infty}\left\|J^{\pi_{k}}-J^{*}\right\|_{\infty} \leq \frac{\epsilon+2 \gamma \delta}{(1-\gamma)^{2}} . \tag{8.17}k→∞lim​∥Jπk​−J∗∥∞​≤(1−γ)2ϵ+2γδ​.(8.17)


Proof.

给定一个任意的π0\pi_{0}π0​,Lemma 8.28.28.2意味着
∥Jπ1−J∗∥∞≤γ∥Jπ0−J∗∥∞+ϵ+2γδ1−γ(8.18)\left\|J^{\pi_{1}}-J^{*}\right\|_{\infty} \leq \gamma\left\|J^{\pi_{0}}-J^{*}\right\|_{\infty}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \tag{8.18}∥Jπ1​−J∗∥∞​≤γ∥Jπ0​−J∗∥∞​+1−γϵ+2γδ​(8.18)

通过直接的归纳论证,对于任意的kkk,可以得出
∥Jπk−J∗∥∞≤γk∥Jπ0−J∗∥∞+(∑i=0k−1γi)ϵ+2γδ1−γ(8.19)\left\|J^{\pi_{k}}-J^{*}\right\|_{\infty} \leq \gamma^{k}\left\|J^{\pi_{0}}-J^{*}\right\|_{\infty}+\left(\sum_{i=0}^{k-1} \gamma^{i}\right) \frac{\epsilon+2 \gamma \delta}{1-\gamma} \tag{8.19}∥Jπk​−J∗∥∞​≤γk∥Jπ0​−J∗∥∞​+(i=0∑k−1​γi)1−γϵ+2γδ​(8.19)

结果是通过令k→∞k\rightarrow\inftyk→∞得出的。


需要注意的是,由近似PI算法产生的策略的误差范围不能保证在策略空间内收敛。也就是说,近似PI算法可以在一组策略中摇摆,见图14。

图14:近似PI算法的潜在收敛模式说明。当误差约束宽松时,近似PI算法产生的策略可能会在几个候选者中摇摆,例如{π1,π2,π3,π4}.\left\{\pi_{1}, \pi_{2}, \pi_{3}, \pi_{4}\right\}.{π1​,π2​,π3​,π4​}. 当误差约束足够严格时,产生的策略可能会收敛到一个定值,例如π1\pi_{1}π1​。

然而,在某些情况下,该算法可以收敛到一个单一的策略。在Note的其余部分,我们确定了策略收敛时近似PI算法的误差边界。

Proposition 8.2 策略空间收敛下近似PI的误差界线 (Error bounds of approximate PI under convergence in policy space)

给定一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ},让π′\pi^{\prime}π′作为近似PI算法收敛的策略。那么我们有

∥Jπ′−J∗∥∞≤ϵ+2γδ1−γ(8.20)\left\|J^{\pi^{\prime}}-J^{*}\right\|_{\infty} \leq \frac{\epsilon+2 \gamma \delta}{1-\gamma} \tag{8.20}∥∥∥​Jπ′−J∗∥∥∥​∞​≤1−γϵ+2γδ​(8.20)


Proof.

让J′∈RKJ^{\prime} \in \mathbb{R}^{K}J′∈RK是由π′\pi^{\prime}π′的近似策略评估产生的策略,即J′J^{\prime}J′和π′\pi^{\prime}π′满足近似PI算法的条件

∥J′−Jπ′∥∞≤δ,and ∥Tπ′J′−TgJ′∥∞≤ϵ. (8.21)\left\|J^{\prime}-J^{\pi^{\prime}}\right\|_{\infty} \leq \delta, \quad \text { and }\left\|\mathrm{T}_{\pi^{\prime}} J^{\prime}-\mathrm{T}_{\mathfrak{g}} J^{\prime}\right\|_{\infty} \leq \epsilon \text {. } \tag{8.21}∥∥∥​J′−Jπ′∥∥∥​∞​≤δ, and ∥Tπ′​J′−Tg​J′∥∞​≤ϵ. (8.21)

那么,我们有

∥TgJπ′−Jπ′∥∞≤∥TgJπ′−TgJ′∥∞+∥TgJ′−Tπ′J′∥∞++∥Tπ′J′−Jπ′∥∞≤γ∥Jπ′−J′∥∞+∥TgJ′−Tπ′J′∥∞++γ∥J′−Jπ′∥∞≤ϵ+2γδ(8.22)\begin{aligned} \left\|\mathrm{T}_{\mathfrak{g}} J^{\pi^{\prime}}-J^{\pi^{\prime}}\right\|_{\infty} \leq &\left\|\mathrm{T}_{\mathfrak{g}} J^{\pi^{\prime}}-\mathrm{T}_{\mathfrak{g}} J^{\prime}\right\|_{\infty}+\left\|\mathrm{T}_{\mathfrak{g}} J^{\prime}-\mathrm{T}_{\pi^{\prime}} J^{\prime}\right\|_{\infty}+\\ &+\left\|\mathrm{T}_{\pi^{\prime}} J^{\prime}-J^{\pi^{\prime}}\right\|_{\infty} \\ \leq & \gamma\left\|J^{\pi^{\prime}}-J^{\prime}\right\|_{\infty}+\left\|\mathrm{T}_{\mathfrak{g}} J^{\prime}-\mathrm{T}_{\pi^{\prime}} J^{\prime}\right\|_{\infty}+\\ &+\gamma\left\|J^{\prime}-J^{\pi^{\prime}}\right\|_{\infty} \\ \leq & \epsilon+2 \gamma \delta \end{aligned} \tag{8.22}∥∥∥​Tg​Jπ′−Jπ′∥∥∥​∞​≤≤≤​∥∥∥​Tg​Jπ′−Tg​J′∥∥∥​∞​+∥Tg​J′−Tπ′​J′∥∞​++∥∥∥​Tπ′​J′−Jπ′∥∥∥​∞​γ∥∥∥​Jπ′−J′∥∥∥​∞​+∥Tg​J′−Tπ′​J′∥∞​++γ∥∥∥​J′−Jπ′∥∥∥​∞​ϵ+2γδ​(8.22)

其中,第一个不等式来自无穷范数的三角形性质,第二个不等式是由于Tg\mathrm{T}_{\mathfrak{g}}Tg​和Tπ′\mathrm{T}_{\pi^{\prime}}Tπ′​的收缩性质,而最后一个不等式仅仅回顾了公式(8.21)中的结果。那么,公式(8.20)中的不等式是对Lemma 3.4的直接应用。


显然,稳定收敛下的近似PI算法的误差界限比被发散的情况要严格得多,特别是当折扣系数γ\gammaγ接近1时。

8.2 近似策略评估 (Approximate Policy Evaluation)

对通用API的收敛特性的分析表明了近似策略评价的性能的重要性。类似于开发AVI的最小化贝尔曼残差的策略也可以应用于策略评估。

定义8.1 近似总成本函数

给定一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},一个固定的策略π\piπ和一个总成本函数空间J\mathcal{J}J,总成本函数J∈JJ \in \mathcal{J}J∈J的近似总成本函数JπJ^{\pi}Jπ是通过最小化贝尔曼残差给出的,即

JBπ∈argmin⁡J∈J∥TπJ−J∥∞.(8.23)J_{B}^{\pi} \in \underset{J \in \mathcal{J}}{\operatorname{argmin}}\left\|\mathrm{T}_{\pi} J-J\right\|_{\infty} . \tag{8.23}JBπ​∈J∈Jargmin​∥Tπ​J−J∥∞​.(8.23)

通过最小化Bellman残差误差,估计JBπJ_{B}^{\pi}JBπ​的误差边界如下。

Lemma 8.3 近似成本函数的边界

给定一个无限范围MDP{X,U,p,q,γ}M D P\{\mathcal{X}, \mathcal{U}, p, q, \gamma\}MDP{X,U,p,q,γ},让JπJ^{\pi}Jπ为固定的策略π\piπ的总成本函数。那么,对于任何总成本函数J∈RKJ\in \mathbb{R}^{K}J∈RK中,以下不等式成立

∥J−Jπ∥∞≤11−γ∥J−TπJ∥∞.(8.24)\left\|J-J^{\pi}\right\|_{\infty} \leq \frac{1}{1-\gamma}\left\|J-\mathrm{T}_{\pi} J\right\|_{\infty} . \tag{8.24}∥J−Jπ∥∞​≤1−γ1​∥J−Tπ​J∥∞​.(8.24)


Proof.
直接的有
∥J−Jπ∥∞=∥J−TπJ+TπJ−Jπ∥∞=∥J−TπJ∥∞+∥TπJ−Jπ∥∞≤∥J−TπJ∥∞+γ∥J−Jπ∥∞(8.25)\begin{aligned} \left\|J-J^{\pi}\right\|_{\infty} &=\left\|J-\mathrm{T}_{\pi} J+\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\infty} \\ &=\left\|J-\mathrm{T}_{\pi} J\right\|_{\infty}+\left\|\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\infty} \\ & \leq\left\|J-\mathrm{T}_{\pi} J\right\|_{\infty}+\gamma\left\|J-J^{\pi}\right\|_{\infty} \end{aligned} \tag{8.25}∥J−Jπ∥∞​​=∥J−Tπ​J+Tπ​J−Jπ∥∞​=∥J−Tπ​J∥∞​+∥Tπ​J−Jπ∥∞​≤∥J−Tπ​J∥∞​+γ∥J−Jπ∥∞​​(8.25)


Proposition 8.3 估计值与真实总成本函数之间的约束

给出一个无限范围MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},一个固定的策略π\piπ和一个总成本函数空间J\mathcal{J}J。让JBπ∈JJ_{B}^{\pi} \in \mathcal{J}JBπ​∈J为MSBE问题的全局最小值。那么估计值与真实总成本函数JπJ^{\pi}Jπ之间的误差有如下约束

∥JBπ−Jπ∥∞≤1+γ1−γmin⁡J∈J∥J−Jπ∥∞.(8.26)\left\|J_{B}^{\pi}-J^{\pi}\right\|_{\infty} \leq \frac{1+\gamma}{1-\gamma} \min _{J \in \mathcal{J}}\left\|J-J^{\pi}\right\|_{\infty} . \tag{8.26}∥JBπ​−Jπ∥∞​≤1−γ1+γ​J∈Jmin​∥J−Jπ∥∞​.(8.26)


Proof.

通过应用无穷范数的三角不等式,我们可以得到
∥TπJ−J∥∞≤∥TπJ−Jπ∥∞+∥Jπ−J∥∞≤(1+γ)∥J−Jπ∥∞.(8.27)\begin{aligned} \left\|\mathrm{T}_{\pi} J-J\right\|_{\infty} & \leq\left\|\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\infty}+\left\|J^{\pi}-J\right\|_{\infty} \\ & \leq(1+\gamma)\left\|J-J^{\pi}\right\|_{\infty} . \end{aligned} \tag{8.27}∥Tπ​J−J∥∞​​≤∥Tπ​J−Jπ∥∞​+∥Jπ−J∥∞​≤(1+γ)∥J−Jπ∥∞​.​(8.27)

直截了当地有
∥TπJBπ−JBπ∥∞=min⁡J∈J∥TπJ−J∥∞≤(1+γ)min⁡J∈J∥J−Jπ∥∞.(8.28)\begin{aligned} \left\|\mathrm{T}_{\pi} J_{B}^{\pi}-J_{B}^{\pi}\right\|_{\infty} &=\min _{J \in \mathcal{J}}\left\|\mathrm{T}_{\pi} J-J\right\|_{\infty} \\ & \leq(1+\gamma) \min _{J \in \mathcal{J}}\left\|J-J^{\pi}\right\|_{\infty} . \end{aligned} \tag{8.28}∥Tπ​JBπ​−JBπ​∥∞​​=J∈Jmin​∥Tπ​J−J∥∞​≤(1+γ)J∈Jmin​∥J−Jπ∥∞​.​(8.28)

结合不等式和Lemma 8.38.38.3中的结果,证明了这一点。


显然,公式(8.23)中给出的MSBE成本在数值上仍然是难以优化的。因此,与AVI类似,我们可以定义以下平均贝尔曼误差(Mean Squared Bellman Error, MSBE) 的最小化问题
J2π∈argmin⁡J∈J∥TπJ−J∥2.(8.29)J_{2}^{\pi} \in \underset{J \in \mathcal{J}}{\operatorname{argmin}}\left\|\mathrm{T}_{\pi} J-J\right\|_{2} . \tag{8.29}J2π​∈J∈Jargmin​∥Tπ​J−J∥2​.(8.29)

如果我们采用贝尔曼算子的矩阵形式表达,并选择函数近似空间为线性,即TπJ=Gπ+γPπΦ⊤h\mathrm{T}_{\pi} J=G_{\pi}+\gamma P_{\pi} \Phi^{\top} hTπ​J=Gπ​+γPπ​Φ⊤h,则有上述问题的近似形式表达

J2π=(Wπ⊤Wπ)−1Wπ⊤Gπ(8.30)J_{2}^{\pi}=\left(W_{\pi}^{\top} W_{\pi}\right)^{-1} W_{\pi}^{\top} G_{\pi} \tag{8.30}J2π​=(Wπ⊤​Wπ​)−1Wπ⊤​Gπ​(8.30)

其中 Wπ=(IK−γPπ)Φ⊤W_{\pi}=\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top}Wπ​=(IK​−γPπ​)Φ⊤。 虽然这个解决方案很简单,也很有保证,但不幸的是,没有任何有意义的误差界限可以用来描述这种近似的质量。

8.3 近似的策略评估与遍历性 Approximate Policy Evaluation with Ergodicity

虽然MSBE最小化问题定义明确,也有简单的数值解,但它继承了DP的性质,即对模型信息的要求。在SDM的各种实际应用中,对没有明确模型的问题的有效解决方案有很大的需求。具体来说,我们研究了一类特殊的MDPs,这使得无模型的DP算法得以发展。

8.3.1 各态历经的MDP(Ergodic MDP)

给定一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ}和一个固定的策略π\piπ,众所周知,系统转换可以被建模为马尔可夫链。为了通过抽样检索完整的模型信息,必须假设每个状态都可以从任何其他状态到达,因此对状态有一个唯一的静止分布。因此,我们对由底层MDP模型和策略π\piπ规定的状态转换的马尔可夫链施加以下假设

Assumption 8.1 过渡矩阵PπP_{\pi}Pπ​的各态历经性

给定一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ}和一个固定的策略π\piπ,由过渡矩阵PπP_{\pi}Pπ​定义的马尔可夫链是各态历经的。

让我们用ξi\xi_{i}ξi​表示第iii个相应状态的概率。各态历经性假设意味着所有i=1,…,Ki=1, \ldots, Ki=1,…,K的ξi\xi_{i}ξi​都是正定的,也就是说,马尔科夫链有一个唯一的稳定状态分布。让我们定义ξ:=[ξ1,…,ξK]⊤∈RK\xi:=\left[\xi_{1}, \ldots, \xi_{K}\right]^{\top} \in \mathbb{R}^{K}ξ:=[ξ1​,…,ξK​]⊤∈RK, 与 x∈RKx \in \mathbb{R}^{K}x∈RK。 ξ\xiξ与过渡矩阵PπP_{\pi}Pπ​之间的关系的特点是

Pπ⊤ξ=ξ(8.31)P_{\pi}^{\top} \xi=\xi \tag{8.31}Pπ⊤​ξ=ξ(8.31)

显然,向量ξ\xiξ是Pπ⊤P_{\pi}^{\top}Pπ⊤​的右特征向量,与特征值为1有关。此外,由于ξ\xiξ的所有条目都是正的,我们可以将ξ\xiξ的加权范数定义为

∥x∥ξ=∑k=1Kξixi2(8.32)\|x\|_{\xi}=\sqrt{\sum_{k=1}^{K} \xi_{i} x_{i}^{2}} \tag{8.32}∥x∥ξ​=k=1∑K​ξi​xi2​​(8.32)

Lemma 8.4 ξ\xiξ加权范数

给定一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},和一个固定的策略π\piπ,对于任何K×KK \times KK×K过渡概率矩阵PπP_{\pi}Pπ​,具有一个不变的分布ξ=(ξ1,…,ξn)\xi=\left(\xi_{1}, \ldots, \xi_{n}\right)ξ=(ξ1​,…,ξn​),有值为正的组成部分,我们有

∥PπJ∥ξ≤∥J∥ξ(8.33)\left\|P_{\pi} J\right\|_{\xi} \leq\|J\|_{\xi} \tag{8.33}∥Pπ​J∥ξ​≤∥J∥ξ​(8.33)


Proof
令Pπ={pij}P_{\pi}=\left\{p_{i j}\right\}Pπ​={pij​}, 然后我们得到
∥PπJ∥ξ2=∑i=1nξi(∑j=1npijJj)2(definition) ≤∑i=1nξi∑j=1npijJj2(convexity) =∑j=1n∑i=1nξipijJj2=∑j=1nξjJj2≤∥J∥ξ2(definition) (8.34)\begin{array}{rlr} \left\|P_{\pi} J\right\|_{\xi}^{2} & =\sum_{i=1}^{n} \xi_{i}\left(\sum_{j=1}^{n} p_{i j} J_{j}\right)^{2} & \text { (definition) } \\ & \leq \sum_{i=1}^{n} \xi_{i} \sum_{j=1}^{n} p_{i j} J_{j}^{2} & \text { (convexity) } \\ & =\sum_{j=1}^{n} \sum_{i=1}^{n} \xi_{i} p_{i j} J_{j}^{2} & \\ & =\sum_{j=1}^{n} \xi_{j} J_{j}^{2} & \\ \leq & \|J\|_{\xi}^{2} & \text { (definition) } \end{array} \tag{8.34}∥Pπ​J∥ξ2​≤​=∑i=1n​ξi​(∑j=1n​pij​Jj​)2≤∑i=1n​ξi​∑j=1n​pij​Jj2​=∑j=1n​∑i=1n​ξi​pij​Jj2​=∑j=1n​ξj​Jj2​∥J∥ξ2​​ (definition)  (convexity)  (definition) ​(8.34)


Proposition 8.4 ξ\xiξ加权范数下的贝尔曼算子的收缩性

给定一个无限的范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},和一个固定的策略π\piπ,那么贝尔曼算子Tπ\mathrm{T}_{\pi}Tπ​是模数γ\gammaγ相对于ξ\xiξ加权范数的收缩,即:
∥TπJ−TπJ′∥ξ≤γ∥J−J′∥ξ.(8.35)\left\|\mathrm{T}_{\pi} J-\mathrm{T}_{\pi} J^{\prime}\right\|_{\xi} \leq \gamma\left\|J-J^{\prime}\right\|_{\xi} . \tag{8.35}∥Tπ​J−Tπ​J′∥ξ​≤γ∥J−J′∥ξ​.(8.35)


Proof.
为了简单起见,我们使用贝尔曼算子 TπJ:=Gπ+γPπJ\mathrm{T}_{\pi} J:=G_{\pi}+\gamma P_{\pi} JTπ​J:=Gπ​+γPπ​J的紧凑表示,然后,我们得到
∥TπJ−TπJ′∥ξ=∥γPπ(J−J′)∥ξ≤γ∥J−J′∥ξ(8.36)\begin{aligned} \left\|\mathrm{T}_{\pi} J-\mathrm{T}_{\pi} J^{\prime}\right\|_{\xi} &=\left\|\gamma P_{\pi}\left(J-J^{\prime}\right)\right\|_{\xi} \\ & \leq \gamma\left\|J-J^{\prime}\right\|_{\xi} \end{aligned} \tag{8.36}∥Tπ​J−Tπ​J′∥ξ​​=∥γPπ​(J−J′)∥ξ​≤γ∥J−J′∥ξ​​(8.36)
这直接来自于Lemma 8.4。


通过采用这一特性,我们可以在ξ\xiξ加权范数中定义以下的均方贝尔曼误差(MSBE)
Jβπ∈argmin⁡J∈J∥TπJ−J∥ξ(8.37)J_{\beta}^{\pi} \in \underset{J \in \mathcal{J}}{\operatorname{argmin}}\left\|\mathrm{T}_{\pi} J-J\right\|_{\xi} \tag{8.37}Jβπ​∈J∈Jargmin​∥Tπ​J−J∥ξ​(8.37)

与第8.2节的分析类似,我们可以推导出MSBE最小化在ξ\xiξ加权规范下的误差界限如下。

Lemma 8.5 ξ\xiξ加权范数下的边界

给定一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},让JπJ^{\pi}Jπ是一个固定策略π\piπ的总成本函数。那么,对于任何总成本函数J∈RKJ \in \mathbb{R}^{K}J∈RK中,以下不等式是成立的
∥J−Jπ∥ξ≤11−γ∥J−TπJ∥ξ(8.38)\left\|J-J^{\pi}\right\|_{\xi} \leq \frac{1}{1-\gamma}\left\|J-\mathrm{T}_{\pi} J\right\|_{\xi} \tag{8.38}∥J−Jπ∥ξ​≤1−γ1​∥J−Tπ​J∥ξ​(8.38)


Proof.
直接的有

∥J−Jπ∥ξ=∥J−TπJ+TπJ−Jπ∥ξ=∥J−TπJ∥ξ+∥TπJ−Jπ∥ξ≤∥J−TπJ∥ξ+γ∥J−Jπ∥ξ(8.39)\begin{aligned} \left\|J-J^{\pi}\right\|_{\xi} &=\left\|J-\mathrm{T}_{\pi} J+\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\xi} \\ &=\left\|J-\mathrm{T}_{\pi} J\right\|_{\xi}+\left\|\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\xi} \\ & \leq\left\|J-\mathrm{T}_{\pi} J\right\|_{\xi}+\gamma\left\|J-J^{\pi}\right\|_{\xi} \end{aligned} \tag{8.39}∥J−Jπ∥ξ​​=∥J−Tπ​J+Tπ​J−Jπ∥ξ​=∥J−Tπ​J∥ξ​+∥Tπ​J−Jπ∥ξ​≤∥J−Tπ​J∥ξ​+γ∥J−Jπ∥ξ​​(8.39)


Proposition 8.5 ξ\xiξ加权范数下的估计值与真实总成本函数之间的约束

给出一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},一个固定的策略π\piπ和一个总成本函数空间J\mathcal{J}J。让JBπ∈JJ_{B}^{\pi} \in \mathcal{J}JBπ​∈J为MSBE问题的全局最小值。那么估计值与真实总成本函数JπJ^{\pi}Jπ之间的误差有如下约束

∥Jβπ−Jπ∥ξ≤1+γ1−γmin⁡J∈J∥J−Jπ∥ξ.(8.40)\left\|J_{\beta}^{\pi}-J^{\pi}\right\|_{\xi} \leq \frac{1+\gamma}{1-\gamma} \min _{J \in \mathcal{J}}\left\|J-J^{\pi}\right\|_{\xi} . \tag{8.40}∥∥​Jβπ​−Jπ∥∥​ξ​≤1−γ1+γ​J∈Jmin​∥J−Jπ∥ξ​.(8.40)


Proof.
通过应用无穷范数的三角不等式,我们可以得到

∥TπJ−J∥ξ≤∥TπJ−Jπ∥ξ+∥Jπ−J∥ξ≤(1+γ)∥J−Jπ∥ξ.(8.41)\begin{aligned} \left\|\mathrm{T}_{\pi} J-J\right\|_{\xi} & \leq\left\|\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\xi}+\left\|J^{\pi}-J\right\|_{\xi} \\ & \leq(1+\gamma)\left\|J-J^{\pi}\right\|_{\xi} . \end{aligned} \tag{8.41}∥Tπ​J−J∥ξ​​≤∥Tπ​J−Jπ∥ξ​+∥Jπ−J∥ξ​≤(1+γ)∥J−Jπ∥ξ​.​(8.41)

简单地说,我们有

∥TπJβπ−Jβπ∥ξ=min⁡J∈J∥TπJ−J∥ξ≤(1+γ)min⁡J∈J∥J−Jπ∥ξ(8.42)\begin{aligned} \left\|\mathrm{T}_{\pi} J_{\beta}^{\pi}-J_{\beta}^{\pi}\right\|_{\xi} &=\min _{J \in \mathcal{J}}\left\|\mathrm{T}_{\pi} J-J\right\|_{\xi} \\ & \leq(1+\gamma) \min _{J \in \mathcal{J}}\left\|J-J^{\pi}\right\|_{\xi} \end{aligned} \tag{8.42}∥∥​Tπ​Jβπ​−Jβπ​∥∥​ξ​​=J∈Jmin​∥Tπ​J−J∥ξ​≤(1+γ)J∈Jmin​∥J−Jπ∥ξ​​(8.42)

将该不等式与8.58.58.5的结果结合起来,就完成了证明。

8.3.2 平均平方预测贝尔曼误差 (Mean Squared Projected Bellman Error)

最后,如果我们把自己限制在一个线性函数近似的方案中,我们需要一个正交投影到Jl\mathcal{J}_{l}Jl​,相对于ξ\xiξ的加权规范。具体来说,我们需要解决以下最小化问题
ΠΦ(J):=Φ⊤argmin⁡h∈Rm∥J−Φ⊤h∥ξ2(8.43)\Pi_{\Phi}(J):=\Phi^{\top} \underset{h \in \mathbb{R}^{m}}{\operatorname{argmin}}\left\|J-\Phi^{\top} h\right\|_{\xi}^{2} \tag{8.43}ΠΦ​(J):=Φ⊤h∈Rmargmin​∥∥​J−Φ⊤h∥∥​ξ2​(8.43)

由于最小平方函数是凸的,解决方案的特点是通过解决以下方程hhh来实现的
ΦΞΦ⊤h=ΦΞJ(8.44)\Phi \Xi \Phi^{\top} h=\Phi \Xi J \tag{8.44}ΦΞΦ⊤h=ΦΞJ(8.44)

由于rk⁡(Φ)=m\operatorname{rk}(\Phi)=mrk(Φ)=m,正交投影被明确定义为
ΠΦ(J):=Φ⊤(ΦΞΦ⊤)−1ΦΞJ(8.45)\Pi_{\Phi}(J):=\Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi \Xi J \tag{8.45}ΠΦ​(J):=Φ⊤(ΦΞΦ⊤)−1ΦΞJ(8.45)

Lemma 8.6 非扩张性投影算子ΠΦ\Pi_{\Phi}ΠΦ​

给出一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},和一个固定的策略π\piπ。那么,投影ΠΦ\Pi_{\Phi}ΠΦ​在ξ−\xi-ξ−范数下是一个非扩张性算子,即。
∥ΠΦJ−ΠΦJ′∥ξ≤∥J−J′∥ξ.(8.46)\left\|\Pi_{\Phi} J-\Pi_{\Phi} J^{\prime}\right\|_{\xi} \leq\left\|J-J^{\prime}\right\|_{\xi} . \tag{8.46}∥ΠΦ​J−ΠΦ​J′∥ξ​≤∥J−J′∥ξ​.(8.46)


Proof.
不难发现

∥ΠΦJ−ΠΦJ′∥ξ2=∥ΠΦ(J−J′)∥ξ2≤∥ΠΦ(J−J′)∥ξ2+∥(I−ΠΦ)(J−J′)∥ξ2=∥J−J′∥ξ2(8.47)\begin{aligned} \left\|\Pi_{\Phi} J-\Pi_{\Phi} J^{\prime}\right\|_{\xi}^{2} &=\left\|\Pi_{\Phi}\left(J-J^{\prime}\right)\right\|_{\xi}^{2} \\ & \leq\left\|\Pi_{\Phi}\left(J-J^{\prime}\right)\right\|_{\xi}^{2}+\left\|\left(I-\Pi_{\Phi}\right)\left(J-J^{\prime}\right)\right\|_{\xi}^{2} \\ &=\left\|J-J^{\prime}\right\|_{\xi}^{2} \end{aligned} \tag{8.47}∥ΠΦ​J−ΠΦ​J′∥ξ2​​=∥ΠΦ​(J−J′)∥ξ2​≤∥ΠΦ​(J−J′)∥ξ2​+∥(I−ΠΦ​)(J−J′)∥ξ2​=∥J−J′∥ξ2​​(8.47)

其中最后一个等式由勾股定理得出。证明结束。


Proposition 8.6. 投影算子ΠΦ\Pi_{\Phi}ΠΦ​的收缩性

给定一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},和一个固定的策略π\piπ,那么投影贝尔曼算子ΠΦTπ\Pi_{\Phi} \mathrm{T}_{\pi}ΠΦ​Tπ​是相对于∥⋅∥ξ\|\cdot\|_{\xi}∥⋅∥ξ​的模为γ\gammaγ的收缩。


Proof.

直接从Lemma 8.68.68.6中,我们得出结论
∥ΠΦTπJ−ΠΦTπJ′∥ξ≤∥TπJ−TπJ′∥ξ≤γ∥J−J′∥ξ.(8.48)\begin{aligned} \left\|\Pi_{\Phi} \mathrm{T}_{\pi} J-\Pi_{\Phi} \mathrm{T}_{\pi} J^{\prime}\right\|_{\xi} & \leq\left\|\mathrm{T}_{\pi} J-\mathrm{T}_{\pi} J^{\prime}\right\|_{\xi} \\ & \leq \gamma\left\|J-J^{\prime}\right\|_{\xi} . \end{aligned} \tag{8.48}∥ΠΦ​Tπ​J−ΠΦ​Tπ​J′∥ξ​​≤∥Tπ​J−Tπ​J′∥ξ​≤γ∥J−J′∥ξ​.​(8.48)


这个命题表明,在J\mathcal{J}J中存在一个唯一的固定点J~π\widetilde{J}_{\pi}Jπ​,从而
J~π=ΠΦTπJ~π.\widetilde{J}_{\pi}=\Pi_{\Phi} \mathrm{T}_{\pi} \tilde{J}_{\pi} . Jπ​=ΠΦ​Tπ​J~π​.

由于h↦Φhh \mapsto \Phi hh↦Φh是单射的,因此存在一个唯一的hπ∈Rmh_{\pi} \in \mathbb{R}^{m}hπ​∈Rm,这样Φhπ=ΠΦTπ(Φhπ)\Phi h_{\pi}=\Pi_{\Phi} \mathrm{T}_{\pi}\left(\Phi h_{\pi}\right)Φhπ​=ΠΦ​Tπ​(Φhπ​)。这简单地导致了另一个流行的目标函数,即均方投影贝尔曼误差(Mean Squared Projected Bellman Error, MSPBE)

min⁡h∈Rm∥Φh−ΠΦTπ(Φh)∥ξ(8.49)\min _{h \in \mathbb{R}^{m}}\left\|\Phi h-\Pi_{\Phi} \mathrm{T}_{\pi}(\Phi h)\right\|_{\xi} \tag{8.49}h∈Rmmin​∥Φh−ΠΦ​Tπ​(Φh)∥ξ​(8.49)

在下文中,我们描述了最小化MSPBE fucntion的误差界限。

Proposition 8.7.

给定一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},和一个固定的策略π\piπ, 让hπh_{\pi}hπ​满足Φhπ=ΠΦTπ(Φhπ)\Phi h_{\pi}=\Pi_{\Phi} \mathrm{T}_{\pi}\left(\Phi h_{\pi}\right)Φhπ​=ΠΦ​Tπ​(Φhπ​)。 那么我们有
∥Jπ−Φ⊤hπ∥ξ≤11−γ2∥Jπ−ΠΦJπ∥ξ(8.50)\left\|J^{\pi}-\Phi^{\top} h_{\pi}\right\|_{\xi} \leq \frac{1}{\sqrt{1-\gamma^{2}}}\left\|J^{\pi}-\Pi_{\Phi} J^{\pi}\right\|_{\xi} \tag{8.50}∥∥​Jπ−Φ⊤hπ​∥∥​ξ​≤1−γ2​1​∥Jπ−ΠΦ​Jπ∥ξ​(8.50)


Proof.
简单地说,我们有

∥Jπ−Φ⊤hπ∥ξ2=∥Jπ−ΠΦJπ∥ξ2+∥ΠΦJπ−Φ⊤hπ∥ξ2=∥Jπ−ΠΦJπ∥ξ2+∥ΠΦTπJπ−ΠΦTπ(Φ⊤hπ)∥ξ2≤∥Jπ−ΠΦJπ∥ξ2+γ2∥Jπ−Φ⊤hπ∥ξ2(8.51)\begin{aligned} \left\|J^{\pi}-\Phi^{\top} h_{\pi}\right\|_{\xi}^{2} &=\left\|J^{\pi}-\Pi_{\Phi} J^{\pi}\right\|_{\xi}^{2}+\left\|\Pi_{\Phi} J^{\pi}-\Phi^{\top} h_{\pi}\right\|_{\xi}^{2} \\ &=\left\|J^{\pi}-\Pi_{\Phi} J^{\pi}\right\|_{\xi}^{2}+\left\|\Pi_{\Phi} \mathrm{T}_{\pi} J^{\pi}-\Pi_{\Phi} \mathrm{T}_{\pi}\left(\Phi^{\top} h_{\pi}\right)\right\|_{\xi}^{2} \\ & \leq\left\|J^{\pi}-\Pi_{\Phi} J^{\pi}\right\|_{\xi}^{2}+\gamma^{2}\left\|J^{\pi}-\Phi^{\top} h_{\pi}\right\|_{\xi}^{2} \end{aligned} \tag{8.51}∥∥​Jπ−Φ⊤hπ​∥∥​ξ2​​=∥Jπ−ΠΦ​Jπ∥ξ2​+∥∥​ΠΦ​Jπ−Φ⊤hπ​∥∥​ξ2​=∥Jπ−ΠΦ​Jπ∥ξ2​+∥∥​ΠΦ​Tπ​Jπ−ΠΦ​Tπ​(Φ⊤hπ​)∥∥​ξ2​≤∥Jπ−ΠΦ​Jπ∥ξ2​+γ2∥∥​Jπ−Φ⊤hπ​∥∥​ξ2​​(8.51)

其中第一个等式由勾股定理产生,第二个等式由构造产生,而这个不等式是由于ΠΦTπ\Pi_{\Phi} \mathrm{T}_{\pi}ΠΦ​Tπ​的收缩特性造成的。


当真正的总成本函数JπJ^{\pi}Jπ不在线性函数近似空间内时,即∥Jπ−ΠΦJπ∥ξ≠0\left\|J^{\pi}-\Pi_{\Phi} J^{\pi}\right\|_{\xi} \neq 0∥Jπ−ΠΦ​Jπ∥ξ​​=0,那么∥Jπ−Φ⊤hπ∥ξ\left\|J^{\pi}-\Phi^{\top} h_{\pi}\right\|_{\xi}∥∥​Jπ−Φ⊤hπ​∥∥​ξ​的误差就会被严重约束,如果γ\gammaγ接近于1。因此,确保总成本函数位于线性总成本函数近似空间J\mathcal{J}J至关重要,即Jπ∈JlJ^{\pi}\in \mathcal{J}_{l}Jπ∈Jl​。

由于MSBE函数和MSPBE函数都是凸的,这两个函数都能保证全局最小值。因此,研究这两个问题的解决方案的性能是有价值的。为此,我们将误差界线的差异定义为

l(γ):=1+γ1−γ−11−γ2(8.52)l(\gamma):=\frac{1+\gamma}{1-\gamma}-\frac{1}{\sqrt{1-\gamma^{2}}} \tag{8.52}l(γ):=1−γ1+γ​−1−γ2​1​(8.52)

很明显,l(0)=0l(0)=0l(0)=0。现在我们取lll的导数为

l′(γ)=2(1−γ)2+γ(1−γ2)3(8.53)l^{\prime}(\gamma)=\frac{2}{(1-\gamma)^{2}}+\frac{\gamma}{\left(\sqrt{1-\gamma^{2}}\right)^{3}} \tag{8.53}l′(γ)=(1−γ)22​+(1−γ2​)3γ​(8.53)

其值对于γ∈[0,1]\gamma\in[0,1]γ∈[0,1]来说总是正的。这一事实意味着差分函数lll的函数值从0到1单调地增加。图15中的评价清楚地描述了当γ\gammaγ接近于1时,MSBE最小化和MSPBE最小化的误差界限之差会变成无穷大。换句话说,最小化MSPBE函数比MSBE函数更有优势。

图15:MSBE最小化和MSPBE最小化的误差界限商。

8.4 API 补充

8.4.1 Approximate PI (API)

  • 我们将展示三种不同的APE方法:ell2ell_{2}ell2​ MSBE、具有各态历经性的MSBE、具有各态历经性的MSPBE。
  • 在E-Bus例子下,在策略改进步骤中没有近似方法。
  • 深度强化学习中的策略网络:近似的策略改进。

8.4.2 APE via Bellman Residual Minimisation

  • In Policy Iteration, Policy Evaluation (PE) via TπT_{\pi}Tπ​ leads to a fixed point JπJ^{\pi}Jπ . (Quiz 2)
  • In Approximate PE, there is a Bellman error since we restrict JJJ in a subspace (Φ⊤h)\left(\Phi^{\top} h\right)(Φ⊤h) if we apply Linear Function Approximation (LFA).

8.4.3 ℓ2\ell_{2}ℓ2​ Based Bellman Residual Minimisation

  • What is the difference between ∥⋅∥22\|\cdot\|_{2}^{2}∥⋅∥22​ and ∥⋅∥2\|\cdot\|_{2}∥⋅∥2​ ?
  • ∥x∥22=x⊤x,∥x∥2=x⊤x(x∈Rn)\|x\|_{2}^{2}=x^{\top} x,\|x\|_{2}=\sqrt{x^{\top} x}\left(x \in \mathbb{R}^{n}\right)∥x∥22​=x⊤x,∥x∥2​=x⊤x​(x∈Rn) .
  • Both forms are strict convex, they have the same global minima. We did not make a strict distinction between these two terms since we only focus on the analytical solution.
  • Quite different in numerical calculations, e.g., gradient.
  • In this exercise, we keep using ∥⋅∥22\|\cdot\|_{2}^{2}∥⋅∥22​ , which is also more consistent with the name ‘Squared’ BE.

8.4.4 Recap: Closed form policy evaluation

Preliminaries: matrix derivation

  • Matrix calculus
  • Layout conventions: given y∈Rm,x∈Rny \in \mathbb{R}^{m}, x \in \mathbb{R}^{n}y∈Rm,x∈Rn .
    Numerator-layout:

Numerator-layout: ∂y∂x:=[∂y1∂x1…∂y1∂xn⋱∂ym∂x1…∂ym∂xn]∈Rm×n,∂y∂x:=[∂y1∂x1…∂ym∂x1⋱∂y1∂xn…∂ym∂xn]∈Rn×m,\begin{array}{l} \text { Numerator-layout: } \\ \frac{\partial y}{\partial x}:=\left[\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \ldots & \frac{\partial y_{1}}{\partial x_{n}} \\ & \ddots & \\ \frac{\partial y_{m}}{\partial x_{1}} & \ldots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right] \in \mathbb{R}^{m \times n}, \quad \frac{\partial y}{\partial x}:=\left[\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \ldots & \frac{\partial y_{m}}{\partial x_{1}} \\ & \ddots & \\ \frac{\partial y_{1}}{\partial x_{n}} & \ldots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right] \in \mathbb{R}^{n \times m}, \end{array} Numerator-layout: ∂x∂y​:=⎣⎡​∂x1​∂y1​​∂x1​∂ym​​​…⋱…​∂xn​∂y1​​∂xn​∂ym​​​⎦⎤​∈Rm×n,∂x∂y​:=⎣⎡​∂x1​∂y1​​∂xn​∂y1​​​…⋱…​∂x1​∂ym​​∂xn​∂ym​​​⎦⎤​∈Rn×m,​

  • This exercise follows denominator layout convention.
  • This exercise has two kinds of matrix derivation:
  • The derivative of a scalar y by a vector x : gradient (vector)
  • The derivative of a vector y by a vector x : Jaccobian (matrix)

8.4.5 ℓ2\ell_{2}ℓ2​ Based Bellman Residual Minimisation

  • ℓ2\ell_{2}ℓ2​ least square function:

J2π∈argmin⁡J∈J∥TπJ−J∥22,where J=Φ⊤h.∥TπJ−J∥22=∥J−TπJ∥22=∥J−Gπ−γPπJ∥22=∥(IK−γPπ)Φ⊤h−Gπ∥22\begin{aligned} J_{2}^{\pi} \in \underset{J \in \mathcal{J}}{\operatorname{argmin}} &\left\|\mathrm{T}_{\pi} J-J\right\|_{2}^{2}, \quad \text { where } J=\Phi^{\top} h . \\ \left\|\mathrm{T}_{\pi} J-J\right\|_{2}^{2} &=\left\|J-\mathrm{T}_{\pi} J\right\|_{2}^{2}=\left\|J-G_{\pi}-\gamma P_{\pi} J\right\|_{2}^{2} \\ &=\left\|\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top} h-G_{\pi}\right\|_{2}^{2} \end{aligned}J2π​∈J∈Jargmin​∥Tπ​J−J∥22​​∥Tπ​J−J∥22​, where J=Φ⊤h.=∥J−Tπ​J∥22​=∥J−Gπ​−γPπ​J∥22​=∥∥​(IK​−γPπ​)Φ⊤h−Gπ​∥∥​22​​

  • Let Wπ=(IK−γPπ)Φ⊤∈RK×mW_{\pi}=\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top} \in \mathbb{R}^{K \times m}Wπ​=(IK​−γPπ​)Φ⊤∈RK×m , we have

∥TπJ−J∥22=∥Wπh−Gπ∥22=(Wπh−Gπ)T(Wπh−Gπ)\begin{aligned} \left\|\mathrm{T}_{\pi} J-J\right\|_{2}^{2} &=\left\|W_{\pi} h-G_{\pi}\right\|_{2}^{2} \\ &=\left(W_{\pi} h-G_{\pi}\right)^{\mathrm{T}}\left(W_{\pi} h-G_{\pi}\right) \end{aligned}∥Tπ​J−J∥22​​=∥Wπ​h−Gπ​∥22​=(Wπ​h−Gπ​)T(Wπ​h−Gπ​)​

  • Since the least square function is convex, we can get the minima when the derivation equals to zero.

  • Let u=Wπh−Gπ∈RK×1\mathbf{u}=W_{\pi} h-G_{\pi} \in \mathbb{R}^{K \times 1}u=Wπ​h−Gπ​∈RK×1 , we can get
    ∂u⊤u∂u=2u,∂u⊤u∂h=2∂u∂hu,where∂u∂h=Wπ⊤(denominator layout)\frac{\partial \mathbf{u}^{\top} \mathbf{u}}{\partial \mathbf{u}}=2 \mathbf{u}, \quad \frac{\partial \mathbf{u}^{\top} \mathbf{u}}{\partial h}=2 \frac{\partial \mathbf{u}}{\partial h} \mathbf{u}, \quad where \frac{\partial \mathbf{u}}{\partial h}=W_{\pi}^{\top} \quad \text{(denominator layout)}∂u∂u⊤u​=2u,∂h∂u⊤u​=2∂h∂u​u,where∂h∂u​=Wπ⊤​(denominator layout)

∂(Wπh−Gπ)⊤(Wπh−Gπ)∂h=2Wπ⊤(Wπh−Gπ)=0∈Rm×1⇒Wπ⊤Wπh−Wπ⊤Gπ=0Wπ⊤Wπh=Wπ⊤Gπ\begin{aligned} \frac{\partial\left(W_{\pi} h-G_{\pi}\right)^{\top}\left(W_{\pi} h-G_{\pi}\right)}{\partial h} &=2 W_{\pi}^{\top}\left(W_{\pi} h-G_{\pi}\right)=0 \in \mathbb{R}^{m \times 1} \\ \Rightarrow \quad W_{\pi}^{\top} W_{\pi} h-W_{\pi}^{\top} G_{\pi} &=0 \\ W_{\pi}^{\top} W_{\pi} h &=W_{\pi}^{\top} G_{\pi} \end{aligned}∂h∂(Wπ​h−Gπ​)⊤(Wπ​h−Gπ​)​⇒Wπ⊤​Wπ​h−Wπ⊤​Gπ​Wπ⊤​Wπ​h​=2Wπ⊤​(Wπ​h−Gπ​)=0∈Rm×1=0=Wπ⊤​Gπ​​

  • Wπ⊤W_{\pi}^{\top}Wπ⊤​ is not a square matrix (non-invertable), so we move (Wπ⊤Wπ)∈Rm×m\left(W_{\pi}^{\top} W_{\pi}\right) \in \mathbb{R}^{m \times m}(Wπ⊤​Wπ​)∈Rm×m to the RHS:

h=(Wπ⊤Wπ)−1Wπ⊤GπJ2π=Φ⊤h=Φ⊤(Wπ⊤Wπ)−1Wπ⊤Gπ\begin{array}{c} h=\left(W_{\pi}^{\top} W_{\pi}\right)^{-1} W_{\pi}^{\top} G_{\pi} \\ J_{2}^{\pi}=\Phi^{\top} h=\Phi^{\top}\left(W_{\pi}^{\top} W_{\pi}\right)^{-1} W_{\pi}^{\top} G_{\pi} \end{array}h=(Wπ⊤​Wπ​)−1Wπ⊤​Gπ​J2π​=Φ⊤h=Φ⊤(Wπ⊤​Wπ​)−1Wπ⊤​Gπ​​

8.4.6 Approximate PI (API) with LFA + MSBE


  • What is ξ?→\xi ? \rightarrowξ?→ Ergodic MDP.
  • Ξ∈RK×K\Xi \in \mathbb{R}^{K \times K}Ξ∈RK×K : a diagonal matrix with diagonal element ξi\xi_{i}ξi​ . (The 14th Greek letter Ξ,ξ\Xi, \xiΞ,ξ )

  • Similar as before, let Wπ:=(IK−γPπ)Φ⊤∈RK×mW_{\pi}:=\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top} \in \mathbb{R}^{K \times m}Wπ​:=(IK​−γPπ​)Φ⊤∈RK×m :

∥Tπ(Φ⊤h)−Φ⊤h∥ξ2=∥Φ⊤h−Gπ−γPπΦ⊤h∥ξ2=∥Wπh−Gπ∥ξ2\left\|\mathrm{T}_{\pi}\left(\Phi^{\top} h\right)-\Phi^{\top} h\right\|_{\xi}^{2}=\left\|\Phi^{\top} h-G_{\pi}-\gamma P_{\pi} \Phi^{\top} h\right\|_{\xi}^{2}=\left\|W_{\pi} h-G_{\pi}\right\|_{\xi}^{2}∥∥​Tπ​(Φ⊤h)−Φ⊤h∥∥​ξ2​=∥∥​Φ⊤h−Gπ​−γPπ​Φ⊤h∥∥​ξ2​=∥Wπ​h−Gπ​∥ξ2​

  • ξ\xiξ -norm is defined as:

∥Wπh−Gπ∥ξ2=(Wπh−Gπ)⊤Ξ(Wπh−Gπ)\left\|W_{\pi} h-G_{\pi}\right\|_{\xi}^{2}=\left(W_{\pi} h-G_{\pi}\right)^{\top} \Xi\left(W_{\pi} h-G_{\pi}\right)∥Wπ​h−Gπ​∥ξ2​=(Wπ​h−Gπ​)⊤Ξ(Wπ​h−Gπ​)

  • \Xi \in \mathbb{R}^{K \times K} : a diagonal matrix with diagonal element ξi\xi_{i}ξi​ .

  • Again, the least square function is convex, derivation should equal to zero. Let u=Wπh−Gπ∈RK×1\mathbf{u}=W_{\pi} h-G_{\pi} \in \mathbb{R}^{K \times 1}u=Wπ​h−Gπ​∈RK×1 , we can get

∂u⊤Ξu∂u=2Ξu,∂u⊤u∂h=2∂u∂hu,where ∂u∂h=Wπ⊤∂(Wπh−Gπ)⊤Ξ(Wπh−Gπ)∂h=2Wπ⊤Ξ(Wπh−Gπ)=0∈Rm×1Wπ⊤ΞWπh=Wπ⊤ΞGπh=(Wπ⊤ΞWπ)−1Wπ⊤ΞGπ⇒Jξπ=Φ⊤(Wπ⊤ΞWπ)−1Wπ⊤ΞGπ\begin{array}{c} \frac{\partial \mathbf{u}^{\top} \Xi \mathbf{u}}{\partial \mathbf{u}}=2 \Xi \mathbf{u}, \quad \frac{\partial \mathbf{u}^{\top} \mathbf{u}}{\partial h}=2 \frac{\partial \mathbf{u}}{\partial h} \mathbf{u}, \quad \text { where } \frac{\partial \mathbf{u}}{\partial h}=W_{\pi}^{\top} \\ \frac{\partial\left(W_{\pi} h-G_{\pi}\right)^{\top} \Xi\left(W_{\pi} h-G_{\pi}\right)}{\partial h}=2 W_{\pi}^{\top} \Xi\left(W_{\pi} h-G_{\pi}\right)=\mathbf{0} \in \mathbb{R}^{m \times 1} \\ W_{\pi}^{\top} \Xi W_{\pi} h=W_{\pi}^{\top} \Xi G_{\pi} \\ h=\left(W_{\pi}^{\top} \Xi W_{\pi}\right)^{-1} W_{\pi}^{\top} \Xi G_{\pi} \\ \Rightarrow J_{\xi}^{\pi}=\Phi^{\top}\left(W_{\pi}^{\top} \Xi W_{\pi}\right)^{-1} W_{\pi}^{\top} \Xi G_{\pi} \end{array}∂u∂u⊤Ξu​=2Ξu,∂h∂u⊤u​=2∂h∂u​u, where ∂h∂u​=Wπ⊤​∂h∂(Wπ​h−Gπ​)⊤Ξ(Wπ​h−Gπ​)​=2Wπ⊤​Ξ(Wπ​h−Gπ​)=0∈Rm×1Wπ⊤​ΞWπ​h=Wπ⊤​ΞGπ​h=(Wπ⊤​ΞWπ​)−1Wπ⊤​ΞGπ​⇒Jξπ​=Φ⊤(Wπ⊤​ΞWπ​)−1Wπ⊤​ΞGπ​​

  • When Ξ\XiΞ is an identity matrix, we get the same result as ℓ2\ell_{2}ℓ2​ MSBE.

8.4.7 Approximate PI (API) with LFA +ξ-weighted MSBE \text { Approximate PI (API) with LFA }+\xi \text {-weighted MSBE } Approximate PI (API) with LFA +ξ-weighted MSBE

8.4.8 Mean Squared Projected Bellman Error (MSPBE)

  • Since ΠΦJ=J\Pi_{\Phi} J=JΠΦ​J=J ,

∥ΠΦTπJ−J∥ξ2=∥J−ΠΦ(Gπ+γPπJ)∥ξ2=∥ΠΦJ−γΠΦPπJ−ΠΦGπ)∥ξ2,=∥ΠΦ((IK−γPπ)Φ⊤h−Gπ))∥ξ2\begin{aligned} \left\|\Pi_{\Phi} \mathrm{T}_{\pi} J-J\right\|_{\xi}^{2} &\left.=\left\|J-\Pi_{\Phi}\left(G_{\pi}+\gamma P_{\pi} J\right)\right\|_{\xi}^{2}=\| \Pi_{\Phi} J-\gamma \Pi_{\Phi} P_{\pi} J-\Pi_{\Phi} G_{\pi}\right) \|_{\xi}^{2}, \\ &\left.=\| \Pi_{\Phi}\left(\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top} h-G_{\pi}\right)\right) \|_{\xi}^{2} \end{aligned}∥ΠΦ​Tπ​J−J∥ξ2​​=∥J−ΠΦ​(Gπ​+γPπ​J)∥ξ2​=∥ΠΦ​J−γΠΦ​Pπ​J−ΠΦ​Gπ​)∥ξ2​,=∥ΠΦ​((IK​−γPπ​)Φ⊤h−Gπ​))∥ξ2​​

  • Let Wπ=(IK−γPπ)Φ⊤∈RK×mW_{\pi}=\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top} \in \mathbb{R}^{K \times m}Wπ​=(IK​−γPπ​)Φ⊤∈RK×m , we have ∥ΠΦ(Wπh−Gπ))∥ξ2\left.\| \Pi_{\Phi}\left(W_{\pi} h-G_{\pi}\right)\right) \|_{\xi}^{2}∥ΠΦ​(Wπ​h−Gπ​))∥ξ2​ .

  • The orthogonal projector ΠΦ:=Φ⊤(ΦΞΦ⊤)−1ΦΞ∈RK×K\Pi_{\Phi}:=\Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi \Xi \in \mathbb{R}^{K \times K}ΠΦ​:=Φ⊤(ΦΞΦ⊤)−1ΦΞ∈RK×K .

  • Similar as before, let u=ΠΦWπh−ΠΦGπ∈RK×1\mathbf{u}=\Pi_{\Phi} W_{\pi} h-\Pi_{\Phi} G_{\pi} \in \mathbb{R}^{K \times 1}u=ΠΦ​Wπ​h−ΠΦ​Gπ​∈RK×1 , we can get

∂u⊤Ξu∂u=2Ξu,∂u⊤u∂h=2∂u∂hu,where ∂u∂h=(ΠΦWπ)⊤∂(ΠΦWπh−ΠΦGπ)⊤Ξ(ΠΦWπh−ΠΦGπ)∂h=2Wπ⊤ΠΦ⊤ΞΠΦ(Wπh−Gπ)=0∈Rm×1,\begin{array}{c} \frac{\partial \mathbf{u}^{\top} \Xi \mathbf{u}}{\partial \mathbf{u}}=2 \Xi \mathbf{u}, \quad \frac{\partial \mathbf{u}^{\top} \mathbf{u}}{\partial h}=2 \frac{\partial \mathbf{u}}{\partial h} \mathbf{u}, \quad \text { where } \frac{\partial \mathbf{u}}{\partial h}=\left(\Pi_{\Phi} W_{\pi}\right)^{\top} \\ \frac{\partial\left(\Pi_{\Phi} W_{\pi} h-\Pi_{\Phi} G_{\pi}\right)^{\top} \Xi\left(\Pi_{\Phi} W_{\pi} h-\Pi_{\Phi} G_{\pi}\right)}{\partial h}=2 W_{\pi}^{\top} \Pi_{\Phi}^{\top} \Xi \Pi_{\Phi}\left(W_{\pi} h-G_{\pi}\right)=\mathbf{0} \in \mathbb{R}^{m \times 1}, \end{array}∂u∂u⊤Ξu​=2Ξu,∂h∂u⊤u​=2∂h∂u​u, where ∂h∂u​=(ΠΦ​Wπ​)⊤∂h∂(ΠΦ​Wπ​h−ΠΦ​Gπ​)⊤Ξ(ΠΦ​Wπ​h−ΠΦ​Gπ​)​=2Wπ⊤​ΠΦ⊤​ΞΠΦ​(Wπ​h−Gπ​)=0∈Rm×1,​

  • (ΦΞΦ⊤)−1\left(\Phi \Xi \Phi^{\top}\right)^{-1}(ΦΞΦ⊤)−1 is diagonal, then ΠΦ⊤=ΞΦ⊤(ΦΞΦ⊤)−1Φ\Pi_{\Phi}^{\top}=\Xi \Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \PhiΠΦ⊤​=ΞΦ⊤(ΦΞΦ⊤)−1Φ , hence we have:

Wπ⊤ΞΦ⊤(ΦΞΦ⊤)−1Φ⏞ΠΦ⊤Φ⊤(ΦΞΦ⊤)−1ΦΞ⏞ΠΦ(Wπh−Gπ)=0,WπΞΦ⊤⏟full rank, invertable (ΦΞΦ⊤)−1⇒Ξ(Wπh−Gπ)=0,ΦΞWπh=ΦΞGπ,⇒h=(ΦΞWπ)−1ΦΞGπ,⇒Jξπ=Φ⊤(ΦΞWπ)−1ΦΞGπ.\begin{aligned} W_{\pi}^{\top} \overbrace{\Xi \Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi}^{\Pi_{\Phi}^{\top}} & \overbrace{\Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi \Xi}^{\Pi_{\Phi}}\left(W_{\pi} h-G_{\pi}\right)=\mathbf{0}, \\ \underbrace{W_{\pi} \Xi \Phi^{\top}}_{\text {full rank, invertable }} &\left(\Phi \Xi \Phi^{\top}\right)^{-1} \\ & \Rightarrow \Xi\left(W_{\pi} h-G_{\pi}\right)=\mathbf{0}, \\ \Phi \Xi W_{\pi} h=\Phi \Xi G_{\pi}, & \Rightarrow h=\left(\Phi \Xi W_{\pi}\right)^{-1} \Phi \Xi G_{\pi}, \\ & \Rightarrow J_{\xi}^{\pi}=\Phi^{\top}\left(\Phi \Xi W_{\pi}\right)^{-1} \Phi \Xi G_{\pi} . \end{aligned}Wπ⊤​ΞΦ⊤(ΦΞΦ⊤)−1Φ​ΠΦ⊤​​full rank, invertable Wπ​ΞΦ⊤​​ΦΞWπ​h=ΦΞGπ​,​Φ⊤(ΦΞΦ⊤)−1ΦΞ​ΠΦ​​(Wπ​h−Gπ​)=0,(ΦΞΦ⊤)−1⇒Ξ(Wπ​h−Gπ​)=0,⇒h=(ΦΞWπ​)−1ΦΞGπ​,⇒Jξπ​=Φ⊤(ΦΞWπ​)−1ΦΞGπ​.​

  • We have proved that ΠΦTπ\Pi_{\Phi} \mathrm{T}_{\pi}ΠΦ​Tπ​ is a contraction mapping which leads to a fixed point, then the MSPBE should equal to zero:

ΠΦTπJ−J=0∈RK×1⇒ΠΦ(Wπh−Gπ))=Φ⊤(ΦΞΦ⊤)−1ΦΞ(Wπh−Gπ))=0\left.\left.\Pi_{\Phi} \mathrm{T}_{\pi} J-J=0 \in \mathbb{R}^{K \times 1} \Rightarrow \Pi_{\Phi}\left(W_{\pi} h-G_{\pi}\right)\right)=\Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi \Xi\left(W_{\pi} h-G_{\pi}\right)\right)=0ΠΦ​Tπ​J−J=0∈RK×1⇒ΠΦ​(Wπ​h−Gπ​))=Φ⊤(ΦΞΦ⊤)−1ΦΞ(Wπ​h−Gπ​))=0

  • Left multiply with ΦΞ∈Rm×K\Phi \Xi \in \mathbb{R}^{m \times K}ΦΞ∈Rm×K at both sides:

ΦΞΦ⊤(ΦΞΦ⊤)−1ΦΞ(Wπh−Gπ))=ΦΞ0,ΦΞ(Wπh−Gπ))=0,ΦΞWπh=ΦΞGπ,⇒h=(ΦΞWπ)−1ΦΞGπ,⇒Jξπ=Φ⊤(ΦΞWπ)−1ΦΞGπ.\begin{aligned} \left.\Phi \Xi \Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi \Xi\left(W_{\pi} h-G_{\pi}\right)\right) &=\Phi \Xi 0, \\ \left.\Phi \Xi\left(W_{\pi} h-G_{\pi}\right)\right) &=0, \\ \Phi \Xi W_{\pi} h &=\Phi \Xi G_{\pi}, \\ \Rightarrow \quad h=\left(\Phi \Xi W_{\pi}\right)^{-1} \Phi \Xi G_{\pi}, & \\ \Rightarrow \quad J_{\xi}^{\pi}=\Phi^{\top}\left(\Phi \Xi W_{\pi}\right)^{-1} \Phi \Xi G_{\pi} . & \end{aligned}ΦΞΦ⊤(ΦΞΦ⊤)−1ΦΞ(Wπ​h−Gπ​))ΦΞ(Wπ​h−Gπ​))ΦΞWπ​h⇒h=(ΦΞWπ​)−1ΦΞGπ​,⇒Jξπ​=Φ⊤(ΦΞWπ​)−1ΦΞGπ​.​=ΦΞ0,=0,=ΦΞGπ​,​

8.4.9 Approximate PI (API) with LFA + ξ\xiξ-weighted MSPBE

8.4.10 Approximate PI Summary

  • Three different APE methods in close-form: ℓ2\ell_{2}ℓ2​ MSBE, MSBE with ergodicity, MSPBE with ergodicity;
  • The estimation error bound \delta for the above three different APE methods are discussed in the lecture.

ADPRL - 近似动态规划和强化学习 - Note 8 - 近似策略迭代 (Approximate Policy Iteration)相关推荐

  1. ADPRL - 近似动态规划和强化学习 - Note 7 - Approximate Dynamic Programming

    Note 7 - 近似动态规划 Approximate Dynamic Programming 7. 近似动态规划 (Approximate Dynamic Programming) 7.1 近似架构 ...

  2. ADPRL - 近似动态规划和强化学习 - Note 10 - 蒙特卡洛法和时序差分学习及其实例 (Monte Carlo and Temporal Difference)

    Note 10 蒙特卡洛法和时序差分学习 Monte Carlo and Temporal Difference 蒙特卡洛法和时序差分学习 Note 10 蒙特卡洛法和时序差分学习 Monte Car ...

  3. ADPRL - 近似动态规划和强化学习 - Note 1 - Introduction

    1. Intorduction Abbreviations Declaration SDM: sequential decision making 顺序决策 DP: Dynamic Programmi ...

  4. ADPRL - 近似动态规划和强化学习 - Note 6 - Mitigating the Curse of Dimensionality

    Note 6 Mitigating the Curse of Dimensionality 减轻维度诅咒 6. Mitigating the Curse of Dimensionality 减轻维度诅 ...

  5. ADPRL - 近似动态规划和强化学习 - Note 4 - Policy Iteration Algorithms

    Note 4 - Policy Iteration Algorithms 4. Policy Iteration Algorithms 补充:范数的性质 4.1 贪婪诱导策略的特性 (Properti ...

  6. ADPRL - 近似动态规划和强化学习 - Note 5 - Banach Fixed Point Theorem in Dynamic Programming

    动态规划中的巴拿赫不动点定理 5. Banach Fixed Point Theorem in Dynamic Programming 5.1 巴拿赫不动点定理定理 (Banach fixed poi ...

  7. ADPRL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem

    2. Stochastic Finite Horizon Problem 在这一节中主要介绍了随机DP算法来解决不确定性下的有限地范围问题,如Denition 1.4所述,它被表述为一个组合优化问题. ...

  8. ADPRL - 近似动态规划和强化学习 - Note 3 - Stochastic Infinite Horizon Problem

    Stochastic Infinite Horizon Problem 3.Stochastic Infinite Horizon Problem 定义3.1 无限范围的马尔可夫决策过程 (Marko ...

  9. 强化学习——蛇棋游戏策略迭代实现

    强化学习--蛇棋游戏策略迭代实现 1"表格式"Agent 2.对游戏的评估 3.策略迭代 3.1.策略评估 3.2.策略改善 1"表格式"Agent   在之前 ...

最新文章

  1. MySQL学习(二)复制
  2. Go worker并发模式
  3. 什么叫有效物理网卡_如何区分虚拟网卡和物理网卡?-阿里云开发者社区
  4. 信息学奥赛一本通(1158:求1+2+3+...)
  5. 推理集 —— 特殊的工具
  6. 在线网络投票/打分活动实施步骤及疑难问题汇编
  7. win10硬盘速度测试软件,最好的硬盘检测工具
  8. 保研经历总结--天津大学
  9. 软件测试面试常见问题
  10. (附思维导图+笔记)-六面美团后,我发现大厂面试真的有“题库”!
  11. Android应用中保存网络图片功能实现详解
  12. js 颜色值转换 普通颜色转透明颜色值
  13. python提取微信聊天语音_利用Python进行微信,QQ的语音识别!内部技术的延伸版!...
  14. Map key 和 value 的输出;
  15. (灵魂拷问)MySQL数据库高频面试题,助你脱颖而出
  16. 使用Wordpress搭建个人博客网站
  17. SQL数据库编写及示例
  18. [转载]***编年史 之 上帝派来的***
  19. node离线安装(linux环境)
  20. PIC单片机在线串行编程(ICSP)的实现

热门文章

  1. 杨老师课堂_Java核心技术下之控制台模拟文件管理器案例
  2. selenium+Python(鼠标和键盘事件)
  3. Mysql for Mac 安装及环境配置
  4. 2022-2028年中国B2C电子商务市场投资分析及前景预测报告
  5. 2022-2028年中国六氟化硫行业市场研究及前瞻分析报告
  6. atitit.userService 用户系统设计 v5 q330
  7. [纪录]仿IOS滚轮效果(竖直滑动选择器)
  8. as3.0中如何阻止事件冒泡?
  9. (C#加密)幻术-大踲无形
  10. python 开发板 i2s_嵌入式小系统I2S接口调试总结