ADPRL - 近似动态规划和强化学习 - Note 8 - 近似策略迭代 (Approximate Policy Iteration)
Note 8 近似策略迭代 Approximate Policy Iteration
近似策略迭代
- Note 8 近似策略迭代 Approximate Policy Iteration
- 8.1 通用框架 (A Generic Framework)
- Lemma 8.1 单调性下的误差约束(Error bound under monotonicity)
- Lemma 8.2 单一近似PI扫描的误差边界 (Error bound of single approximate PI sweep)
- Proposition 8.1 近似PI算法的误差边界 (Error bound of the approximate PI algorithm)
- Proposition 8.2 策略空间收敛下近似PI的误差界线 (Error bounds of approximate PI under convergence in policy space)
- 8.2 近似策略评估 (Approximate Policy Evaluation)
- 定义8.1 近似总成本函数
- Lemma 8.3 近似成本函数的边界
- Proposition 8.3 估计值与真实总成本函数之间的约束
- 8.3 近似的策略评估与遍历性 Approximate Policy Evaluation with Ergodicity
- 8.3.1 各态历经的MDP(Ergodic MDP)
- Assumption 8.1 过渡矩阵PπP_{\pi}Pπ的各态历经性
- Lemma 8.4 ξ\xiξ加权范数
- Proposition 8.4 ξ\xiξ加权范数下的贝尔曼算子的收缩性
- Lemma 8.5 ξ\xiξ加权范数下的边界
- Proposition 8.5 ξ\xiξ加权范数下的估计值与真实总成本函数之间的约束
- 8.3.2 平均平方预测贝尔曼误差 (Mean Squared Projected Bellman Error)
- Lemma 8.6 非扩张性投影算子ΠΦ\Pi_{\Phi}ΠΦ
- Proposition 8.6. 投影算子ΠΦ\Pi_{\Phi}ΠΦ的收缩性
- Proposition 8.7.
- 8.4 API 补充
- 8.4.1 Approximate PI (API)
- 8.4.2 APE via Bellman Residual Minimisation
- 8.4.3 ℓ2\ell_{2}ℓ2 Based Bellman Residual Minimisation
- 8.4.4 Recap: Closed form policy evaluation
- 8.4.5 ℓ2\ell_{2}ℓ2 Based Bellman Residual Minimisation
- 8.4.6 Approximate PI (API) with LFA + MSBE
- 8.4.7 Approximate PI (API) with LFA +ξ-weighted MSBE \text { Approximate PI (API) with LFA }+\xi \text {-weighted MSBE } Approximate PI (API) with LFA +ξ-weighted MSBE
- 8.4.8 Mean Squared Projected Bellman Error (MSPBE)
- 8.4.9 Approximate PI (API) with LFA + ξ\xiξ-weighted MSPBE
- 8.4.10 Approximate PI Summary
在Note 7 中,我们介绍了参数化函数近似的概念,以及它在近似值迭代算法中的应用。尽管AVI的收敛特性已被证明是有希望的,但它与原始VIVIVI算法的内在限制仍然存在。在本节中,我们开发了一个近似策略迭代算法的框架。
8.1 通用框架 (A Generic Framework)
与近似的VI算法类似,我们可以构建一个体系来近似策略评估和策略改进步骤,具体如下
对于一个给定的策略πk\pi_{k}πk,我们的目标是找到真实总成本JπkJ^{\pi_{k}}Jπk的近似值JkJ_{k}Jk,即
∥Jk−Jπk∥∞≤δ(8.1)\left\|J_{k}-J^{\pi_{k}}\right\|_{\infty} \leq \delta \tag{8.1}∥Jk−Jπk∥∞≤δ(8.1)
请注意,真正的总成本JπkJ^{\pi_{k}}Jπk 在一般情况下是无法给定的。这里可以采用贝尔曼残差最小化的思想。通过采用与公式( 7.317.317.31 )中近似贪婪化步骤相同的策略,我们也可以将其放宽为近似策略改进。也就是说,给定第kkk个价值函数估计值JkJ_{k}Jk,我们找到一个策略πk+1\pi_{k+1}πk+1,满足以下条件
∥Tπk+1Jk−TgJk∥∞≤ϵ,(8.2)\left\|\mathrm{T}_{\pi_{k+1}} J_{k}-\mathrm{T}_{\mathfrak{g}} J_{k}\right\|_{\infty} \leq \epsilon, \tag{8.2}∥Tπk+1Jk−TgJk∥∞≤ϵ,(8.2)
其中ϵ>0\epsilon>0ϵ>0是不严格策略改进(inexact policy improvement)的准确性。
这样一个通用的近似PI算法在算法10中给出。
为了确定近似PI算法的误差界限,我们需要以下两个引理(Lemma)。
Lemma 8.1 单调性下的误差约束(Error bound under monotonicity)
给出一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ},和一个固定的策略π\piπ。让J∈RKJ \in \mathbb{R}^{K}J∈RK中,满足以下条件
TπJ≤J+c1(8.3)\mathrm{T}_{\pi} J \leq J+c \mathbf{1} \tag{8.3}TπJ≤J+c1(8.3)
且有c>0c>0c>0,那么策略π\piπ的总成本函数就有如下的约束
Jπ≤J+c1−γ1(8.4)J^{\pi} \leq J+\frac{c}{1-\gamma} \mathbf{1} \tag{8.4}Jπ≤J+1−γc1(8.4)
Proof.
贝尔曼算子Tπ\mathrm{T}_{\pi}Tπ的恒定位移属性意味着对于所有k∈Nk \in \mathbb{N}k∈N来说
TπkJ≤Tπk−1J+γk−1c1(8.5)\mathrm{T}_{\pi}^{k} J \leq \mathrm{T}_{\pi}^{k-1} J+\gamma^{k-1} c \mathbf{1} \tag{8.5}TπkJ≤Tπk−1J+γk−1c1(8.5)
然后我们对任意kkk构建
TπkJ−J=TπkJ−Tπk−1J+Tπk−1J−…+TπJ−J=∑t=1k(TπkJ−Tπk−1J)≤∑t=1kγt−1c1(8.6)\begin{aligned} \mathrm{T}_{\pi}^{k} J-J &=\mathrm{T}_{\pi}^{k} J-\mathrm{T}_{\pi}^{k-1} J+\mathrm{T}_{\pi}^{k-1} J-\ldots+\mathrm{T}_{\pi} J-J \\ &=\sum_{t=1}^{k}\left(\mathrm{~T}_{\pi}^{k} J-\mathrm{T}_{\pi}^{k-1} J\right) \\ & \leq \sum_{t=1}^{k} \gamma^{t-1} c \mathbf{1} \end{aligned} \tag{8.6}TπkJ−J=TπkJ−Tπk−1J+Tπk−1J−…+TπJ−J=t=1∑k( TπkJ−Tπk−1J)≤t=1∑kγt−1c1(8.6)
结果是通过t→∞t\rightarrow\inftyt→∞而得出的。
Lemma 8.2 单一近似PI扫描的误差边界 (Error bound of single approximate PI sweep)
给定一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ},一个固定的策略π\piπ,一个在RK\mathbb{R}^{K}RK中的估计值JJJ,以及两个固定的策略π\piπ和π′\pi^{\prime}π′,如果以下两个条件在某些δ≥0\delta\geq 0δ≥0和ϵ≥0\epsilon\geq 0ϵ≥0时成立
∥J−Jπ∥∞≤δ,and ∥Tπ′J−TgJ∥∞≤ϵ(8.7)\left\|J-J^{\pi}\right\|_{\infty} \leq \delta, \quad \text { and } \quad\left\|\mathrm{T}_{\pi^{\prime}} J-\mathrm{T}_{\mathfrak{g}} J\right\|_{\infty} \leq \epsilon \tag{8.7}∥J−Jπ∥∞≤δ, and ∥Tπ′J−TgJ∥∞≤ϵ(8.7)
然后我们有
∥Jπ′−J∗∥∞≤γ∥Jπ−J∗∥∞+ϵ+2γδ1−γ(8.8)\left\|J^{\pi^{\prime}}-J^{*}\right\|_{\infty} \leq \gamma\left\|J^{\pi}-J^{*}\right\|_{\infty}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \tag{8.8}∥∥∥Jπ′−J∗∥∥∥∞≤γ∥Jπ−J∗∥∞+1−γϵ+2γδ(8.8)
Proof.
根据Tg\mathrm{T}_{\mathfrak{g}}Tg和Tπ′\mathrm{T}_{\pi^{\prime}}Tπ′的收缩特性,公式(8.7)中的第一个不等式意味着
∥Tπ′J−Tπ′Jπ∥∞≤γδ,and ∥TgJ−TgJπ∥∞≤γδ(8.9)\left\|\mathrm{T}_{\pi^{\prime}} J-\mathrm{T}_{\pi^{\prime}} J^{\pi}\right\|_{\infty} \leq \gamma \delta, \quad \text { and } \quad\left\|\mathrm{T}_{\mathfrak{g}} J-\mathrm{T}_{\mathfrak{g}} J^{\pi}\right\|_{\infty} \leq \gamma \delta \tag{8.9}∥Tπ′J−Tπ′Jπ∥∞≤γδ, and ∥TgJ−TgJπ∥∞≤γδ(8.9)
因此
Tπ′Jπ≤Tπ′J+γδ1,and TgJ−TgJπ≤γδ1(8.10)\mathrm{T}_{\pi^{\prime}} J^{\pi} \leq \mathrm{T}_{\pi^{\prime}} J+\gamma \delta \mathbf{1}, \quad \text { and } \quad \mathrm{T}_{\mathfrak{g}} J-\mathrm{T}_{\mathfrak{g}} J^{\pi} \leq \gamma \delta \mathbf{1} \tag{8.10}Tπ′Jπ≤Tπ′J+γδ1, and TgJ−TgJπ≤γδ1(8.10)
类似地,由公式(8.7)中的第二个不等式得出
Tπ′J≤TgJ+ϵ1(8.11)\mathrm{T}_{\pi^{\prime}} J \leq \mathrm{T}_{\mathfrak{g}} J+\epsilon \mathbf{1} \tag{8.11}Tπ′J≤TgJ+ϵ1(8.11)
然后我们得到
Tπ′Jπ≤Tπ′J+γδ1≤TgJ+(ϵ+γδ)1≤TgJπ+(ϵ+2γδ)1≤Jπ+(ϵ+2γδ)1(8.12)\begin{aligned} \mathrm{T}_{\pi^{\prime}} J^{\pi} & \leq \mathrm{T}_{\pi^{\prime}} J+\gamma \delta \mathbf{1} \\ & \leq \mathrm{T}_{\mathfrak{g}} J+(\epsilon+\gamma \delta) \mathbf{1} \\ & \leq \mathrm{T}_{\mathfrak{g}} J^{\pi}+(\epsilon+2 \gamma \delta) \mathbf{1} \\ & \leq J^{\pi}+(\epsilon+2 \gamma \delta) \mathbf{1} \end{aligned} \tag{8.12}Tπ′Jπ≤Tπ′J+γδ1≤TgJ+(ϵ+γδ)1≤TgJπ+(ϵ+2γδ)1≤Jπ+(ϵ+2γδ)1(8.12)
其中,第二个不等式是由于公式(8.11),第三个不等式由公式(8.10)中的第二个不等式得出,最后一个不等式是由于Tg\mathrm{T}_{\mathfrak{g}}Tg的策略改进属性,即TgJπ≤TπJπ=Jπ\mathrm{T}_{\mathfrak{g}} J^{\pi} \leq \mathrm{T}_{\pi} J^{\pi}=J^{\pi}TgJπ≤TπJπ=Jπ
根据Lemma 8.1,我们有
Jπ′≤Jπ+ϵ+2γδ1−γ1(8.13)J^{\pi^{\prime}} \leq J^{\pi}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} 1 \tag{8.13}Jπ′≤Jπ+1−γϵ+2γδ1(8.13)
并进一步将贝尔曼算子Tπ′T_{\pi^{\prime}}Tπ′应用于不等式的两边,去得到
Tπ′Jπ′=Jπ′≤Tπ′Jπ+ϵ+2γδ1−γγ1.(8.14)\mathrm{T}_{\pi^{\prime}} J^{\pi^{\prime}}=J^{\pi^{\prime}} \leq \mathrm{T}_{\pi^{\prime}} J^{\pi}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \gamma \mathbf{1} . \tag{8.14}Tπ′Jπ′=Jπ′≤Tπ′Jπ+1−γϵ+2γδγ1.(8.14)
从不等式的两边减去J∗J^{*}J∗,我们得到
Jπ′−J∗≤Tπ′Jπ−J∗+ϵ+2γδ1−γγ1≤TgJπ+(ϵ+2γδ)1−J∗+ϵ+2γδ1−γγ1=TgJπ−TgJ∗+ϵ+2γδ1−γ1(8.15)\begin{aligned} J^{\pi^{\prime}}-J^{*} & \leq \mathrm{T}_{\pi^{\prime}} J^{\pi}-J^{*}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \gamma \mathbf{1} \\ & \leq \mathrm{T}_{\mathfrak{g}} J^{\pi}+(\epsilon+2 \gamma \delta) \mathbf{1}-J^{*}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \gamma \mathbf{1} \\ &=\mathrm{T}_{\mathfrak{g}} J^{\pi}-\mathrm{T}_{\mathfrak{g}} J^{*}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \mathbf{1} \end{aligned} \tag{8.15}Jπ′−J∗≤Tπ′Jπ−J∗+1−γϵ+2γδγ1≤TgJπ+(ϵ+2γδ)1−J∗+1−γϵ+2γδγ1=TgJπ−TgJ∗+1−γϵ+2γδ1(8.15)
其中,第二个不等式由公式(8.12)中的第三个不等式得出,而平等则是由于最优贝尔曼算子Tg\mathrm{T}_{\mathfrak{g}}Tg的唯一固定点。最后,我们对公式(8.15)应用无穷范数
∥Jπ′−J∗∥∞≤∥TgJπ−TgJ∗∥∞+ϵ+2γδ1−γ≤γ∥Jπ−J∗∥∞+ϵ+2γδ1−γ(8.16)\begin{aligned} \left\|J^{\pi^{\prime}}-J^{*}\right\|_{\infty} & \leq\left\|\mathrm{T}_{\mathfrak{g}} J^{\pi}-\mathrm{T}_{\mathfrak{g}} J^{*}\right\|_{\infty}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \\ & \leq \gamma\left\|J^{\pi}-J^{*}\right\|_{\infty}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \end{aligned} \tag{8.16}∥∥∥Jπ′−J∗∥∥∥∞≤∥TgJπ−TgJ∗∥∞+1−γϵ+2γδ≤γ∥Jπ−J∗∥∞+1−γϵ+2γδ(8.16)
这就完成了证明。
最后,我们总结出近似PI算法的误差边界如下。
Proposition 8.1 近似PI算法的误差边界 (Error bound of the approximate PI algorithm)
给定一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ},由近似PI方法产生的πk\pi_{k}πk序列满足以下条件
limk→∞∥Jπk−J∗∥∞≤ϵ+2γδ(1−γ)2.(8.17)\lim _{k \rightarrow \infty}\left\|J^{\pi_{k}}-J^{*}\right\|_{\infty} \leq \frac{\epsilon+2 \gamma \delta}{(1-\gamma)^{2}} . \tag{8.17}k→∞lim∥Jπk−J∗∥∞≤(1−γ)2ϵ+2γδ.(8.17)
Proof.
给定一个任意的π0\pi_{0}π0,Lemma 8.28.28.2意味着
∥Jπ1−J∗∥∞≤γ∥Jπ0−J∗∥∞+ϵ+2γδ1−γ(8.18)\left\|J^{\pi_{1}}-J^{*}\right\|_{\infty} \leq \gamma\left\|J^{\pi_{0}}-J^{*}\right\|_{\infty}+\frac{\epsilon+2 \gamma \delta}{1-\gamma} \tag{8.18}∥Jπ1−J∗∥∞≤γ∥Jπ0−J∗∥∞+1−γϵ+2γδ(8.18)
通过直接的归纳论证,对于任意的kkk,可以得出
∥Jπk−J∗∥∞≤γk∥Jπ0−J∗∥∞+(∑i=0k−1γi)ϵ+2γδ1−γ(8.19)\left\|J^{\pi_{k}}-J^{*}\right\|_{\infty} \leq \gamma^{k}\left\|J^{\pi_{0}}-J^{*}\right\|_{\infty}+\left(\sum_{i=0}^{k-1} \gamma^{i}\right) \frac{\epsilon+2 \gamma \delta}{1-\gamma} \tag{8.19}∥Jπk−J∗∥∞≤γk∥Jπ0−J∗∥∞+(i=0∑k−1γi)1−γϵ+2γδ(8.19)
结果是通过令k→∞k\rightarrow\inftyk→∞得出的。
需要注意的是,由近似PI算法产生的策略的误差范围不能保证在策略空间内收敛。也就是说,近似PI算法可以在一组策略中摇摆,见图14。
图14:近似PI算法的潜在收敛模式说明。当误差约束宽松时,近似PI算法产生的策略可能会在几个候选者中摇摆,例如{π1,π2,π3,π4}.\left\{\pi_{1}, \pi_{2}, \pi_{3}, \pi_{4}\right\}.{π1,π2,π3,π4}. 当误差约束足够严格时,产生的策略可能会收敛到一个定值,例如π1\pi_{1}π1。
然而,在某些情况下,该算法可以收敛到一个单一的策略。在Note的其余部分,我们确定了策略收敛时近似PI算法的误差边界。
Proposition 8.2 策略空间收敛下近似PI的误差界线 (Error bounds of approximate PI under convergence in policy space)
给定一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ},让π′\pi^{\prime}π′作为近似PI算法收敛的策略。那么我们有
∥Jπ′−J∗∥∞≤ϵ+2γδ1−γ(8.20)\left\|J^{\pi^{\prime}}-J^{*}\right\|_{\infty} \leq \frac{\epsilon+2 \gamma \delta}{1-\gamma} \tag{8.20}∥∥∥Jπ′−J∗∥∥∥∞≤1−γϵ+2γδ(8.20)
Proof.
让J′∈RKJ^{\prime} \in \mathbb{R}^{K}J′∈RK是由π′\pi^{\prime}π′的近似策略评估产生的策略,即J′J^{\prime}J′和π′\pi^{\prime}π′满足近似PI算法的条件
∥J′−Jπ′∥∞≤δ,and ∥Tπ′J′−TgJ′∥∞≤ϵ. (8.21)\left\|J^{\prime}-J^{\pi^{\prime}}\right\|_{\infty} \leq \delta, \quad \text { and }\left\|\mathrm{T}_{\pi^{\prime}} J^{\prime}-\mathrm{T}_{\mathfrak{g}} J^{\prime}\right\|_{\infty} \leq \epsilon \text {. } \tag{8.21}∥∥∥J′−Jπ′∥∥∥∞≤δ, and ∥Tπ′J′−TgJ′∥∞≤ϵ. (8.21)
那么,我们有
∥TgJπ′−Jπ′∥∞≤∥TgJπ′−TgJ′∥∞+∥TgJ′−Tπ′J′∥∞++∥Tπ′J′−Jπ′∥∞≤γ∥Jπ′−J′∥∞+∥TgJ′−Tπ′J′∥∞++γ∥J′−Jπ′∥∞≤ϵ+2γδ(8.22)\begin{aligned} \left\|\mathrm{T}_{\mathfrak{g}} J^{\pi^{\prime}}-J^{\pi^{\prime}}\right\|_{\infty} \leq &\left\|\mathrm{T}_{\mathfrak{g}} J^{\pi^{\prime}}-\mathrm{T}_{\mathfrak{g}} J^{\prime}\right\|_{\infty}+\left\|\mathrm{T}_{\mathfrak{g}} J^{\prime}-\mathrm{T}_{\pi^{\prime}} J^{\prime}\right\|_{\infty}+\\ &+\left\|\mathrm{T}_{\pi^{\prime}} J^{\prime}-J^{\pi^{\prime}}\right\|_{\infty} \\ \leq & \gamma\left\|J^{\pi^{\prime}}-J^{\prime}\right\|_{\infty}+\left\|\mathrm{T}_{\mathfrak{g}} J^{\prime}-\mathrm{T}_{\pi^{\prime}} J^{\prime}\right\|_{\infty}+\\ &+\gamma\left\|J^{\prime}-J^{\pi^{\prime}}\right\|_{\infty} \\ \leq & \epsilon+2 \gamma \delta \end{aligned} \tag{8.22}∥∥∥TgJπ′−Jπ′∥∥∥∞≤≤≤∥∥∥TgJπ′−TgJ′∥∥∥∞+∥TgJ′−Tπ′J′∥∞++∥∥∥Tπ′J′−Jπ′∥∥∥∞γ∥∥∥Jπ′−J′∥∥∥∞+∥TgJ′−Tπ′J′∥∞++γ∥∥∥J′−Jπ′∥∥∥∞ϵ+2γδ(8.22)
其中,第一个不等式来自无穷范数的三角形性质,第二个不等式是由于Tg\mathrm{T}_{\mathfrak{g}}Tg和Tπ′\mathrm{T}_{\pi^{\prime}}Tπ′的收缩性质,而最后一个不等式仅仅回顾了公式(8.21)中的结果。那么,公式(8.20)中的不等式是对Lemma 3.4的直接应用。
显然,稳定收敛下的近似PI算法的误差界限比被发散的情况要严格得多,特别是当折扣系数γ\gammaγ接近1时。
8.2 近似策略评估 (Approximate Policy Evaluation)
对通用API的收敛特性的分析表明了近似策略评价的性能的重要性。类似于开发AVI的最小化贝尔曼残差的策略也可以应用于策略评估。
定义8.1 近似总成本函数
给定一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},一个固定的策略π\piπ和一个总成本函数空间J\mathcal{J}J,总成本函数J∈JJ \in \mathcal{J}J∈J的近似总成本函数JπJ^{\pi}Jπ是通过最小化贝尔曼残差给出的,即
JBπ∈argminJ∈J∥TπJ−J∥∞.(8.23)J_{B}^{\pi} \in \underset{J \in \mathcal{J}}{\operatorname{argmin}}\left\|\mathrm{T}_{\pi} J-J\right\|_{\infty} . \tag{8.23}JBπ∈J∈Jargmin∥TπJ−J∥∞.(8.23)
通过最小化Bellman残差误差,估计JBπJ_{B}^{\pi}JBπ的误差边界如下。
Lemma 8.3 近似成本函数的边界
给定一个无限范围MDP{X,U,p,q,γ}M D P\{\mathcal{X}, \mathcal{U}, p, q, \gamma\}MDP{X,U,p,q,γ},让JπJ^{\pi}Jπ为固定的策略π\piπ的总成本函数。那么,对于任何总成本函数J∈RKJ\in \mathbb{R}^{K}J∈RK中,以下不等式成立
∥J−Jπ∥∞≤11−γ∥J−TπJ∥∞.(8.24)\left\|J-J^{\pi}\right\|_{\infty} \leq \frac{1}{1-\gamma}\left\|J-\mathrm{T}_{\pi} J\right\|_{\infty} . \tag{8.24}∥J−Jπ∥∞≤1−γ1∥J−TπJ∥∞.(8.24)
Proof.
直接的有
∥J−Jπ∥∞=∥J−TπJ+TπJ−Jπ∥∞=∥J−TπJ∥∞+∥TπJ−Jπ∥∞≤∥J−TπJ∥∞+γ∥J−Jπ∥∞(8.25)\begin{aligned} \left\|J-J^{\pi}\right\|_{\infty} &=\left\|J-\mathrm{T}_{\pi} J+\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\infty} \\ &=\left\|J-\mathrm{T}_{\pi} J\right\|_{\infty}+\left\|\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\infty} \\ & \leq\left\|J-\mathrm{T}_{\pi} J\right\|_{\infty}+\gamma\left\|J-J^{\pi}\right\|_{\infty} \end{aligned} \tag{8.25}∥J−Jπ∥∞=∥J−TπJ+TπJ−Jπ∥∞=∥J−TπJ∥∞+∥TπJ−Jπ∥∞≤∥J−TπJ∥∞+γ∥J−Jπ∥∞(8.25)
Proposition 8.3 估计值与真实总成本函数之间的约束
给出一个无限范围MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},一个固定的策略π\piπ和一个总成本函数空间J\mathcal{J}J。让JBπ∈JJ_{B}^{\pi} \in \mathcal{J}JBπ∈J为MSBE问题的全局最小值。那么估计值与真实总成本函数JπJ^{\pi}Jπ之间的误差有如下约束
∥JBπ−Jπ∥∞≤1+γ1−γminJ∈J∥J−Jπ∥∞.(8.26)\left\|J_{B}^{\pi}-J^{\pi}\right\|_{\infty} \leq \frac{1+\gamma}{1-\gamma} \min _{J \in \mathcal{J}}\left\|J-J^{\pi}\right\|_{\infty} . \tag{8.26}∥JBπ−Jπ∥∞≤1−γ1+γJ∈Jmin∥J−Jπ∥∞.(8.26)
Proof.
通过应用无穷范数的三角不等式,我们可以得到
∥TπJ−J∥∞≤∥TπJ−Jπ∥∞+∥Jπ−J∥∞≤(1+γ)∥J−Jπ∥∞.(8.27)\begin{aligned} \left\|\mathrm{T}_{\pi} J-J\right\|_{\infty} & \leq\left\|\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\infty}+\left\|J^{\pi}-J\right\|_{\infty} \\ & \leq(1+\gamma)\left\|J-J^{\pi}\right\|_{\infty} . \end{aligned} \tag{8.27}∥TπJ−J∥∞≤∥TπJ−Jπ∥∞+∥Jπ−J∥∞≤(1+γ)∥J−Jπ∥∞.(8.27)
直截了当地有
∥TπJBπ−JBπ∥∞=minJ∈J∥TπJ−J∥∞≤(1+γ)minJ∈J∥J−Jπ∥∞.(8.28)\begin{aligned} \left\|\mathrm{T}_{\pi} J_{B}^{\pi}-J_{B}^{\pi}\right\|_{\infty} &=\min _{J \in \mathcal{J}}\left\|\mathrm{T}_{\pi} J-J\right\|_{\infty} \\ & \leq(1+\gamma) \min _{J \in \mathcal{J}}\left\|J-J^{\pi}\right\|_{\infty} . \end{aligned} \tag{8.28}∥TπJBπ−JBπ∥∞=J∈Jmin∥TπJ−J∥∞≤(1+γ)J∈Jmin∥J−Jπ∥∞.(8.28)
结合不等式和Lemma 8.38.38.3中的结果,证明了这一点。
显然,公式(8.23)中给出的MSBE成本在数值上仍然是难以优化的。因此,与AVI类似,我们可以定义以下平均贝尔曼误差(Mean Squared Bellman Error, MSBE) 的最小化问题
J2π∈argminJ∈J∥TπJ−J∥2.(8.29)J_{2}^{\pi} \in \underset{J \in \mathcal{J}}{\operatorname{argmin}}\left\|\mathrm{T}_{\pi} J-J\right\|_{2} . \tag{8.29}J2π∈J∈Jargmin∥TπJ−J∥2.(8.29)
如果我们采用贝尔曼算子的矩阵形式表达,并选择函数近似空间为线性,即TπJ=Gπ+γPπΦ⊤h\mathrm{T}_{\pi} J=G_{\pi}+\gamma P_{\pi} \Phi^{\top} hTπJ=Gπ+γPπΦ⊤h,则有上述问题的近似形式表达
J2π=(Wπ⊤Wπ)−1Wπ⊤Gπ(8.30)J_{2}^{\pi}=\left(W_{\pi}^{\top} W_{\pi}\right)^{-1} W_{\pi}^{\top} G_{\pi} \tag{8.30}J2π=(Wπ⊤Wπ)−1Wπ⊤Gπ(8.30)
其中 Wπ=(IK−γPπ)Φ⊤W_{\pi}=\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top}Wπ=(IK−γPπ)Φ⊤。 虽然这个解决方案很简单,也很有保证,但不幸的是,没有任何有意义的误差界限可以用来描述这种近似的质量。
8.3 近似的策略评估与遍历性 Approximate Policy Evaluation with Ergodicity
虽然MSBE最小化问题定义明确,也有简单的数值解,但它继承了DP的性质,即对模型信息的要求。在SDM的各种实际应用中,对没有明确模型的问题的有效解决方案有很大的需求。具体来说,我们研究了一类特殊的MDPs,这使得无模型的DP算法得以发展。
8.3.1 各态历经的MDP(Ergodic MDP)
给定一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ}和一个固定的策略π\piπ,众所周知,系统转换可以被建模为马尔可夫链。为了通过抽样检索完整的模型信息,必须假设每个状态都可以从任何其他状态到达,因此对状态有一个唯一的静止分布。因此,我们对由底层MDP模型和策略π\piπ规定的状态转换的马尔可夫链施加以下假设
Assumption 8.1 过渡矩阵PπP_{\pi}Pπ的各态历经性
给定一个无限范围的MDP {X,U,p,g,γ}\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}{X,U,p,g,γ}和一个固定的策略π\piπ,由过渡矩阵PπP_{\pi}Pπ定义的马尔可夫链是各态历经的。
让我们用ξi\xi_{i}ξi表示第iii个相应状态的概率。各态历经性假设意味着所有i=1,…,Ki=1, \ldots, Ki=1,…,K的ξi\xi_{i}ξi都是正定的,也就是说,马尔科夫链有一个唯一的稳定状态分布。让我们定义ξ:=[ξ1,…,ξK]⊤∈RK\xi:=\left[\xi_{1}, \ldots, \xi_{K}\right]^{\top} \in \mathbb{R}^{K}ξ:=[ξ1,…,ξK]⊤∈RK, 与 x∈RKx \in \mathbb{R}^{K}x∈RK。 ξ\xiξ与过渡矩阵PπP_{\pi}Pπ之间的关系的特点是
Pπ⊤ξ=ξ(8.31)P_{\pi}^{\top} \xi=\xi \tag{8.31}Pπ⊤ξ=ξ(8.31)
显然,向量ξ\xiξ是Pπ⊤P_{\pi}^{\top}Pπ⊤的右特征向量,与特征值为1有关。此外,由于ξ\xiξ的所有条目都是正的,我们可以将ξ\xiξ的加权范数定义为
∥x∥ξ=∑k=1Kξixi2(8.32)\|x\|_{\xi}=\sqrt{\sum_{k=1}^{K} \xi_{i} x_{i}^{2}} \tag{8.32}∥x∥ξ=k=1∑Kξixi2(8.32)
Lemma 8.4 ξ\xiξ加权范数
给定一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},和一个固定的策略π\piπ,对于任何K×KK \times KK×K过渡概率矩阵PπP_{\pi}Pπ,具有一个不变的分布ξ=(ξ1,…,ξn)\xi=\left(\xi_{1}, \ldots, \xi_{n}\right)ξ=(ξ1,…,ξn),有值为正的组成部分,我们有
∥PπJ∥ξ≤∥J∥ξ(8.33)\left\|P_{\pi} J\right\|_{\xi} \leq\|J\|_{\xi} \tag{8.33}∥PπJ∥ξ≤∥J∥ξ(8.33)
Proof
令Pπ={pij}P_{\pi}=\left\{p_{i j}\right\}Pπ={pij}, 然后我们得到
∥PπJ∥ξ2=∑i=1nξi(∑j=1npijJj)2(definition) ≤∑i=1nξi∑j=1npijJj2(convexity) =∑j=1n∑i=1nξipijJj2=∑j=1nξjJj2≤∥J∥ξ2(definition) (8.34)\begin{array}{rlr} \left\|P_{\pi} J\right\|_{\xi}^{2} & =\sum_{i=1}^{n} \xi_{i}\left(\sum_{j=1}^{n} p_{i j} J_{j}\right)^{2} & \text { (definition) } \\ & \leq \sum_{i=1}^{n} \xi_{i} \sum_{j=1}^{n} p_{i j} J_{j}^{2} & \text { (convexity) } \\ & =\sum_{j=1}^{n} \sum_{i=1}^{n} \xi_{i} p_{i j} J_{j}^{2} & \\ & =\sum_{j=1}^{n} \xi_{j} J_{j}^{2} & \\ \leq & \|J\|_{\xi}^{2} & \text { (definition) } \end{array} \tag{8.34}∥PπJ∥ξ2≤=∑i=1nξi(∑j=1npijJj)2≤∑i=1nξi∑j=1npijJj2=∑j=1n∑i=1nξipijJj2=∑j=1nξjJj2∥J∥ξ2 (definition) (convexity) (definition) (8.34)
Proposition 8.4 ξ\xiξ加权范数下的贝尔曼算子的收缩性
给定一个无限的范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},和一个固定的策略π\piπ,那么贝尔曼算子Tπ\mathrm{T}_{\pi}Tπ是模数γ\gammaγ相对于ξ\xiξ加权范数的收缩,即:
∥TπJ−TπJ′∥ξ≤γ∥J−J′∥ξ.(8.35)\left\|\mathrm{T}_{\pi} J-\mathrm{T}_{\pi} J^{\prime}\right\|_{\xi} \leq \gamma\left\|J-J^{\prime}\right\|_{\xi} . \tag{8.35}∥TπJ−TπJ′∥ξ≤γ∥J−J′∥ξ.(8.35)
Proof.
为了简单起见,我们使用贝尔曼算子 TπJ:=Gπ+γPπJ\mathrm{T}_{\pi} J:=G_{\pi}+\gamma P_{\pi} JTπJ:=Gπ+γPπJ的紧凑表示,然后,我们得到
∥TπJ−TπJ′∥ξ=∥γPπ(J−J′)∥ξ≤γ∥J−J′∥ξ(8.36)\begin{aligned} \left\|\mathrm{T}_{\pi} J-\mathrm{T}_{\pi} J^{\prime}\right\|_{\xi} &=\left\|\gamma P_{\pi}\left(J-J^{\prime}\right)\right\|_{\xi} \\ & \leq \gamma\left\|J-J^{\prime}\right\|_{\xi} \end{aligned} \tag{8.36}∥TπJ−TπJ′∥ξ=∥γPπ(J−J′)∥ξ≤γ∥J−J′∥ξ(8.36)
这直接来自于Lemma 8.4。
通过采用这一特性,我们可以在ξ\xiξ加权范数中定义以下的均方贝尔曼误差(MSBE)。
Jβπ∈argminJ∈J∥TπJ−J∥ξ(8.37)J_{\beta}^{\pi} \in \underset{J \in \mathcal{J}}{\operatorname{argmin}}\left\|\mathrm{T}_{\pi} J-J\right\|_{\xi} \tag{8.37}Jβπ∈J∈Jargmin∥TπJ−J∥ξ(8.37)
与第8.2节的分析类似,我们可以推导出MSBE最小化在ξ\xiξ加权规范下的误差界限如下。
Lemma 8.5 ξ\xiξ加权范数下的边界
给定一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},让JπJ^{\pi}Jπ是一个固定策略π\piπ的总成本函数。那么,对于任何总成本函数J∈RKJ \in \mathbb{R}^{K}J∈RK中,以下不等式是成立的
∥J−Jπ∥ξ≤11−γ∥J−TπJ∥ξ(8.38)\left\|J-J^{\pi}\right\|_{\xi} \leq \frac{1}{1-\gamma}\left\|J-\mathrm{T}_{\pi} J\right\|_{\xi} \tag{8.38}∥J−Jπ∥ξ≤1−γ1∥J−TπJ∥ξ(8.38)
Proof.
直接的有
∥J−Jπ∥ξ=∥J−TπJ+TπJ−Jπ∥ξ=∥J−TπJ∥ξ+∥TπJ−Jπ∥ξ≤∥J−TπJ∥ξ+γ∥J−Jπ∥ξ(8.39)\begin{aligned} \left\|J-J^{\pi}\right\|_{\xi} &=\left\|J-\mathrm{T}_{\pi} J+\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\xi} \\ &=\left\|J-\mathrm{T}_{\pi} J\right\|_{\xi}+\left\|\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\xi} \\ & \leq\left\|J-\mathrm{T}_{\pi} J\right\|_{\xi}+\gamma\left\|J-J^{\pi}\right\|_{\xi} \end{aligned} \tag{8.39}∥J−Jπ∥ξ=∥J−TπJ+TπJ−Jπ∥ξ=∥J−TπJ∥ξ+∥TπJ−Jπ∥ξ≤∥J−TπJ∥ξ+γ∥J−Jπ∥ξ(8.39)
Proposition 8.5 ξ\xiξ加权范数下的估计值与真实总成本函数之间的约束
给出一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},一个固定的策略π\piπ和一个总成本函数空间J\mathcal{J}J。让JBπ∈JJ_{B}^{\pi} \in \mathcal{J}JBπ∈J为MSBE问题的全局最小值。那么估计值与真实总成本函数JπJ^{\pi}Jπ之间的误差有如下约束
∥Jβπ−Jπ∥ξ≤1+γ1−γminJ∈J∥J−Jπ∥ξ.(8.40)\left\|J_{\beta}^{\pi}-J^{\pi}\right\|_{\xi} \leq \frac{1+\gamma}{1-\gamma} \min _{J \in \mathcal{J}}\left\|J-J^{\pi}\right\|_{\xi} . \tag{8.40}∥∥Jβπ−Jπ∥∥ξ≤1−γ1+γJ∈Jmin∥J−Jπ∥ξ.(8.40)
Proof.
通过应用无穷范数的三角不等式,我们可以得到
∥TπJ−J∥ξ≤∥TπJ−Jπ∥ξ+∥Jπ−J∥ξ≤(1+γ)∥J−Jπ∥ξ.(8.41)\begin{aligned} \left\|\mathrm{T}_{\pi} J-J\right\|_{\xi} & \leq\left\|\mathrm{T}_{\pi} J-J^{\pi}\right\|_{\xi}+\left\|J^{\pi}-J\right\|_{\xi} \\ & \leq(1+\gamma)\left\|J-J^{\pi}\right\|_{\xi} . \end{aligned} \tag{8.41}∥TπJ−J∥ξ≤∥TπJ−Jπ∥ξ+∥Jπ−J∥ξ≤(1+γ)∥J−Jπ∥ξ.(8.41)
简单地说,我们有
∥TπJβπ−Jβπ∥ξ=minJ∈J∥TπJ−J∥ξ≤(1+γ)minJ∈J∥J−Jπ∥ξ(8.42)\begin{aligned} \left\|\mathrm{T}_{\pi} J_{\beta}^{\pi}-J_{\beta}^{\pi}\right\|_{\xi} &=\min _{J \in \mathcal{J}}\left\|\mathrm{T}_{\pi} J-J\right\|_{\xi} \\ & \leq(1+\gamma) \min _{J \in \mathcal{J}}\left\|J-J^{\pi}\right\|_{\xi} \end{aligned} \tag{8.42}∥∥TπJβπ−Jβπ∥∥ξ=J∈Jmin∥TπJ−J∥ξ≤(1+γ)J∈Jmin∥J−Jπ∥ξ(8.42)
将该不等式与8.58.58.5的结果结合起来,就完成了证明。
8.3.2 平均平方预测贝尔曼误差 (Mean Squared Projected Bellman Error)
最后,如果我们把自己限制在一个线性函数近似的方案中,我们需要一个正交投影到Jl\mathcal{J}_{l}Jl,相对于ξ\xiξ的加权规范。具体来说,我们需要解决以下最小化问题
ΠΦ(J):=Φ⊤argminh∈Rm∥J−Φ⊤h∥ξ2(8.43)\Pi_{\Phi}(J):=\Phi^{\top} \underset{h \in \mathbb{R}^{m}}{\operatorname{argmin}}\left\|J-\Phi^{\top} h\right\|_{\xi}^{2} \tag{8.43}ΠΦ(J):=Φ⊤h∈Rmargmin∥∥J−Φ⊤h∥∥ξ2(8.43)
由于最小平方函数是凸的,解决方案的特点是通过解决以下方程hhh来实现的
ΦΞΦ⊤h=ΦΞJ(8.44)\Phi \Xi \Phi^{\top} h=\Phi \Xi J \tag{8.44}ΦΞΦ⊤h=ΦΞJ(8.44)
由于rk(Φ)=m\operatorname{rk}(\Phi)=mrk(Φ)=m,正交投影被明确定义为
ΠΦ(J):=Φ⊤(ΦΞΦ⊤)−1ΦΞJ(8.45)\Pi_{\Phi}(J):=\Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi \Xi J \tag{8.45}ΠΦ(J):=Φ⊤(ΦΞΦ⊤)−1ΦΞJ(8.45)
Lemma 8.6 非扩张性投影算子ΠΦ\Pi_{\Phi}ΠΦ
给出一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},和一个固定的策略π\piπ。那么,投影ΠΦ\Pi_{\Phi}ΠΦ在ξ−\xi-ξ−范数下是一个非扩张性算子,即。
∥ΠΦJ−ΠΦJ′∥ξ≤∥J−J′∥ξ.(8.46)\left\|\Pi_{\Phi} J-\Pi_{\Phi} J^{\prime}\right\|_{\xi} \leq\left\|J-J^{\prime}\right\|_{\xi} . \tag{8.46}∥ΠΦJ−ΠΦJ′∥ξ≤∥J−J′∥ξ.(8.46)
Proof.
不难发现
∥ΠΦJ−ΠΦJ′∥ξ2=∥ΠΦ(J−J′)∥ξ2≤∥ΠΦ(J−J′)∥ξ2+∥(I−ΠΦ)(J−J′)∥ξ2=∥J−J′∥ξ2(8.47)\begin{aligned} \left\|\Pi_{\Phi} J-\Pi_{\Phi} J^{\prime}\right\|_{\xi}^{2} &=\left\|\Pi_{\Phi}\left(J-J^{\prime}\right)\right\|_{\xi}^{2} \\ & \leq\left\|\Pi_{\Phi}\left(J-J^{\prime}\right)\right\|_{\xi}^{2}+\left\|\left(I-\Pi_{\Phi}\right)\left(J-J^{\prime}\right)\right\|_{\xi}^{2} \\ &=\left\|J-J^{\prime}\right\|_{\xi}^{2} \end{aligned} \tag{8.47}∥ΠΦJ−ΠΦJ′∥ξ2=∥ΠΦ(J−J′)∥ξ2≤∥ΠΦ(J−J′)∥ξ2+∥(I−ΠΦ)(J−J′)∥ξ2=∥J−J′∥ξ2(8.47)
其中最后一个等式由勾股定理得出。证明结束。
Proposition 8.6. 投影算子ΠΦ\Pi_{\Phi}ΠΦ的收缩性
给定一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},和一个固定的策略π\piπ,那么投影贝尔曼算子ΠΦTπ\Pi_{\Phi} \mathrm{T}_{\pi}ΠΦTπ是相对于∥⋅∥ξ\|\cdot\|_{\xi}∥⋅∥ξ的模为γ\gammaγ的收缩。
Proof.
直接从Lemma 8.68.68.6中,我们得出结论
∥ΠΦTπJ−ΠΦTπJ′∥ξ≤∥TπJ−TπJ′∥ξ≤γ∥J−J′∥ξ.(8.48)\begin{aligned} \left\|\Pi_{\Phi} \mathrm{T}_{\pi} J-\Pi_{\Phi} \mathrm{T}_{\pi} J^{\prime}\right\|_{\xi} & \leq\left\|\mathrm{T}_{\pi} J-\mathrm{T}_{\pi} J^{\prime}\right\|_{\xi} \\ & \leq \gamma\left\|J-J^{\prime}\right\|_{\xi} . \end{aligned} \tag{8.48}∥ΠΦTπJ−ΠΦTπJ′∥ξ≤∥TπJ−TπJ′∥ξ≤γ∥J−J′∥ξ.(8.48)
这个命题表明,在J\mathcal{J}J中存在一个唯一的固定点J~π\widetilde{J}_{\pi}Jπ,从而
J~π=ΠΦTπJ~π.\widetilde{J}_{\pi}=\Pi_{\Phi} \mathrm{T}_{\pi} \tilde{J}_{\pi} . Jπ=ΠΦTπJ~π.
由于h↦Φhh \mapsto \Phi hh↦Φh是单射的,因此存在一个唯一的hπ∈Rmh_{\pi} \in \mathbb{R}^{m}hπ∈Rm,这样Φhπ=ΠΦTπ(Φhπ)\Phi h_{\pi}=\Pi_{\Phi} \mathrm{T}_{\pi}\left(\Phi h_{\pi}\right)Φhπ=ΠΦTπ(Φhπ)。这简单地导致了另一个流行的目标函数,即均方投影贝尔曼误差(Mean Squared Projected Bellman Error, MSPBE)。
minh∈Rm∥Φh−ΠΦTπ(Φh)∥ξ(8.49)\min _{h \in \mathbb{R}^{m}}\left\|\Phi h-\Pi_{\Phi} \mathrm{T}_{\pi}(\Phi h)\right\|_{\xi} \tag{8.49}h∈Rmmin∥Φh−ΠΦTπ(Φh)∥ξ(8.49)
在下文中,我们描述了最小化MSPBE fucntion的误差界限。
Proposition 8.7.
给定一个无限范围的MDP{X,U,p,g,γ}M D P\{\mathcal{X}, \mathcal{U}, p, g, \gamma\}MDP{X,U,p,g,γ},和一个固定的策略π\piπ, 让hπh_{\pi}hπ满足Φhπ=ΠΦTπ(Φhπ)\Phi h_{\pi}=\Pi_{\Phi} \mathrm{T}_{\pi}\left(\Phi h_{\pi}\right)Φhπ=ΠΦTπ(Φhπ)。 那么我们有
∥Jπ−Φ⊤hπ∥ξ≤11−γ2∥Jπ−ΠΦJπ∥ξ(8.50)\left\|J^{\pi}-\Phi^{\top} h_{\pi}\right\|_{\xi} \leq \frac{1}{\sqrt{1-\gamma^{2}}}\left\|J^{\pi}-\Pi_{\Phi} J^{\pi}\right\|_{\xi} \tag{8.50}∥∥Jπ−Φ⊤hπ∥∥ξ≤1−γ21∥Jπ−ΠΦJπ∥ξ(8.50)
Proof.
简单地说,我们有
∥Jπ−Φ⊤hπ∥ξ2=∥Jπ−ΠΦJπ∥ξ2+∥ΠΦJπ−Φ⊤hπ∥ξ2=∥Jπ−ΠΦJπ∥ξ2+∥ΠΦTπJπ−ΠΦTπ(Φ⊤hπ)∥ξ2≤∥Jπ−ΠΦJπ∥ξ2+γ2∥Jπ−Φ⊤hπ∥ξ2(8.51)\begin{aligned} \left\|J^{\pi}-\Phi^{\top} h_{\pi}\right\|_{\xi}^{2} &=\left\|J^{\pi}-\Pi_{\Phi} J^{\pi}\right\|_{\xi}^{2}+\left\|\Pi_{\Phi} J^{\pi}-\Phi^{\top} h_{\pi}\right\|_{\xi}^{2} \\ &=\left\|J^{\pi}-\Pi_{\Phi} J^{\pi}\right\|_{\xi}^{2}+\left\|\Pi_{\Phi} \mathrm{T}_{\pi} J^{\pi}-\Pi_{\Phi} \mathrm{T}_{\pi}\left(\Phi^{\top} h_{\pi}\right)\right\|_{\xi}^{2} \\ & \leq\left\|J^{\pi}-\Pi_{\Phi} J^{\pi}\right\|_{\xi}^{2}+\gamma^{2}\left\|J^{\pi}-\Phi^{\top} h_{\pi}\right\|_{\xi}^{2} \end{aligned} \tag{8.51}∥∥Jπ−Φ⊤hπ∥∥ξ2=∥Jπ−ΠΦJπ∥ξ2+∥∥ΠΦJπ−Φ⊤hπ∥∥ξ2=∥Jπ−ΠΦJπ∥ξ2+∥∥ΠΦTπJπ−ΠΦTπ(Φ⊤hπ)∥∥ξ2≤∥Jπ−ΠΦJπ∥ξ2+γ2∥∥Jπ−Φ⊤hπ∥∥ξ2(8.51)
其中第一个等式由勾股定理产生,第二个等式由构造产生,而这个不等式是由于ΠΦTπ\Pi_{\Phi} \mathrm{T}_{\pi}ΠΦTπ的收缩特性造成的。
当真正的总成本函数JπJ^{\pi}Jπ不在线性函数近似空间内时,即∥Jπ−ΠΦJπ∥ξ≠0\left\|J^{\pi}-\Pi_{\Phi} J^{\pi}\right\|_{\xi} \neq 0∥Jπ−ΠΦJπ∥ξ=0,那么∥Jπ−Φ⊤hπ∥ξ\left\|J^{\pi}-\Phi^{\top} h_{\pi}\right\|_{\xi}∥∥Jπ−Φ⊤hπ∥∥ξ的误差就会被严重约束,如果γ\gammaγ接近于1。因此,确保总成本函数位于线性总成本函数近似空间J\mathcal{J}J至关重要,即Jπ∈JlJ^{\pi}\in \mathcal{J}_{l}Jπ∈Jl。
由于MSBE函数和MSPBE函数都是凸的,这两个函数都能保证全局最小值。因此,研究这两个问题的解决方案的性能是有价值的。为此,我们将误差界线的差异定义为
l(γ):=1+γ1−γ−11−γ2(8.52)l(\gamma):=\frac{1+\gamma}{1-\gamma}-\frac{1}{\sqrt{1-\gamma^{2}}} \tag{8.52}l(γ):=1−γ1+γ−1−γ21(8.52)
很明显,l(0)=0l(0)=0l(0)=0。现在我们取lll的导数为
l′(γ)=2(1−γ)2+γ(1−γ2)3(8.53)l^{\prime}(\gamma)=\frac{2}{(1-\gamma)^{2}}+\frac{\gamma}{\left(\sqrt{1-\gamma^{2}}\right)^{3}} \tag{8.53}l′(γ)=(1−γ)22+(1−γ2)3γ(8.53)
其值对于γ∈[0,1]\gamma\in[0,1]γ∈[0,1]来说总是正的。这一事实意味着差分函数lll的函数值从0到1单调地增加。图15中的评价清楚地描述了当γ\gammaγ接近于1时,MSBE最小化和MSPBE最小化的误差界限之差会变成无穷大。换句话说,最小化MSPBE函数比MSBE函数更有优势。
图15:MSBE最小化和MSPBE最小化的误差界限商。
8.4 API 补充
8.4.1 Approximate PI (API)
- 我们将展示三种不同的APE方法:ell2ell_{2}ell2 MSBE、具有各态历经性的MSBE、具有各态历经性的MSPBE。
- 在E-Bus例子下,在策略改进步骤中没有近似方法。
- 深度强化学习中的策略网络:近似的策略改进。
8.4.2 APE via Bellman Residual Minimisation
- In Policy Iteration, Policy Evaluation (PE) via TπT_{\pi}Tπ leads to a fixed point JπJ^{\pi}Jπ . (Quiz 2)
- In Approximate PE, there is a Bellman error since we restrict JJJ in a subspace (Φ⊤h)\left(\Phi^{\top} h\right)(Φ⊤h) if we apply Linear Function Approximation (LFA).
8.4.3 ℓ2\ell_{2}ℓ2 Based Bellman Residual Minimisation
- What is the difference between ∥⋅∥22\|\cdot\|_{2}^{2}∥⋅∥22 and ∥⋅∥2\|\cdot\|_{2}∥⋅∥2 ?
- ∥x∥22=x⊤x,∥x∥2=x⊤x(x∈Rn)\|x\|_{2}^{2}=x^{\top} x,\|x\|_{2}=\sqrt{x^{\top} x}\left(x \in \mathbb{R}^{n}\right)∥x∥22=x⊤x,∥x∥2=x⊤x(x∈Rn) .
- Both forms are strict convex, they have the same global minima. We did not make a strict distinction between these two terms since we only focus on the analytical solution.
- Quite different in numerical calculations, e.g., gradient.
- In this exercise, we keep using ∥⋅∥22\|\cdot\|_{2}^{2}∥⋅∥22 , which is also more consistent with the name ‘Squared’ BE.
8.4.4 Recap: Closed form policy evaluation
Preliminaries: matrix derivation
- Matrix calculus
- Layout conventions: given y∈Rm,x∈Rny \in \mathbb{R}^{m}, x \in \mathbb{R}^{n}y∈Rm,x∈Rn .
Numerator-layout:
Numerator-layout: ∂y∂x:=[∂y1∂x1…∂y1∂xn⋱∂ym∂x1…∂ym∂xn]∈Rm×n,∂y∂x:=[∂y1∂x1…∂ym∂x1⋱∂y1∂xn…∂ym∂xn]∈Rn×m,\begin{array}{l} \text { Numerator-layout: } \\ \frac{\partial y}{\partial x}:=\left[\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \ldots & \frac{\partial y_{1}}{\partial x_{n}} \\ & \ddots & \\ \frac{\partial y_{m}}{\partial x_{1}} & \ldots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right] \in \mathbb{R}^{m \times n}, \quad \frac{\partial y}{\partial x}:=\left[\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \ldots & \frac{\partial y_{m}}{\partial x_{1}} \\ & \ddots & \\ \frac{\partial y_{1}}{\partial x_{n}} & \ldots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right] \in \mathbb{R}^{n \times m}, \end{array} Numerator-layout: ∂x∂y:=⎣⎡∂x1∂y1∂x1∂ym…⋱…∂xn∂y1∂xn∂ym⎦⎤∈Rm×n,∂x∂y:=⎣⎡∂x1∂y1∂xn∂y1…⋱…∂x1∂ym∂xn∂ym⎦⎤∈Rn×m,
- This exercise follows denominator layout convention.
- This exercise has two kinds of matrix derivation:
- The derivative of a scalar y by a vector x : gradient (vector)
- The derivative of a vector y by a vector x : Jaccobian (matrix)
8.4.5 ℓ2\ell_{2}ℓ2 Based Bellman Residual Minimisation
- ℓ2\ell_{2}ℓ2 least square function:
J2π∈argminJ∈J∥TπJ−J∥22,where J=Φ⊤h.∥TπJ−J∥22=∥J−TπJ∥22=∥J−Gπ−γPπJ∥22=∥(IK−γPπ)Φ⊤h−Gπ∥22\begin{aligned} J_{2}^{\pi} \in \underset{J \in \mathcal{J}}{\operatorname{argmin}} &\left\|\mathrm{T}_{\pi} J-J\right\|_{2}^{2}, \quad \text { where } J=\Phi^{\top} h . \\ \left\|\mathrm{T}_{\pi} J-J\right\|_{2}^{2} &=\left\|J-\mathrm{T}_{\pi} J\right\|_{2}^{2}=\left\|J-G_{\pi}-\gamma P_{\pi} J\right\|_{2}^{2} \\ &=\left\|\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top} h-G_{\pi}\right\|_{2}^{2} \end{aligned}J2π∈J∈Jargmin∥TπJ−J∥22∥TπJ−J∥22, where J=Φ⊤h.=∥J−TπJ∥22=∥J−Gπ−γPπJ∥22=∥∥(IK−γPπ)Φ⊤h−Gπ∥∥22
- Let Wπ=(IK−γPπ)Φ⊤∈RK×mW_{\pi}=\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top} \in \mathbb{R}^{K \times m}Wπ=(IK−γPπ)Φ⊤∈RK×m , we have
∥TπJ−J∥22=∥Wπh−Gπ∥22=(Wπh−Gπ)T(Wπh−Gπ)\begin{aligned} \left\|\mathrm{T}_{\pi} J-J\right\|_{2}^{2} &=\left\|W_{\pi} h-G_{\pi}\right\|_{2}^{2} \\ &=\left(W_{\pi} h-G_{\pi}\right)^{\mathrm{T}}\left(W_{\pi} h-G_{\pi}\right) \end{aligned}∥TπJ−J∥22=∥Wπh−Gπ∥22=(Wπh−Gπ)T(Wπh−Gπ)
Since the least square function is convex, we can get the minima when the derivation equals to zero.
Let u=Wπh−Gπ∈RK×1\mathbf{u}=W_{\pi} h-G_{\pi} \in \mathbb{R}^{K \times 1}u=Wπh−Gπ∈RK×1 , we can get
∂u⊤u∂u=2u,∂u⊤u∂h=2∂u∂hu,where∂u∂h=Wπ⊤(denominator layout)\frac{\partial \mathbf{u}^{\top} \mathbf{u}}{\partial \mathbf{u}}=2 \mathbf{u}, \quad \frac{\partial \mathbf{u}^{\top} \mathbf{u}}{\partial h}=2 \frac{\partial \mathbf{u}}{\partial h} \mathbf{u}, \quad where \frac{\partial \mathbf{u}}{\partial h}=W_{\pi}^{\top} \quad \text{(denominator layout)}∂u∂u⊤u=2u,∂h∂u⊤u=2∂h∂uu,where∂h∂u=Wπ⊤(denominator layout)
∂(Wπh−Gπ)⊤(Wπh−Gπ)∂h=2Wπ⊤(Wπh−Gπ)=0∈Rm×1⇒Wπ⊤Wπh−Wπ⊤Gπ=0Wπ⊤Wπh=Wπ⊤Gπ\begin{aligned} \frac{\partial\left(W_{\pi} h-G_{\pi}\right)^{\top}\left(W_{\pi} h-G_{\pi}\right)}{\partial h} &=2 W_{\pi}^{\top}\left(W_{\pi} h-G_{\pi}\right)=0 \in \mathbb{R}^{m \times 1} \\ \Rightarrow \quad W_{\pi}^{\top} W_{\pi} h-W_{\pi}^{\top} G_{\pi} &=0 \\ W_{\pi}^{\top} W_{\pi} h &=W_{\pi}^{\top} G_{\pi} \end{aligned}∂h∂(Wπh−Gπ)⊤(Wπh−Gπ)⇒Wπ⊤Wπh−Wπ⊤GπWπ⊤Wπh=2Wπ⊤(Wπh−Gπ)=0∈Rm×1=0=Wπ⊤Gπ
- Wπ⊤W_{\pi}^{\top}Wπ⊤ is not a square matrix (non-invertable), so we move (Wπ⊤Wπ)∈Rm×m\left(W_{\pi}^{\top} W_{\pi}\right) \in \mathbb{R}^{m \times m}(Wπ⊤Wπ)∈Rm×m to the RHS:
h=(Wπ⊤Wπ)−1Wπ⊤GπJ2π=Φ⊤h=Φ⊤(Wπ⊤Wπ)−1Wπ⊤Gπ\begin{array}{c} h=\left(W_{\pi}^{\top} W_{\pi}\right)^{-1} W_{\pi}^{\top} G_{\pi} \\ J_{2}^{\pi}=\Phi^{\top} h=\Phi^{\top}\left(W_{\pi}^{\top} W_{\pi}\right)^{-1} W_{\pi}^{\top} G_{\pi} \end{array}h=(Wπ⊤Wπ)−1Wπ⊤GπJ2π=Φ⊤h=Φ⊤(Wπ⊤Wπ)−1Wπ⊤Gπ
8.4.6 Approximate PI (API) with LFA + MSBE
- What is ξ?→\xi ? \rightarrowξ?→ Ergodic MDP.
- Ξ∈RK×K\Xi \in \mathbb{R}^{K \times K}Ξ∈RK×K : a diagonal matrix with diagonal element ξi\xi_{i}ξi . (The 14th Greek letter Ξ,ξ\Xi, \xiΞ,ξ )
- Similar as before, let Wπ:=(IK−γPπ)Φ⊤∈RK×mW_{\pi}:=\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top} \in \mathbb{R}^{K \times m}Wπ:=(IK−γPπ)Φ⊤∈RK×m :
∥Tπ(Φ⊤h)−Φ⊤h∥ξ2=∥Φ⊤h−Gπ−γPπΦ⊤h∥ξ2=∥Wπh−Gπ∥ξ2\left\|\mathrm{T}_{\pi}\left(\Phi^{\top} h\right)-\Phi^{\top} h\right\|_{\xi}^{2}=\left\|\Phi^{\top} h-G_{\pi}-\gamma P_{\pi} \Phi^{\top} h\right\|_{\xi}^{2}=\left\|W_{\pi} h-G_{\pi}\right\|_{\xi}^{2}∥∥Tπ(Φ⊤h)−Φ⊤h∥∥ξ2=∥∥Φ⊤h−Gπ−γPπΦ⊤h∥∥ξ2=∥Wπh−Gπ∥ξ2
- ξ\xiξ -norm is defined as:
∥Wπh−Gπ∥ξ2=(Wπh−Gπ)⊤Ξ(Wπh−Gπ)\left\|W_{\pi} h-G_{\pi}\right\|_{\xi}^{2}=\left(W_{\pi} h-G_{\pi}\right)^{\top} \Xi\left(W_{\pi} h-G_{\pi}\right)∥Wπh−Gπ∥ξ2=(Wπh−Gπ)⊤Ξ(Wπh−Gπ)
\Xi \in \mathbb{R}^{K \times K} : a diagonal matrix with diagonal element ξi\xi_{i}ξi .
Again, the least square function is convex, derivation should equal to zero. Let u=Wπh−Gπ∈RK×1\mathbf{u}=W_{\pi} h-G_{\pi} \in \mathbb{R}^{K \times 1}u=Wπh−Gπ∈RK×1 , we can get
∂u⊤Ξu∂u=2Ξu,∂u⊤u∂h=2∂u∂hu,where ∂u∂h=Wπ⊤∂(Wπh−Gπ)⊤Ξ(Wπh−Gπ)∂h=2Wπ⊤Ξ(Wπh−Gπ)=0∈Rm×1Wπ⊤ΞWπh=Wπ⊤ΞGπh=(Wπ⊤ΞWπ)−1Wπ⊤ΞGπ⇒Jξπ=Φ⊤(Wπ⊤ΞWπ)−1Wπ⊤ΞGπ\begin{array}{c} \frac{\partial \mathbf{u}^{\top} \Xi \mathbf{u}}{\partial \mathbf{u}}=2 \Xi \mathbf{u}, \quad \frac{\partial \mathbf{u}^{\top} \mathbf{u}}{\partial h}=2 \frac{\partial \mathbf{u}}{\partial h} \mathbf{u}, \quad \text { where } \frac{\partial \mathbf{u}}{\partial h}=W_{\pi}^{\top} \\ \frac{\partial\left(W_{\pi} h-G_{\pi}\right)^{\top} \Xi\left(W_{\pi} h-G_{\pi}\right)}{\partial h}=2 W_{\pi}^{\top} \Xi\left(W_{\pi} h-G_{\pi}\right)=\mathbf{0} \in \mathbb{R}^{m \times 1} \\ W_{\pi}^{\top} \Xi W_{\pi} h=W_{\pi}^{\top} \Xi G_{\pi} \\ h=\left(W_{\pi}^{\top} \Xi W_{\pi}\right)^{-1} W_{\pi}^{\top} \Xi G_{\pi} \\ \Rightarrow J_{\xi}^{\pi}=\Phi^{\top}\left(W_{\pi}^{\top} \Xi W_{\pi}\right)^{-1} W_{\pi}^{\top} \Xi G_{\pi} \end{array}∂u∂u⊤Ξu=2Ξu,∂h∂u⊤u=2∂h∂uu, where ∂h∂u=Wπ⊤∂h∂(Wπh−Gπ)⊤Ξ(Wπh−Gπ)=2Wπ⊤Ξ(Wπh−Gπ)=0∈Rm×1Wπ⊤ΞWπh=Wπ⊤ΞGπh=(Wπ⊤ΞWπ)−1Wπ⊤ΞGπ⇒Jξπ=Φ⊤(Wπ⊤ΞWπ)−1Wπ⊤ΞGπ
- When Ξ\XiΞ is an identity matrix, we get the same result as ℓ2\ell_{2}ℓ2 MSBE.
8.4.7 Approximate PI (API) with LFA +ξ-weighted MSBE \text { Approximate PI (API) with LFA }+\xi \text {-weighted MSBE } Approximate PI (API) with LFA +ξ-weighted MSBE
8.4.8 Mean Squared Projected Bellman Error (MSPBE)
- Since ΠΦJ=J\Pi_{\Phi} J=JΠΦJ=J ,
∥ΠΦTπJ−J∥ξ2=∥J−ΠΦ(Gπ+γPπJ)∥ξ2=∥ΠΦJ−γΠΦPπJ−ΠΦGπ)∥ξ2,=∥ΠΦ((IK−γPπ)Φ⊤h−Gπ))∥ξ2\begin{aligned} \left\|\Pi_{\Phi} \mathrm{T}_{\pi} J-J\right\|_{\xi}^{2} &\left.=\left\|J-\Pi_{\Phi}\left(G_{\pi}+\gamma P_{\pi} J\right)\right\|_{\xi}^{2}=\| \Pi_{\Phi} J-\gamma \Pi_{\Phi} P_{\pi} J-\Pi_{\Phi} G_{\pi}\right) \|_{\xi}^{2}, \\ &\left.=\| \Pi_{\Phi}\left(\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top} h-G_{\pi}\right)\right) \|_{\xi}^{2} \end{aligned}∥ΠΦTπJ−J∥ξ2=∥J−ΠΦ(Gπ+γPπJ)∥ξ2=∥ΠΦJ−γΠΦPπJ−ΠΦGπ)∥ξ2,=∥ΠΦ((IK−γPπ)Φ⊤h−Gπ))∥ξ2
Let Wπ=(IK−γPπ)Φ⊤∈RK×mW_{\pi}=\left(I_{K}-\gamma P_{\pi}\right) \Phi^{\top} \in \mathbb{R}^{K \times m}Wπ=(IK−γPπ)Φ⊤∈RK×m , we have ∥ΠΦ(Wπh−Gπ))∥ξ2\left.\| \Pi_{\Phi}\left(W_{\pi} h-G_{\pi}\right)\right) \|_{\xi}^{2}∥ΠΦ(Wπh−Gπ))∥ξ2 .
The orthogonal projector ΠΦ:=Φ⊤(ΦΞΦ⊤)−1ΦΞ∈RK×K\Pi_{\Phi}:=\Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi \Xi \in \mathbb{R}^{K \times K}ΠΦ:=Φ⊤(ΦΞΦ⊤)−1ΦΞ∈RK×K .
Similar as before, let u=ΠΦWπh−ΠΦGπ∈RK×1\mathbf{u}=\Pi_{\Phi} W_{\pi} h-\Pi_{\Phi} G_{\pi} \in \mathbb{R}^{K \times 1}u=ΠΦWπh−ΠΦGπ∈RK×1 , we can get
∂u⊤Ξu∂u=2Ξu,∂u⊤u∂h=2∂u∂hu,where ∂u∂h=(ΠΦWπ)⊤∂(ΠΦWπh−ΠΦGπ)⊤Ξ(ΠΦWπh−ΠΦGπ)∂h=2Wπ⊤ΠΦ⊤ΞΠΦ(Wπh−Gπ)=0∈Rm×1,\begin{array}{c} \frac{\partial \mathbf{u}^{\top} \Xi \mathbf{u}}{\partial \mathbf{u}}=2 \Xi \mathbf{u}, \quad \frac{\partial \mathbf{u}^{\top} \mathbf{u}}{\partial h}=2 \frac{\partial \mathbf{u}}{\partial h} \mathbf{u}, \quad \text { where } \frac{\partial \mathbf{u}}{\partial h}=\left(\Pi_{\Phi} W_{\pi}\right)^{\top} \\ \frac{\partial\left(\Pi_{\Phi} W_{\pi} h-\Pi_{\Phi} G_{\pi}\right)^{\top} \Xi\left(\Pi_{\Phi} W_{\pi} h-\Pi_{\Phi} G_{\pi}\right)}{\partial h}=2 W_{\pi}^{\top} \Pi_{\Phi}^{\top} \Xi \Pi_{\Phi}\left(W_{\pi} h-G_{\pi}\right)=\mathbf{0} \in \mathbb{R}^{m \times 1}, \end{array}∂u∂u⊤Ξu=2Ξu,∂h∂u⊤u=2∂h∂uu, where ∂h∂u=(ΠΦWπ)⊤∂h∂(ΠΦWπh−ΠΦGπ)⊤Ξ(ΠΦWπh−ΠΦGπ)=2Wπ⊤ΠΦ⊤ΞΠΦ(Wπh−Gπ)=0∈Rm×1,
- (ΦΞΦ⊤)−1\left(\Phi \Xi \Phi^{\top}\right)^{-1}(ΦΞΦ⊤)−1 is diagonal, then ΠΦ⊤=ΞΦ⊤(ΦΞΦ⊤)−1Φ\Pi_{\Phi}^{\top}=\Xi \Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \PhiΠΦ⊤=ΞΦ⊤(ΦΞΦ⊤)−1Φ , hence we have:
Wπ⊤ΞΦ⊤(ΦΞΦ⊤)−1Φ⏞ΠΦ⊤Φ⊤(ΦΞΦ⊤)−1ΦΞ⏞ΠΦ(Wπh−Gπ)=0,WπΞΦ⊤⏟full rank, invertable (ΦΞΦ⊤)−1⇒Ξ(Wπh−Gπ)=0,ΦΞWπh=ΦΞGπ,⇒h=(ΦΞWπ)−1ΦΞGπ,⇒Jξπ=Φ⊤(ΦΞWπ)−1ΦΞGπ.\begin{aligned} W_{\pi}^{\top} \overbrace{\Xi \Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi}^{\Pi_{\Phi}^{\top}} & \overbrace{\Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi \Xi}^{\Pi_{\Phi}}\left(W_{\pi} h-G_{\pi}\right)=\mathbf{0}, \\ \underbrace{W_{\pi} \Xi \Phi^{\top}}_{\text {full rank, invertable }} &\left(\Phi \Xi \Phi^{\top}\right)^{-1} \\ & \Rightarrow \Xi\left(W_{\pi} h-G_{\pi}\right)=\mathbf{0}, \\ \Phi \Xi W_{\pi} h=\Phi \Xi G_{\pi}, & \Rightarrow h=\left(\Phi \Xi W_{\pi}\right)^{-1} \Phi \Xi G_{\pi}, \\ & \Rightarrow J_{\xi}^{\pi}=\Phi^{\top}\left(\Phi \Xi W_{\pi}\right)^{-1} \Phi \Xi G_{\pi} . \end{aligned}Wπ⊤ΞΦ⊤(ΦΞΦ⊤)−1ΦΠΦ⊤full rank, invertable WπΞΦ⊤ΦΞWπh=ΦΞGπ,Φ⊤(ΦΞΦ⊤)−1ΦΞΠΦ(Wπh−Gπ)=0,(ΦΞΦ⊤)−1⇒Ξ(Wπh−Gπ)=0,⇒h=(ΦΞWπ)−1ΦΞGπ,⇒Jξπ=Φ⊤(ΦΞWπ)−1ΦΞGπ.
- We have proved that ΠΦTπ\Pi_{\Phi} \mathrm{T}_{\pi}ΠΦTπ is a contraction mapping which leads to a fixed point, then the MSPBE should equal to zero:
ΠΦTπJ−J=0∈RK×1⇒ΠΦ(Wπh−Gπ))=Φ⊤(ΦΞΦ⊤)−1ΦΞ(Wπh−Gπ))=0\left.\left.\Pi_{\Phi} \mathrm{T}_{\pi} J-J=0 \in \mathbb{R}^{K \times 1} \Rightarrow \Pi_{\Phi}\left(W_{\pi} h-G_{\pi}\right)\right)=\Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi \Xi\left(W_{\pi} h-G_{\pi}\right)\right)=0ΠΦTπJ−J=0∈RK×1⇒ΠΦ(Wπh−Gπ))=Φ⊤(ΦΞΦ⊤)−1ΦΞ(Wπh−Gπ))=0
- Left multiply with ΦΞ∈Rm×K\Phi \Xi \in \mathbb{R}^{m \times K}ΦΞ∈Rm×K at both sides:
ΦΞΦ⊤(ΦΞΦ⊤)−1ΦΞ(Wπh−Gπ))=ΦΞ0,ΦΞ(Wπh−Gπ))=0,ΦΞWπh=ΦΞGπ,⇒h=(ΦΞWπ)−1ΦΞGπ,⇒Jξπ=Φ⊤(ΦΞWπ)−1ΦΞGπ.\begin{aligned} \left.\Phi \Xi \Phi^{\top}\left(\Phi \Xi \Phi^{\top}\right)^{-1} \Phi \Xi\left(W_{\pi} h-G_{\pi}\right)\right) &=\Phi \Xi 0, \\ \left.\Phi \Xi\left(W_{\pi} h-G_{\pi}\right)\right) &=0, \\ \Phi \Xi W_{\pi} h &=\Phi \Xi G_{\pi}, \\ \Rightarrow \quad h=\left(\Phi \Xi W_{\pi}\right)^{-1} \Phi \Xi G_{\pi}, & \\ \Rightarrow \quad J_{\xi}^{\pi}=\Phi^{\top}\left(\Phi \Xi W_{\pi}\right)^{-1} \Phi \Xi G_{\pi} . & \end{aligned}ΦΞΦ⊤(ΦΞΦ⊤)−1ΦΞ(Wπh−Gπ))ΦΞ(Wπh−Gπ))ΦΞWπh⇒h=(ΦΞWπ)−1ΦΞGπ,⇒Jξπ=Φ⊤(ΦΞWπ)−1ΦΞGπ.=ΦΞ0,=0,=ΦΞGπ,
8.4.9 Approximate PI (API) with LFA + ξ\xiξ-weighted MSPBE
8.4.10 Approximate PI Summary
- Three different APE methods in close-form: ℓ2\ell_{2}ℓ2 MSBE, MSBE with ergodicity, MSPBE with ergodicity;
- The estimation error bound \delta for the above three different APE methods are discussed in the lecture.
ADPRL - 近似动态规划和强化学习 - Note 8 - 近似策略迭代 (Approximate Policy Iteration)相关推荐
- ADPRL - 近似动态规划和强化学习 - Note 7 - Approximate Dynamic Programming
Note 7 - 近似动态规划 Approximate Dynamic Programming 7. 近似动态规划 (Approximate Dynamic Programming) 7.1 近似架构 ...
- ADPRL - 近似动态规划和强化学习 - Note 10 - 蒙特卡洛法和时序差分学习及其实例 (Monte Carlo and Temporal Difference)
Note 10 蒙特卡洛法和时序差分学习 Monte Carlo and Temporal Difference 蒙特卡洛法和时序差分学习 Note 10 蒙特卡洛法和时序差分学习 Monte Car ...
- ADPRL - 近似动态规划和强化学习 - Note 1 - Introduction
1. Intorduction Abbreviations Declaration SDM: sequential decision making 顺序决策 DP: Dynamic Programmi ...
- ADPRL - 近似动态规划和强化学习 - Note 6 - Mitigating the Curse of Dimensionality
Note 6 Mitigating the Curse of Dimensionality 减轻维度诅咒 6. Mitigating the Curse of Dimensionality 减轻维度诅 ...
- ADPRL - 近似动态规划和强化学习 - Note 4 - Policy Iteration Algorithms
Note 4 - Policy Iteration Algorithms 4. Policy Iteration Algorithms 补充:范数的性质 4.1 贪婪诱导策略的特性 (Properti ...
- ADPRL - 近似动态规划和强化学习 - Note 5 - Banach Fixed Point Theorem in Dynamic Programming
动态规划中的巴拿赫不动点定理 5. Banach Fixed Point Theorem in Dynamic Programming 5.1 巴拿赫不动点定理定理 (Banach fixed poi ...
- ADPRL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem
2. Stochastic Finite Horizon Problem 在这一节中主要介绍了随机DP算法来解决不确定性下的有限地范围问题,如Denition 1.4所述,它被表述为一个组合优化问题. ...
- ADPRL - 近似动态规划和强化学习 - Note 3 - Stochastic Infinite Horizon Problem
Stochastic Infinite Horizon Problem 3.Stochastic Infinite Horizon Problem 定义3.1 无限范围的马尔可夫决策过程 (Marko ...
- 强化学习——蛇棋游戏策略迭代实现
强化学习--蛇棋游戏策略迭代实现 1"表格式"Agent 2.对游戏的评估 3.策略迭代 3.1.策略评估 3.2.策略改善 1"表格式"Agent 在之前 ...
最新文章
- MySQL学习(二)复制
- Go worker并发模式
- 什么叫有效物理网卡_如何区分虚拟网卡和物理网卡?-阿里云开发者社区
- 信息学奥赛一本通(1158:求1+2+3+...)
- 推理集 —— 特殊的工具
- 在线网络投票/打分活动实施步骤及疑难问题汇编
- win10硬盘速度测试软件,最好的硬盘检测工具
- 保研经历总结--天津大学
- 软件测试面试常见问题
- (附思维导图+笔记)-六面美团后,我发现大厂面试真的有“题库”!
- Android应用中保存网络图片功能实现详解
- js 颜色值转换 普通颜色转透明颜色值
- python提取微信聊天语音_利用Python进行微信,QQ的语音识别!内部技术的延伸版!...
- Map key 和 value 的输出;
- (灵魂拷问)MySQL数据库高频面试题,助你脱颖而出
- 使用Wordpress搭建个人博客网站
- SQL数据库编写及示例
- [转载]***编年史 之 上帝派来的***
- node离线安装(linux环境)
- PIC单片机在线串行编程(ICSP)的实现
热门文章
- 杨老师课堂_Java核心技术下之控制台模拟文件管理器案例
- selenium+Python(鼠标和键盘事件)
- Mysql for Mac 安装及环境配置
- 2022-2028年中国B2C电子商务市场投资分析及前景预测报告
- 2022-2028年中国六氟化硫行业市场研究及前瞻分析报告
- atitit.userService 用户系统设计 v5 q330
- [纪录]仿IOS滚轮效果(竖直滑动选择器)
- as3.0中如何阻止事件冒泡?
- (C#加密)幻术-大踲无形
- python 开发板 i2s_嵌入式小系统I2S接口调试总结