【论文阅读】Generalization in Reinforcement Learning

原文为 Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability，是 2022 年 CMU 发表的综述文章。

本笔记只关注该文中的第四部分，即 强化学习中的泛化性。

1 概要

强化学习中的泛化性侧重于设计算法，以产生能够转移或适应各种环境的策略，而不对训练环境进行过拟合。这种能力对于强化学习智能体的实际部署至关重要，因为 测试时的环境通常与训练环境不同，或者在本质上是动态的。本文首先对泛化性的强化学习进行定义，随后介绍评估变化的两个维度，最后讨论现有增强强化学习泛化性的方法。

2 可泛化强化学习定义

为了在一个统一的框架中讨论泛化性，我们需要首先形式化一个环境集合的概念。我们在这里采用的形式化是 上下文马尔可夫决策过程 (Contextual Markov Decision Process)，是 Hallak 等人在研究中最早提出，在近期的一篇 survey 中也使用了该定义。上下文马尔可夫决策过程（MDP）将标准的单任务 MDP 扩展到多任务设置。

Assaf Hallak, Dotan Di Castro, and Shie Mannor. 2015. Contextual markov decision processes. arXiv preprint arXiv:1502.02259 (2015).

在本文中，我们考虑 discounted infinite-horizon CMDPs，表示为一个元组 M=(S,Z,A,R,P,p0,ρ,γ)M=\left(\mathcal{S}, \boldsymbol{Z}, \mathcal{A}, R, P, p_0, \rho, \gamma\right)M=(S,Z,A,R,P,p0,ρ,γ)。其中，S\mathcal{S}S 为状态空间，Z\boldsymbol{Z}Z 为上下文空间，A\mathcal{A}A 为动作空间，R:S×A×Z↦RR: \mathcal{S} \times \mathcal{A} \times \mathcal{Z} \mapsto \mathbb{R}R:S×A×Z↦R 为上下文相关的奖励函数，P:S×A×Z↦Δ(S)P: \mathcal{S} \times \mathcal{A} \times \mathbb{Z} \mapsto \Delta(\mathcal{S})P:S×A×Z↦Δ(S) 为上下文相关的状态转移函数，p0:Z↦Δ(S)p_0: \mathcal{Z} \mapsto \Delta(\mathcal{S})p0:Z↦Δ(S) 为上下文相关的初始状态分布，ρ∈Δ(Z)\rho \in \Delta(\mathbb{Z})ρ∈Δ(Z) 为上下文分布，γ∈(0,1)\gamma \in (0,1 )γ∈(0,1) 为折扣因子。需要注意的是，在非平稳环境分布的情况下，Font metrics not found for font: . 可能是一个时间因变量。

为了在上下文 MDPs 中采样一个轨迹 τ:={(st,at,rt)}t=0∞\tau:=\left\{\left(s_t, a_t, r_t\right)\right\}_{t=0}^{\infty}τ:={(st,at,rt)}t=0∞，上下文 Font metrics not found for font: . 是在每一集开始时由环境随机生成的。在这里，每个