【论文阅读】Generalization in Reinforcement Learning

原文为 Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability,是 2022 年 CMU 发表的综述文章。

本笔记只关注该文中的第四部分,即 强化学习中的泛化性

1 概要

强化学习中的泛化性侧重于设计算法,以产生能够转移或适应各种环境的策略,而不对训练环境进行过拟合。这种能力对于强化学习智能体的实际部署至关重要,因为 测试时的环境通常与训练环境不同,或者在本质上是动态的。本文首先对泛化性的强化学习进行定义,随后介绍评估变化的两个维度,最后讨论现有增强强化学习泛化性的方法。

2 可泛化强化学习定义

为了在一个统一的框架中讨论泛化性,我们需要首先形式化一个环境集合的概念。我们在这里采用的形式化是 上下文马尔可夫决策过程 (Contextual Markov Decision Process),是 Hallak 等人在研究中最早提出,在近期的一篇 survey 中也使用了该定义。上下文马尔可夫决策过程(MDP)将标准的单任务 MDP 扩展到多任务设置。

在本文中,我们考虑 discounted infinite-horizon CMDPs,表示为一个元组 M=(S,Z,A,R,P,p0,ρ,γ)M=\left(\mathcal{S}, \boldsymbol{Z}, \mathcal{A}, R, P, p_0, \rho, \gamma\right)M=(S,Z,A,R,P,p0​,ρ,γ)。其中,S\mathcal{S}S 为状态空间,Z\boldsymbol{Z}Z 为上下文空间,A\mathcal{A}A 为动作空间,R:S×A×Z↦RR: \mathcal{S} \times \mathcal{A} \times \mathcal{Z} \mapsto \mathbb{R}R:S×A×Z↦R 为上下文相关的奖励函数,P:S×A×Z↦Δ(S)P: \mathcal{S} \times \mathcal{A} \times \mathbb{Z} \mapsto \Delta(\mathcal{S})P:S×A×Z↦Δ(S) 为上下文相关的状态转移函数,p0:Z↦Δ(S)p_0: \mathcal{Z} \mapsto \Delta(\mathcal{S})p0​:Z↦Δ(S) 为上下文相关的初始状态分布,ρ∈Δ(Z)\rho \in \Delta(\mathbb{Z})ρ∈Δ(Z) 为上下文分布,γ∈(0,1)\gamma \in (0,1 )γ∈(0,1) 为折扣因子。需要注意的是,在非平稳环境分布的情况下,Font metrics not found for font: . 可能是一个时间因变量

为了在上下文 MDPs 中采样一个轨迹 τ:={(st,at,rt)}t=0∞\tau:=\left\{\left(s_t, a_t, r_t\right)\right\}_{t=0}^{\infty}τ:={(st​,at​,rt​)}t=0∞​,上下文 Font metrics not found for font: . 是在每一集开始时由环境随机生成的。在这里,每个

