【论文阅读】Generalization in Reinforcement Learning
【论文阅读】Generalization in Reinforcement Learning
原文为 Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability,是 2022 年 CMU 发表的综述文章。
本笔记只关注该文中的第四部分,即 强化学习中的泛化性。
1 概要
强化学习中的泛化性侧重于设计算法,以产生能够转移或适应各种环境的策略,而不对训练环境进行过拟合。这种能力对于强化学习智能体的实际部署至关重要,因为 测试时的环境通常与训练环境不同,或者在本质上是动态的。本文首先对泛化性的强化学习进行定义,随后介绍评估变化的两个维度,最后讨论现有增强强化学习泛化性的方法。
2 可泛化强化学习定义
为了在一个统一的框架中讨论泛化性,我们需要首先形式化一个环境集合的概念。我们在这里采用的形式化是 上下文马尔可夫决策过程 (Contextual Markov Decision Process),是 Hallak 等人在研究中最早提出,在近期的一篇 survey 中也使用了该定义。上下文马尔可夫决策过程(MDP)将标准的单任务 MDP 扩展到多任务设置。
Assaf Hallak, Dotan Di Castro, and Shie Mannor. 2015. Contextual markov decision processes. arXiv preprint arXiv:1502.02259 (2015).
在本文中,我们考虑 discounted infinite-horizon CMDPs,表示为一个元组 M=(S,Z,A,R,P,p0,ρ,γ)M=\left(\mathcal{S}, \boldsymbol{Z}, \mathcal{A}, R, P, p_0, \rho, \gamma\right)M=(S,Z,A,R,P,p0,ρ,γ)。其中,S\mathcal{S}S 为状态空间,Z\boldsymbol{Z}Z 为上下文空间,A\mathcal{A}A 为动作空间,R:S×A×Z↦RR: \mathcal{S} \times \mathcal{A} \times \mathcal{Z} \mapsto \mathbb{R}R:S×A×Z↦R 为上下文相关的奖励函数,P:S×A×Z↦Δ(S)P: \mathcal{S} \times \mathcal{A} \times \mathbb{Z} \mapsto \Delta(\mathcal{S})P:S×A×Z↦Δ(S) 为上下文相关的状态转移函数,p0:Z↦Δ(S)p_0: \mathcal{Z} \mapsto \Delta(\mathcal{S})p0:Z↦Δ(S) 为上下文相关的初始状态分布,ρ∈Δ(Z)\rho \in \Delta(\mathbb{Z})ρ∈Δ(Z) 为上下文分布,γ∈(0,1)\gamma \in (0,1 )γ∈(0,1) 为折扣因子。需要注意的是,在非平稳环境分布的情况下,Font metrics not found for font: . 可能是一个时间因变量。
为了在上下文 MDPs 中采样一个轨迹 τ:={(st,at,rt)}t=0∞\tau:=\left\{\left(s_t, a_t, r_t\right)\right\}_{t=0}^{\infty}τ:={(st,at,rt)}t=0∞,上下文 Font metrics not found for font: . 是在每一集开始时由环境随机生成的。在这里,每个
【论文阅读】Generalization in Reinforcement Learning相关推荐
- 论文阅读笔记:SCAN: Learning to Classify Images without Labels
论文阅读笔记:SCAN: Learning to Classify Images without Labels 摘要 简介和相关工作 方法 表征学习 语义聚类损失 2.3 通过自标记进行微调 3 实验 ...
- 论文解析:Deep Reinforcement Learning for List-wise Recommendations
论文解析:Deep Reinforcement Learning for List-wise Recommendations 简介 京东在强化学习推荐系统方面的工作 背景 推荐系统存在的问题: 无法通 ...
- Zero-shot Learning零样本学习 论文阅读(一)——Learning to detect unseen object classes by between-class attribute
Zero-shot Learning零样本学习 论文阅读(一)--Learning to detect unseen object classes by between-class attribute ...
- 年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity
论文阅读--Deep Label Distribution Learning With Label Ambiguity 版权声明:本文为博主原创文章,未经博主允许不得转载.https://blog.c ...
- 论文阅读|node2vec: Scalable Feature Learning for Networks
论文阅读|node2vec: Scalable Feature Learning for Networks 文章目录 论文阅读|node2vec: Scalable Feature Learning ...
- 论文记载: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks
强化学习论文记载 论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯 ...
- 论文学习:Decoupling Value and Policy for Generalization in Reinforcement Learning(强化学习中泛化的解耦价值和策略)
摘要: Standard deep reinforcement learning algorithms use a shared representation for the policy and v ...
- 论文代码解读 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation
论文解读 论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation_UQI-LIUWJ的博客-CS ...
- 【论文笔记】Adaptive Reinforcement Learning Neural Network Control for Uncertain Nonlinear System
Adaptive Reinforcement Learning Neural Network Control for Uncertain Nonlinear System With Input Sat ...
- 【论文阅读】Neural Transformation Learning for Deep Anomaly Detection Beyond Images 异常检测,可学习变换,时间序列,表格数据
本博客系博主阅读论文之后根据自己理解所写,非逐字逐句翻译,预知详情,请参阅论文原文. 论文标题:Neural Transformation Learning for Deep Anomaly Dete ...
最新文章
- C#如何判断线程池中所有的线程是否已经完成(转)
- Spring 使用注解方式进行事务管理
- 大推荐——家庭书架·成功读库系列
- c语言各类随机函数,怎样让c语言中的随机函数真正随机?
- linux之通过htop操作进程使用总结
- 【C语言】第六章 集合数据与数组 题解
- MySQL懒查询_mysql 联查的基本命令
- 林正刚:写一个大大的“诚”字
- python-PyQuery详解
- 第6篇 Java中的接口与抽象类
- Emacs进阶之按键重映射
- [Unity基础]01Unity基本操作
- 【游戏开发】卡牌游戏战斗系统设计与实现
- 不再谷满谷,坑满坑,看苏宁库存架构转变
- 漫漫长路——微信十年历程
- 搭配emuc-b202 can卡通讯时,时断时续
- Redis学习之srem命令
- i2c-test使用说明
- 2006年100首好歌
- post请求将formdata 转json