【论文阅读】Generalization in Reinforcement Learning

原文为 Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability,是 2022 年 CMU 发表的综述文章。

本笔记只关注该文中的第四部分,即 强化学习中的泛化性

1 概要

强化学习中的泛化性侧重于设计算法,以产生能够转移或适应各种环境的策略,而不对训练环境进行过拟合。这种能力对于强化学习智能体的实际部署至关重要,因为 测试时的环境通常与训练环境不同,或者在本质上是动态的。本文首先对泛化性的强化学习进行定义,随后介绍评估变化的两个维度,最后讨论现有增强强化学习泛化性的方法。

2 可泛化强化学习定义

为了在一个统一的框架中讨论泛化性,我们需要首先形式化一个环境集合的概念。我们在这里采用的形式化是 上下文马尔可夫决策过程 (Contextual Markov Decision Process),是 Hallak 等人在研究中最早提出,在近期的一篇 survey 中也使用了该定义。上下文马尔可夫决策过程(MDP)将标准的单任务 MDP 扩展到多任务设置。

Assaf Hallak, Dotan Di Castro, and Shie Mannor. 2015. Contextual markov decision processes. arXiv preprint arXiv:1502.02259 (2015).

在本文中,我们考虑 discounted infinite-horizon CMDPs,表示为一个元组 M=(S,Z,A,R,P,p0,ρ,γ)M=\left(\mathcal{S}, \boldsymbol{Z}, \mathcal{A}, R, P, p_0, \rho, \gamma\right)M=(S,Z,A,R,P,p0​,ρ,γ)。其中,S\mathcal{S}S 为状态空间,Z\boldsymbol{Z}Z 为上下文空间,A\mathcal{A}A 为动作空间,R:S×A×Z↦RR: \mathcal{S} \times \mathcal{A} \times \mathcal{Z} \mapsto \mathbb{R}R:S×A×Z↦R 为上下文相关的奖励函数,P:S×A×Z↦Δ(S)P: \mathcal{S} \times \mathcal{A} \times \mathbb{Z} \mapsto \Delta(\mathcal{S})P:S×A×Z↦Δ(S) 为上下文相关的状态转移函数,p0:Z↦Δ(S)p_0: \mathcal{Z} \mapsto \Delta(\mathcal{S})p0​:Z↦Δ(S) 为上下文相关的初始状态分布,ρ∈Δ(Z)\rho \in \Delta(\mathbb{Z})ρ∈Δ(Z) 为上下文分布,γ∈(0,1)\gamma \in (0,1 )γ∈(0,1) 为折扣因子。需要注意的是,在非平稳环境分布的情况下,Font metrics not found for font: . 可能是一个时间因变量

为了在上下文 MDPs 中采样一个轨迹 τ:={(st,at,rt)}t=0∞\tau:=\left\{\left(s_t, a_t, r_t\right)\right\}_{t=0}^{\infty}τ:={(st​,at​,rt​)}t=0∞​,上下文 Font metrics not found for font: . 是在每一集开始时由环境随机生成的。在这里,每个

【论文阅读】Generalization in Reinforcement Learning相关推荐

  1. 论文阅读笔记:SCAN: Learning to Classify Images without Labels

    论文阅读笔记:SCAN: Learning to Classify Images without Labels 摘要 简介和相关工作 方法 表征学习 语义聚类损失 2.3 通过自标记进行微调 3 实验 ...

  2. 论文解析:Deep Reinforcement Learning for List-wise Recommendations

    论文解析:Deep Reinforcement Learning for List-wise Recommendations 简介 京东在强化学习推荐系统方面的工作 背景 推荐系统存在的问题: 无法通 ...

  3. Zero-shot Learning零样本学习 论文阅读(一)——Learning to detect unseen object classes by between-class attribute

    Zero-shot Learning零样本学习 论文阅读(一)--Learning to detect unseen object classes by between-class attribute ...

  4. 年龄论文阅读——Deep Label Distribution Learning With Label Ambiguity

    论文阅读--Deep Label Distribution Learning With Label Ambiguity 版权声明:本文为博主原创文章,未经博主允许不得转载.https://blog.c ...

  5. 论文阅读|node2vec: Scalable Feature Learning for Networks

    论文阅读|node2vec: Scalable Feature Learning for Networks 文章目录 论文阅读|node2vec: Scalable Feature Learning ...

  6. 论文记载: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks

    强化学习论文记载 论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯 ...

  7. 论文学习:Decoupling Value and Policy for Generalization in Reinforcement Learning(强化学习中泛化的解耦价值和策略)

    摘要: Standard deep reinforcement learning algorithms use a shared representation for the policy and v ...

  8. 论文代码解读 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation

    论文解读 论文笔记 Hierarchical Reinforcement Learning for Scarce Medical Resource Allocation_UQI-LIUWJ的博客-CS ...

  9. 【论文笔记】Adaptive Reinforcement Learning Neural Network Control for Uncertain Nonlinear System

    Adaptive Reinforcement Learning Neural Network Control for Uncertain Nonlinear System With Input Sat ...

  10. 【论文阅读】Neural Transformation Learning for Deep Anomaly Detection Beyond Images 异常检测,可学习变换,时间序列,表格数据

    本博客系博主阅读论文之后根据自己理解所写,非逐字逐句翻译,预知详情,请参阅论文原文. 论文标题:Neural Transformation Learning for Deep Anomaly Dete ...

最新文章

  1. C#如何判断线程池中所有的线程是否已经完成(转)
  2. Spring 使用注解方式进行事务管理
  3. 大推荐——家庭书架·成功读库系列
  4. c语言各类随机函数,怎样让c语言中的随机函数真正随机?
  5. linux之通过htop操作进程使用总结
  6. 【C语言】第六章 集合数据与数组 题解
  7. MySQL懒查询_mysql 联查的基本命令
  8. 林正刚:写一个大大的“诚”字
  9. python-PyQuery详解
  10. 第6篇 Java中的接口与抽象类
  11. Emacs进阶之按键重映射
  12. [Unity基础]01Unity基本操作
  13. 【游戏开发】卡牌游戏战斗系统设计与实现
  14. 不再谷满谷,坑满坑,看苏宁库存架构转变
  15. 漫漫长路——微信十年历程
  16. 搭配emuc-b202 can卡通讯时,时断时续
  17. Redis学习之srem命令
  18. i2c-test使用说明
  19. 2006年100首好歌
  20. post请求将formdata 转json

热门文章

  1. 微信小程序比较用户微信客户端版本号
  2. trajan算法求lca 超级详细配图讲解
  3. struts2和hibernate的简单新闻发布系统_点赞!北斗卫星导航系统28nm工艺芯片已量产,全球范围定位精度优于10米...
  4. Vscode 配置cmake
  5. html标签嵌套规则
  6. 谈谈我对证券公司一些部门的理解(前、中、后台)
  7. linux工作札记 - 查看发行版本命令
  8. 如何在BIOS中设置RAID?
  9. 素描正确握笔的姿势是怎么样的?
  10. 以“数”防疫,快速实施,两周落地,天翎疫情管理系统