题目:基于子目标课程的自主强化学习
Abstract 无
1 Introduction
强化学习为交互式智能体自主获取复杂行为提供了很好的契机,但当前强化学习算法的自主性仍面临挑战,尤其是在机器人领域:假设每次试验都从环境中特定状态分布的初始状态开始。
传统地,强化学习算法假设能够任意采样并重置为从该分布中提取的状态,这使得此类算法对于大多数实际设置都不切实际。
许多以前在真实机器人上进行强化学习的例子都依赖于机器人设置和人类监督的仪器,以使环境重置为该初始状态分布。额外的环境检测和创建脚本化行为都需要大量的时间,并且通常需要额外的资源,脚本重置行为在应用程序中范围很窄,通常只针对单个任务或环境设计,其脆弱性要求人类监督学习过程。
消除或最小化对重置机制的算法依赖可以实现更多的自主学习,反过来,它将允许代理扩展到更广泛和更难的任务集。现在已有算法最小化依赖。
总结工作:我们提供了一个正式的问题定义,该定义封装并阐明了这些先前方法所解决的一般设置,我们在这项工作中称之为持续强化学习persistent reinforcement learning。
在问题设置中,我们将训练与测试时间设置分开,以便测试时间目标与传统RL设置相匹配,但训练时间设置通过提供低频周期性重置来限制对初始状态分布的访问。 在这种设置中,agent在人类干预最少的情况下持续学习并与环境交互。在这种设置下,传统RL无法完全解决任务。这是因为这些方法依赖于任意采样初始状态分布的能力。这个问题的一个解决方法是:另外学习一个重置策略,该策略恢复初始状态分布,允许代理在练习任务和练习反向之间反复交替。然而,从探索的角度来看,直接从初始状态分布解决任务不仅很困难,而且(试图)反复返回初始状态可能效率低下。在本文中,我们建议让代理重置自己,并尝试从不同的初始状态沿路径到目标状态执行任务。特别是,代理可以学习从更接近目标的更容易的开始状态解决任务,并在此基础上进行引导,以从距离目标更远的更难的状态解决任务。
本文的主要贡献:
1.V alue-accelerated Persistent Reinforcement Learning (V aPRL),一种以目标为条件的RL方法,为agent创建一个自适应的起始状态课程,以有效地提高测试时性能,同时大幅减少对外部重置机制的依赖。
2.还提供了持久RL问题设置的正式描述,以概念化我们的工作和先前的方法。
persistent R &&&& persistent RL:

2 Related Work
Robot learning:之前使用强化学习的工作依赖于手动设计控制器或人工监督,以实现当前算法要求的 episodic environmental resets。这可以通过人工协调重置,这需要在机器人训练中进行高频率的人工干预,在某些情况下,可以执行脚本行为来重置环境。
//什么是脚本化行为?时间密集型?
Reset-free reinforcement learning自由重置强化学习:无
Curriculum generation for reinforcement learning强化学习课程生成:提出新的课程生成方法,为持续强化学习设计该方法,而不需要像以前的工作那样将环境重置为任意状态。
Persistent vs. lifelong reinforcement learning持续强化学习与终身强化学习:持续RL和终身学习框架都超越了the episodic setting for training,促进了强化学习的更多自主性。
持续强化学习区分 training 和 evaluation 的目标, evaluation objective和episodic reinforcement learning的相匹配。While the assumptions of episodic reinforcement learning are hard to realize for real-world training, real-world deployment of policies is often episodic. 这通常适用于机器人技术,在机器人技术中,分配的任务预计是重复的,但很难在培训环境中协调重置。这使得持续强化学习成为机器人学习任务建模的合适框架。
3 Persistent Reinforcement Learning 持续强化学习
本节将持续强化学习形式化为一个优化问题,关键在于将评估和训练目标分开,用训练目标使我们获得行为(同时认识到频繁调用重置机制是站不住脚的),评估目标衡量期望的这些行为的性能。我们首先提供一个通用的公式,然后将持续强化学习调整为目标条件设置。
Definition:定义一个MDP,目标时找使最大的策略,
however,效果不好,又定义了一个MDP训练环境,
前后向控制器:在解决与r对应的任务和恢复初始状态分布ρ之间交替进行,该方法对应的奖励函数:
,这里在步骤的任务奖励r和rp之间交替,这种代理奖励功能允许代理重复练习任务。对于一般的依赖时间的替代奖励函数。
持续强化学习的目标是在的约束下最大化,目标鼓励构建一个能够恢复评估环境最佳策略的训练环境。在这项工作中,我们将把自己限制在可逆环境中,并将对具有不可逆状态的环境的持续RL的全面讨论推迟到将来的工作中。
Goal-conditioned persistent reinforcement learning. 目标制约的持续强化学习
目标制约的MDP:,加入了
评价目标:
训练目标:
4 Value-Accelerated Persistent Reinforcement Learning价值加速的
为了解决目标制约下持续强化学习,提出了我们的算法VaPRL,关键思想是:The key idea in VaPRL is that the agent does not need to return to the initial state distribution between every attempt at the task.and can instead choose to practice from states that facilitate efficient learning.
智能体不必要在任务中的每次尝试中返回到初始状态分布,相反地,可以选择在有利于学习的状态进行训练。
4.1 Generating a Curriculum Using the Value Function 使用价值函数生成课程
如何实现目标g:从状态s开始学习如何到达目标g更容易接近于g,尤其是当奖励很少时。知道如何从一个状态s到达目标g,反过来,可以更容易地从s附近的状态到达g,使我们在此基础上逐步远离g。在一个更容易的问题成功解决一个更难的问题的基础上,引出课程学习:旨在定义一门越来越难的课程,一遍策略最终能从初始状态分布ρ开始到达目标g。我们的方案是对任务目标g进行抽样,以子目标运行策略,再以任务目标运行策略。主要问题:如何选择子目标来尝试目标? 设立子目标如下:

值函数的意义:到达g的概率。
通过对值函数的理解,回看上述方程,子目标选择最接近初始状态分布的状态
/对于该初始状态分布,值函数Vπ(s,g)穿过阈值?。这鼓励课程在培训的早期阶段更接近目标状态,因为该政策在实现目标方面效果不佳。随着政策的改进,更多的州满足了约束条件,课程逐渐接近初始州分布。最终,课程收敛到初始状态分布,从而形成一个政策π,该政策π将优化MDP ME中的评估目标。/
得出目标生成器:
Computing the Curriculum Generator C(g).
状态空间最小化:我们使用策略π在训练期间收集的数据,并通过枚举将随机抽样子集上的C(g)最小化。
Measuring the Initial State Distribution Distance.测量初始状态分布距离
4.2 Relabeling Goals
目标重新标记vsHER
Algorithm Summary.算法摘要
不想看了不想看了

Autonomous Reinforcement Learning via Subgoal Curricula 论文笔记相关推荐

  1. 《Reinforcement Learning: An Introduction》 读书笔记 - 目录

    这一系列笔记是基于Richard S. Sutton的<Reinforcement Learning: An Introduction>第二版 因为这本书在出版之前,作者就在官网上发布了几 ...

  2. Federated Learning with Non-IID Data 论文笔记

      本文提出联邦学习中的由于Non-IID数据分布而精度降低是因为权重分散(weight divergence),而权重散度可以用搬土距离(EMD)量化,最后提出了一种策略:通过创建一个在所有边缘设备 ...

  3. Few-Shot Representation Learning for Out-Of-Vocabulary Words 论文笔记

    <Few-Shot Representation Learning for Out-Of-Vocabulary Words> 这篇文章是发表在2019年NAACL上的,主要是针对out o ...

  4. Visual Tracking with Online Multiple Instance Learning (MIL)目标跟踪论文笔记

    1. 论文信息 论文标题 :Visual Tracking with Online Multiple Instance Learning 论文作者: Boris Babenko,University ...

  5. 《REINFORCEMENT LEARNING (DQN) TUTORIAL》的学习笔记

    1 前言 此博文是南溪学习<REINFORCEMENT LEARNING (DQN) TUTORIAL>的笔记~ 2 代码学习 2.1 Hyperparameters and utilit ...

  6. 【论文笔记09】Differentially Private Hypothesis Transfer Learning 差分隐私迁移学习模型, ECMLPKDD 2018

    目录导引 系列传送 Differentially Private Hypothesis Transfer Learning 1 Abstract 2 Bg & Rw 3 Setting &am ...

  7. 分层强化学习综述:Hierarchical reinforcement learning: A comprehensive survey

    论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...

  8. 深度强化学习(Deep Reinforcement Learning)的资源

    深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00|  分类: Torch |  标签:深度强化学习   |举报 |字号 订阅 Goo ...

  9. DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

    CONTINOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文地址 https://arxiv.org/abs/1509.02971 个人翻译,并不权威 T ...

最新文章

  1. Open Street Map维基世界地图初探--概念、开发
  2. C语言两个日期比大小,C语言小程序 如何判断两个日期之差
  3. java web api 版本控制_怎么做 Web API 版本控制?
  4. [ ZJOI 2012 ] 灾难
  5. redmine-1.2.2安装代码评审插件
  6. Java多线程:线程死锁
  7. C语言静态链表常用吗,C语言实现静态链表
  8. C# 模拟Form提交
  9. python win32api键盘_python基于win32api实现键盘输入
  10. 1024 科学计数法(C语言详解)
  11. centos有道linux安装,centos7安装有道词典(不能发音和取词)
  12. python实现视频ai换脸_Python如何实现AI换脸功能 Python实现AI换脸功能代码
  13. js模板引擎Template.js使用详解及免费下载template.js
  14. WCF 项目应用连载[6] - 升级Lig服务 - 设计ILigger 构建一个完善的Lig版本
  15. 【网络】IP地址计算
  16. BeautifulSoup用法详解
  17. STM32--0.96寸OLED显示屏
  18. Python+Vue计算机毕业设计网上书城系统t9avi(源码+程序+LW+部署)
  19. 高清宾利欧陆GT Mac动态壁纸
  20. Syncthing - P2P文件同步工具使用

热门文章

  1. uniapp 点击获取验证码
  2. emacs如何配置彩虹猫模式
  3. VirtualBox 中 Ubuntu 16.04 虚拟机与主机之间复制粘贴文本
  4. Blackberry Windows+ eclipse环境配置及Helloworld
  5. windows 创建虚拟wifi
  6. 独立思考:我对google glass的不同看法
  7. 小吴--毕业设计--锂电池生产环境温湿度信息管理系统
  8. 计算机话筒技术指标,话筒指标与调音台电平
  9. 索爱迷你版 Xperia X10 现身,代号 Robyn
  10. 期货交易的主要特征(期货交易特征五大特征)