No.14

智源社区

强化学习组

 习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一,它与元学习相结合的研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第14期《强化学习周刊》。本期周刊整理了近期元强化学习领域相关的最新论文推荐、综述等,以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:(李明,刘青、赟瑾)

论文推荐

元强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步。元强化学习在总结多次学习策略的情况下,以不断改进学习算法。近年来,该方向已经取得了一系列瞩目的进展,比如策略自适应、机器人导航、加工参数优化等。故元强化学习领域具有较大的潜在研究优势。

元强化学习的应用越来越多,其在策略自适应、非平稳性等方面都有了深入的研究。本次推荐了8篇元强化学习领域的相关论文,主要涉及离线元强化学习、任务非平稳性元强化学习、基于元学习不确定感知奖励的强化学习、多机器人自主导航、路由优化、元策略梯度算法等。

标题:Offline Meta-Reinforcement Learning with Online Self-Supervision(具有在线自我监督的离线元强化学习)了解详情

简介:元强化学习(Meta-reinforcement learning,RL)可用于训练快速适应新任务的策略,其数据量比标准 RL 少几个数量级,但这种快速适应的代价往往是在元训练期间大大增加奖励监督的数量。离线元强化学习消除了持续提供奖励监督的需要,因为在生成离线数据集时,奖励只提供一次。除了离线 RL 的挑战之外,元RL中还存在一个独特的分布变化:代理学习探索策略,可以收集学习新任务所需的经验,还学习适应策略,当呈现出数据集中的轨迹时效果很好。但适应策略并不适应所学探索策略所收集的数据分布。与在线环境不同,适应和探索策略不能有效地相互适应,导致性能不佳。故本文中提出了一种混合离线元强化学习算法,它使用带有奖励的离线数据对自适应策略进行元训练,然后收集额外的无监督在线数据,没有任何真实奖励标签,以解决这个分布偏移问题。该方法使用离线数据来学习奖励函数的分布,然后对额外的在线数据进行采样以自我监督奖励标签。通过消除为在线体验提供奖励标签的需要,其可以更实用地用于手动提供奖励监督的环境中。本文将该方法与先前的离线meta-RL在模拟机器人运动和操作任务上的工作进行了比较,发现使用额外的数据和自生成的奖励可以显著提高agent的泛化能力。

论文地址:https://arxiv.org/pdf/2107.03974.pdf

标题:Meta-Reinforcement Learning by Tracking Task Non-stationarity(基于跟踪任务非平稳性的元强化学习)了解详情

简介:现实世界中的许多领域都受到结构化的非平稳性的影响,这种非平稳性会影响代理的目标和环境动态。元强化学习(Meta-reinforcement learning,RL)在训练快速适应相关任务的智能体方面取得了成功。然而,现有的非平稳域meta-RL算法要么对任务生成过程进行强假设,要么需要在训练时对其进行采样。本文提出了一种新的算法(TRIO),通过显式跟踪任务随时间的演化来优化未来。在训练时,TRIO学习一个变分模块,从经验样本中快速识别出潜在参数。本模块与考虑任务不确定性的最优探索策略一起学习。在测试时,TRIO通过元学习策略在线跟踪潜在参数的变化,从而减少对未来任务的不确定性,获得快速适应。与现有的大多数方法不同,TRIO方法不假设马尔可夫任务演化过程,不需要训练时的非平稳性信息,并且能够捕捉环境中发生的复杂变化。最后,本文在不同的模拟问题上评估了该算法,并表明它优于竞争基准。

论文地址:https://arxiv.org/pdf/2105.08834.pdf

标题:MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning(基于元学习不确定性感知奖励结果驱动的强化学习)了解详情

简介:强化学习中的探索是一个具有挑战性的问题:在最坏的情况下,代理必须搜索可能隐藏在状态空间中任何位置的奖励状态。能否定义一类更易于处理的 RL 问题,为代理提供成功结果的示例?在此类问题设置中,通过训练分类器将状态分类为成功与否,可以自动获得奖励函数。如果训练得当,这样的分类器不仅可以提供奖励功能,而且实际上可以提供一个形状良好的客观景观,既可以促进向良好状态的进展,又可以提供校准的探索奖励。本文展示了不确定性感知分类器可以通过鼓励探索和提供对积极结果的直接指导来解决具有挑战性的强化学习问题。其提出了一种基于计算归一化最大似然 (NML) 分布的摊销技术来获得这些校准的、具有不确定性感知分类器的新机制,还展示了如何通过利用元学习工具使这些技术在计算上易于处理。研究结果表明,由此产生的算法与基于计数的探索方法和用于学习奖励函数的先验算法具有许多有趣的联系,同时还为实现目标提供了更有效的指导。本文最终证明了提出的算法解决了许多具有挑战性的导航和机器人操作任务,这些任务对于以前的方法来说是困难或不可能解决的。

论文地址:https://arxiv.org/pdf/2107.07184.pdf

标题:A multi-robot path-planning algorithm for autonomous navigation using meta-reinforcement learning based on transfer learning(基于迁移学习的元强化学习自主导航多机器人路径规划算法)了解详情

简介:多机器人系统在复杂环境中的适应性是一个热门话题。针对复杂环境中的静态和动态障碍,本文提出了动态近端元策略优化与协方差矩阵自适应进化策略(dynamic-PMPO-CMA),以避开障碍并实现自主导航。首先,文章在原始近端策略优化(PPO)的基础上提出动态近端策略优化协方差矩阵自适应进化策略(dynamic-PPO-CMA),以获得有效的避障策略。仿真结果表明,所提出的动态PPO-CMA可以避开障碍物并成功到达指定的目标位置。其次,为了提高多机器人系统在不同环境下的适应性,文章将元学习与动态 PPO-CMA 相结合,形成动态 PMPO-CMA 算法。在训练过程中,使用提出的 dynamic-PMPO-CMA 来训练机器人学习多任务策略。最后,在测试过程中,将迁移学习引入到所提出的动态-PMPO-CMA 算法中。元策略的训练参数被转移到新环境并被视为初始参数。与PPO、PMPO和动态PPO-CMA算法相比,该算法具有更快的收敛速度和更快的到达目的地速度。

论文地址:https://www.sciencedirect.com/science/article/pii/S1568494621005263

标题:Multiagent Meta-Reinforcement Learning for Adaptive Multipath Routing Optimization(自适应多路径路由优化的多智能体元强化学习)了解详情

简介:文章通过多智能体强化学习(RL)研究了分组网络的路由问题,这在分布式和自治网络系统中是一个非常具有挑战性的主题。具体而言,将路由问题建模为网络化多智能体部分可观察的马尔可夫决策过程(MDP)。由于网络节点的MDP不仅受其邻近节点的策略的影响,而且还受到网络流量需求的影响,因此它成为一个多任务学习问题。受到最近RL和元强化学习成功的启发,我们提出了两种新颖的无模型多智能体RL算法,即多智能体近端策略优化(MAPPO)和多智能体近端策略优化(meta-MAPPO),以在固定和时变情况下优化网络性能。基于MAPPO训练中勘探与开发的可分离性,设计了一种可行的分布式实施框架。与现有的路由优化策略相比,仿真结果证明了所提出算法的出色性能。

论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9410247

标题:Meta-Reinforcement Learning of Machining Parameters for Energy-Efficient Process Control of Flexible Turning Operations(加工参数的元强化学习,用于灵活车削操作的节能过程控制)了解详情

简介:节能加工已成为节约能源,减少排放和节省制造成本的必要条件。最佳的加工参数决定被认为是实现节能车削的有效方法。对于柔性加工,最重要的是确定适用于各种机器,工件和工具的最佳参数。本文通过对加工参数进行综合元强化学习(MRL)来应对这一挑战,以探索优化模型的共性,并利用该知识快速响应新的加工任务。具体来说,首先将优化问题表述为有限马尔可夫决策过程(MDP)。然后,使用actor-critic(AC)框架实现连续的参数优化。在该框架的基础上,执行元策略培训以提高优化程序的泛化能力。通过案例研究并进行比较分析,阐明了所提出方法的重要性。考虑在灵活的车削操作中遇到的能源敏感的加工参数优化的实际应用问题,即设计一种参数优化方法,该方法可以推广到各种加工任务,其中多个目标和约束随加工配置。本文提出了一种新颖的基于元强化学习(MRL)的优化方法,通过训练具有多个加工任务的优化器来提高泛化能力,这是用于节能柔性加工的第一个基于MRL的自适应参数决策方法。

论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8770304

标题:A Policy Gradient Algorithm for Learning to Learn in Multiagent Reinforcement Learning (多智能体强化学习中的元学习策略梯度算法)了解详情

简介:如何在一个有着数个同时学习的智能体的共享环境中学习到有效行为一直是MARL的痛点问题,并且智能体的持续学习会导致经验的非静态分布。本文通过建模与主智能体和环境中其他智能体的非静态策略动态都相关的策略更新量,提出了一种可直接解释MARL环境中策略的非静态动态量的元多智能体策略梯度方法。本文的方法包含了相关方法中前序状态的所有关键特性。通过在多个MARL基准任务上的实验,作者证明了此方法可在非中心、协作式、竞争式的环境场景中都具有高效性能。

论文地址:https://arxiv.org/abs/2011.00382

标题:Credit Assignment with Meta-Policy Gradient for Multi-Agent Reinforcement Learning(对于多智能体强化学习的元策略梯度信用分配算法)了解详情

简介:非中心式执行(CTDE)&中心式训练是MARL环境中的一种,而回报分解是其中的一个关键问题。这种环境中的全局信息包含了所有智能体的状态与相关环境,以将Q值分解为单独的信用值。本文提出了一种可高度利用上述全局信息的基于元学习的、与元策略梯度相结合的混合网络,以获得具有更加精细的回报分解能力的全局架构。训练过程中,智能体会在全局架构下通过几个Q值更新来进行“练习行进”,“练习行进”之前和之后的回报差异对于全局架构的最终训练具有指导作用,可使得智能体的探索行为更好。并且,元学习方法使得本文算法可完全基于自我改进,不需要任何全局先验知识。

论文地址:https://arxiv.org/abs/2102.12957

综述

神经网络中的元学习:综述了解详情

简介:近年来,元学习或学习领域的兴趣急剧上升。与传统的人工智能方法不同,元学习的目的是在经历多次学习的情况下,元学习旨在改进学习算法本身。这种范式为解决深度学习的许多传统挑战提供了机会,包括数据和计算瓶颈以及泛化。这项调查描述了当代元学习的格局。本文首先讨论了元学习的定义,并将其定位于相关领域,如迁移学习和超参数优化。然后本文提出了一个新的分类法,以提供一个更全面的细分空间的元学习方法。并且综述了元学习的应用前景和成功案例,如少镜头学习和强化学习。最后,本文讨论了元学习突出的挑战和未来研究的前景。

元学习研究进展:综述了解详情

简介:本文综述了元强化学习在图像分类、自然语言处理和机器人技术中的应用。与深度学习不同,元学习使用很少的镜头数据集,并关注进一步提高模型泛化,以获得更高的预测精度。深度学习关注样本预测,元学习关注样本外预测的模型适应。元学习可以不断地进行自我完善,实现高度自主的人工智能。元学习可以作为对原有深度学习模型的补充。元学习寻求机器学习模型适应与训练任务截然不同的看不见的任务。元学习是智能体与环境协同进化的一种学习方法,它可以解决训练过程中无法解决的复杂任务。文章将元学习模型归纳为三类:黑盒适应、基于相似度的方法和元学习过程。最近的应用集中在元学习与贝叶斯深度学习和强化学习相结合,以提供可行的综合问题解决方案。

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

《强化学习周刊》第14期:元强化学习的最新研究与应用相关推荐

  1. 【组队学习】【34期】组队学习内容详情

    第34期 Datawhale 组队学习活动马上就要开始啦! 02月09日(星期三),宣发,2月组队学习计划!. 02月12日(星期六),进入学习群.开营仪式. 本次组队学习的内容为: 阿里云天池在线编 ...

  2. 【组队学习】【31期】组队学习内容详情

    第31期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: IOS开发 基于Python的办公自动化 吃瓜教程--西瓜书+南瓜书 LeetCode 刷题 李宏毅机器学习(含深度 ...

  3. 【组队学习】【35期】组队学习内容详情

    第35期 Datawhale 组队学习活动马上就要开始啦! 03月09日(星期三),宣发,3月组队学习计划!. 03月12日(星期六),进入学习群.开营仪式. 本次组队学习的内容为: 吃瓜教程--西瓜 ...

  4. 【组队学习】【33期】组队学习内容详情

    第33期 Datawhale 组队学习活动马上就要开始啦! 01月05日(星期三),宣发,寒假组队学习计划!. 01月08日(星期六),进入学习群.开营仪式. 本次组队学习的内容为: 吃瓜教程--西瓜 ...

  5. 【组队学习】【36期】组队学习内容详情

    第36期 Datawhale 组队学习活动马上就要开始啦(04月09日开营)! 本次组队学习的内容为: 交大ACM算法课(C++) 青少年编程:Python一级 青少年编程:Scratch四级 大家可 ...

  6. 【组队学习】【27期】集成学习

    集成学习 论坛版块: http://datawhale.club/c/32-category/32 开源内容: https://github.com/datawhalechina/ensemble-l ...

  7. 【组队学习】【24期】集成学习(中)

    集成学习(中) 开源内容: https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearni ...

  8. 一文详解图对比学习(GNN+CL)的一般流程和最新研究趋势

    ©作者 | 侯宇蓬 单位 | 中国人民大学 文章来源 | RUC AI Box 随着对比学习(Contrastive Learning)在 CV.NLP 等领域大放异彩,其研究热度近年来也逐步走高.在 ...

  9. 用自然语言指导强化学习agent打游戏,这是斯坦福的最新研究

    本文来自AI新媒体量子位(QbitAI) 斯坦福大学计算机科学系的三位学者,在近日发表的论文中,介绍了一个打Atari游戏的深度强化学习agent,不同之处是,这个agent听从自然语言的指导. 人类 ...

  10. 阿里云前端周刊 - 第 14 期

    摘要: ## 推荐 ### 1. JavaScript 在嵌入式设备与物联网中的应用现状 https://auth0.com/blog/javascript-for-microcontrollers- ...

最新文章

  1. PL/SQL编程:loop-if-exit-end循环算5的阶乘
  2. 区块链BaaS云服务(25)边界智能 IRITA服务
  3. abap dec和curr的区别
  4. 十、给小白看的第三篇Python基础教程
  5. linux uboot nfs启动,uboot中利用TFTP和NFS加载镜像到ram运行
  6. 彻底弄懂css3的flex弹性盒模型
  7. java oracle 视图不存在_Weblogic 10.3,JDBC,Oracle,SQL - 表或视图不存在
  8. 论文阅读:超高分辨率图像中快速、准确的条码检测
  9. 如何获取独立项目开发经验
  10. 用户生命周期常用指标_生命周期管理工具如何使用指标
  11. oracle数据库建立主键约束,数据库-Oracle主键约束和唯一索引的黑与白
  12. MVC项目实践,在三层架构下实现SportsStore-06,实现购物车
  13. IIS中启用ASP并连接Access数据库的解决办法
  14. 虚拟机是怎么实现的?(转)
  15. DoIP(一)——基础概念
  16. 超市库存java管理系统_Java案例:超市库存管理系统
  17. 今日头条含室内设计用户粉丝数量统计(2019.12.24)
  18. Revealing Module(揭示模块)模式
  19. 轻巧易用 迅捷PDF转换成Word转换器效果点评
  20. 嵌入式 Linux平台 C程序 交叉编译技术

热门文章

  1. linux自动内容归类,linux定时任务
  2. biopython安装_BioPython的安装和使用
  3. java selenium iframe_如何使用java在Selenium WebDriver中处理iframe
  4. python公共基础知识整理_python基础知识整理——字符串
  5. html ajax put请求,javascript – PUT Ajax请求
  6. android ota 升级脚本,Android OTA升級包制作腳本詳解(五,升級腳本updater-script的執行1)...
  7. redis命令_Redis 命令执行过程(下)
  8. Android端访问服务器核心代码
  9. $.when().done().then()的用法
  10. PostgreSQL 数据库多列复合索引的字段顺序选择原理