综合LSTM、transformer优势,DeepMind强化学习智能体提高数据效率
©作者 | 陈萍、杜伟
来源 | 机器之心
来自 DeepMind 的研究者提出了用于强化学习的 CoBERL 智能体,它结合了新的对比损失以及混合 LSTM-transformer 架构,可以提高处理数据效率。实验表明,CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。
近些年,多智能体强化学习取得了突破性进展,例如 DeepMind 开发的 AlphaStar 在星际争霸 II 中击败了职业星际玩家,超过了 99.8% 的人类玩家;OpenAI Five 在 DOTA2 中多次击败世界冠军队伍,是首个在电子竞技比赛中击败冠军的人工智能系统。然而,许多强化学习(RL)智能体需要大量的实验才能解决任务。
最近,DeepMind 的研究者提出了 CoBERL(Contrastive BERT for RL)智能体,它结合了新的对比损失和混合 LSTM-transformer 架构,以提高处理数据效率。CoBERL 使得从更广泛领域使用像素级信息进行高效、稳健学习成为可能。
具体地,研究者使用双向掩码预测,并且结合最近的对比方法泛化,来学习 RL 中 transformer 更好的表征,而这一过程不需要手动进行数据扩充。实验表明,CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。
论文地址:
https://arxiv.org/pdf/2107.05431.pdf
方法介绍
为了解决深度强化学习中的数据效率问题,研究者对目前的研究提出了两种修改:
首先提出了一种新的表征学习目标,旨在通过增强掩码输入预测中的自注意力一致性来学习更好的表征;
其次提出了一种架构改进,该架构可以结合 LSTM 以及 transformer 的优势。
CoBERL 整体架构图。
表征学习
研究者将 BERT 与对比学习结合起来。基于 BERT 方法,该研究将 transformer 的双向处理机制与掩码预测设置相结合。双向处理机制一方面允许智能体根据时间环境来了解特定状态的上下文。另一方面,位于掩码位置处的预测输入通过降低预测后续时间步长的概率来缓解相关输入问题。
研究者还使用了对比学习,虽然许多对比损失(例如 SimCLR)依赖于数据扩充来创建可以进行比较的数据分组,但该研究不需要利用这些手工数据扩充来构造代理任务。
相反地,该研究依赖输入数据的顺序性质来创建对比学习所需的相似和不同点的必要分组,不需要仅依赖图像观测的数据增强(如裁剪和像素变化)。对于对比损失,研究者使用了 RELIC,该损失同样适应于时间域;他们通过对齐 GTrXL transformer 输入和输出创建数据分组,并且使用 RELIC 作为 KL 正则化改进所用方法的性能,例如 SimCLR 在图像分类领域以及 Atari 在 RL 领域性能都得到提高。
CoBERL 架构
在自然语言处理和计算机视觉任务当中,transformer 在连接长范围数据依赖性方面非常有效,但在 RL 设置中,transformer 难以训练并且容易过拟合。相反,LSTM 在 RL 中已经被证明非常有用。尽管 LSTM 不能很好地捕获长范围的依赖关系,但却可以高效地捕获短范围的依赖关系。
该研究提出了一个简单但强大的架构改变:在 GTrXL 顶部添加了一个 LSTM 层,同时在 LSTM 和 GTrXL 之间有一个额外的门控残差连接,由 GTrXL 的输入进行调制。此外,该架构还有一个包含从 transformer 输入到 LSTM 输出的跳跃连接。更具体地说,Y_t 在时间 t 时编码器网络的输出,可以用下列方程定义附加模块:
这些模块是互补的,因为 transformer 没有最近偏差,而 LSTM 的偏差可以表示最近的输入——等式 6 中的 Gate 允许编码器表征和 transformer 输出混合。这种内存架构与 RL 机制的选择无关,研究者在开启和关闭策略(on and off-policy)设置中评估了这种架构。对于 on-policy 设置,该研究使用 V-MPO 作为 RL 算法。V-MPO 使用目标分布进行策略更新,并在 KL 约束下将参数部分移向该目标。对于 off-policy 设置,研究者使用 R2D2。
R2D2 智能体:R2D2(Recurrent Replay Distributed DQN) 演示了如何调整 replay 和 RL 学习目标,以适用于具有循环架构的智能体。鉴于其在 Atari-57 和 DMLab-30 上的竞争性能,研究者在 R2D2 的背景下实现了 CoBERL 架构。他们用门控 transformer 和 LSTM 组合有效地替换了 LSTM,并添加了对比表示学习损失。因此,通过 R2D2,以及分布式经验收集的益处,将循环智能体状态存储在 replay buffer 中,并在训练期间「烧入」(burning in)具有 replay 序列展开网络的一部分。
V-MPO 智能体:鉴于 V-MPO 在 DMLab-30 上的强大性能,特别是与作为 CoBERL 关键组件的 GTrXL 架构相结合,该研究使用 V-MPO 和 DMLab30 来演示 CoBERL 与 on-policy 算法的使用。V-MPO 是一种基于最大后验概率策略优化(MPO)的 on-policy 自适应算法。为了避免策略梯度方法中经常出现的高方差,V-MPO 使用目标分布进行策略更新,受基于样本的 KL 约束,计算梯度将参数部分移向目标,这样也同样受 KL 约束。与 MPO 不同,V-MPO 使用可学习的状态 - 价值函数 V(s) 而不是状态 - 动作价值函数。
实验细节
研究者证明了 1) CoBERL 在更为广泛的环境和任务中能够提高性能,2)最大化性能还需要所有组件。实验展示了 CoBERL 在 Atari57 、DeepMind Control Suite 和 DMLab-30 中的性能。
下表 1 为目前可获得的不同智能体的结果。由结果可得,CoBERL 在大多数游戏中的表现高于人类平均水平,并且显著高于同类算法平均性能。R2D2-GTrXL 的中值(median)略优于 CoBERL,表明 R2D2-GTrXL 确实是 Atari 上的强大变体。研究者还观察到在检查「25th Pct 以及 5th Pct」时 ,CoBERL 的性能和其他算法的差异更大, 这表明 CoBERL 提高了数据效率。
为了在具有挑战性的 3D 环境中测试 CoBERL,该研究在 DmLab30 中运行,如下图 2 所示:
下表 3 的结果表明与没有对比损失的 CoBERL 相比,对比损失可以显著提高 Atari 和 DMLab-30 的性能。此外,在 DmLab-30 这样具有挑战性的环境中,没有额外损失的 CoBERL 仍然优于基线方法。
下表 4 为该研究提出的对比损失与 SimCLR、CURL 之间的比较:结果表明该对比损失虽然比 SimCLR、CURL 简单,但性能更好。
下表 5 为从 CoBERL 中删除 LSTM 的效果(如 w/o LSTM 一列),以及移除门控及其相关的跳跃连接(如 w/o Gate 一列)。在这两种情况下 CoBERL 的性能都要差很多,这表明 CoBERL 需要这两个组件(LSTM 和 Gate)。
下表 6 根据参数的数量对模型进行了比较。对于 Atari,CoBERL 在 R2D2(GTrXL) 基线上添加的参数数量有限;然而,CoBERL 仍然在性能上产生了显着的提升。该研究还试图将 LSTM 移到 transformer 模块之前,在这种情况下,对比损失表征取自 LSTM 之前。
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
综合LSTM、transformer优势,DeepMind强化学习智能体提高数据效率相关推荐
- DeepMind推出「控制套件」:为「强化学习智能体」提供性能基准
来源:arxiv 作者:Yuval Tassa, Yotam Doron, Alistair Muldal, Tom Erez,Yazhe Li, Diego de Las Casas, David ...
- MATLAB强化学习工具箱(十二)强化学习智能体创建总览
强化学习智能体创建总览 强化学习介绍 内置智能体 选择智能体类型 自定义智能体 关于强化学习的更多介绍 强化学习介绍 强化学习的目标是训练智能体在不确定的环境中完成任务.智能体从环境中接收观察和奖励, ...
- MATLAB强化学习实战(一) 强化学习智能体训练总览
强化学习智能体训练总览 简介 训练算法 情节管理器 保存候选智能体 并行计算 GPU加速 验证训练后的策略 环境验证 简介 创建环境和强化学习智能体后,您可以使用训练功能在环境中训练智能体. 要配置您 ...
- MATLAB强化学习实战(十三) 使用强化学习智能体训练Biped机器人行走
使用强化学习智能体训练Biped机器人行走 两足机器人模型 创建环境接口 选择和创建训练智能体 DDPG Agent TD3 Agent 指定训练选项和训练智能体 仿真训练过的智能体 比较智能体性能 ...
- 伯克利AI研究院解析「反向课程学习」,改善「强化学习智能体」并应用于机器人技术
原文来源:arXiv 作者:Wieland Brendel.Jonas Rauber.Matthias Bethge 「雷克世界」编译:嗯~阿童木呀.哆啦A亮 众所周知,强化学习(RL)是一种强大的技 ...
- 使用Amazon SageMaker RL 和Unity训练强化学习智能体
[更新记录] 2022年3月25日 更新原始内容 本文目录结构 1. Overview of solution 2. Building a Docker container 3. Unity envi ...
- Retro-用于强化学习智能体训练的各种有趣的游戏环境集合
目录 步骤 安装 测试 查看游戏列表 issue 一.单智能体环境 90后大概都玩过的游戏环境 冒险岛系列 忍者神龟 二.多智能体环境 https://openai.com/blog/gym-retr ...
- DeepMind强化学习新研究:更快的知识学习,更强的环境适应
2021-05-04 13:36:12 编译 | Mr Bear 校对 | 维克多 DeepMind官方博客在一篇文章"Fast reinforcement learning through ...
- DeepMind集成AI智能体架构「MERLIN」:基于目标导向智能体中的无监督预测记忆
来源:arXiv 摘要:在自然界中,动物往往会执行目标导向的行为,尽管它们的传感器的范围有限. 作者:Greg Wayne. Chia-Chun Hung.David Amos.Mehdi Mirza ...
最新文章
- python 获取集合里面的某一个元素
- 周末,我打开《逆水寒》参加了一场AI学术会议
- jsoncpp去掉多余字符_如何处理JSON中的特殊字符
- 网络爬虫终篇:向10万级网易云用户发送定向消息
- 3d打印 路径规划_“光博会+工博会”双展来袭!这个9月,知象光电3D视觉工业应用方案,重磅亮相!...
- 一般图最大匹配(UOJ-79)
- Q1:spring-boot中Controller路径无法被访问的问题
- Effective C# 原则8:确保0对于值类型数据是有效的(翻译)
- VO、DTO、POJO、PO的区别
- ORACLE P6 21.12 系统虚拟机(VM)分享
- OEIS | 一个牛x的网站
- 国外网站视频下载方法通通告诉你
- 信息系统项目管理之进度管理过程
- vbs教程(1):弹窗
- 阿里云AI训练营SQL入门到实践 Task3:视图、子查询、函数等
- 【Windows 问题系列第 8 篇】如何查看电脑磁盘属于固态盘还是机械硬盘?
- C++——NOIP模拟题——零件加工
- 4.再模仿一个算术题
- 创意非凡--找到许多人熟视无睹的宝藏!
- 考研英语 - word-list-7
热门文章
- 日志中台不重不丢实现浅谈
- ajax 最大链接数_leetcode之第三大的数
- java token跨域,java 允许跨域
- 【可持久化线段树?!】rope史上最全详解
- Datatable Initialization - 使用objects数据源初始化
- cookie对比localStorage哪个适合作为网站皮肤存储
- TFS2013 微软源代码管理工具 安装与使用图文教程
- 软件开发生命周期模型 瀑布模型、增量模型、原型模型、螺旋模型、喷泉模型总结...
- cmd 关闭进程及查看本机端口
- linux用户命令权限管理,Linux命令-用户、权限管理