MeRL：强化学习分配奖励机制的新方法

这是谷歌在2019年发布的一种在强化学习模型中分配奖励机制的新方法。

强化学习一直是过去五年中一些最大的人工智能 (AI) 突破的核心。在围棋、雷神之锤 III 或星际争霸等游戏中，强化学习模型证明它们可以超越人类的表现，并创造出前所未有的独特长期策略。强化学习的部分魔力依赖于定期奖励能够带来更好结果的行为的智能体。该模型在密集奖励环境中效果很好，例如游戏中几乎每个动作都对应于特定反馈，但如果该反馈不可用会发生什么？在强化学习中，这被称为稀疏奖励环境，不幸的是，它代表了大多数现实世界的场景。 19年谷歌的研究人员发表了一篇新论文，提出了一种通过在稀疏奖励环境中运行的强化学习实现泛化的技术。

强化学习一直是过去五年人工智能(AI)一些重大突破的核心。在掌握围棋、《雷神之锤3》或《星际争霸》等游戏时，强化学习模型证明它们能够超越人类的表现并创造出前所未有的独特长期策略。强化学习的最主要的部分依赖于定期奖励能带来更好结果的行为。这种模式在密集的奖励环境(即几乎所有行动都与特定反馈能够相互对应的游戏)中非常有效，但如果反馈不可用怎么办?在强化学习中，这被称为稀疏奖励环境，这其实是实际大多数现实场景的代表。几年前，谷歌的研究人员发表了一篇新论文，提出了一种在稀疏奖励环境中使用强化学习实现泛化的技术。

稀疏奖励环境下强化学习的挑战在于在有限反馈的情况下实现良好的泛化。更具体地说，在稀疏奖励环境中实现稳健泛化的过程可以概括为两个主要问题:

1)探索环境和行动进行平衡:使用稀疏奖励的agent需要平衡何时采取行动以获得直接结果，何时进一步探索环境以收集更好的情报。

2)处理未指定的奖励:环境中未指定奖励和没有奖励一样难以管理。在稀疏奖励场景中，agent并不总是针对特定类型的奖励进行训练。在接收到一个新的反馈信号后，agent需要评估这个信号是否对成功或失败的有良好的结果。

稀疏奖励环境存在于各种 AI 场景中，但没有像自然语言理解 (NLU) 任务那样突出。许多 NLU 任务基于将复杂的自然语言结构映射到客观动作并接收二元的成功/失败反馈。 NLU 环境中的奖励既稀疏又不明确，这导致强化学习环境极具挑战性。让我们用几个例子来说明这一点。

考虑一个“盲人”agent，其任务是通过一系列自然语言命令（例如，“向右、向上、向上、向右”）到达迷宫中的目标位置。给定输入文本，agent（绿色圆圈）需要解释命令并根据这种解释采取行动以生成动作序列（a）。如果达到目标（红星），agent将获得 1 的奖励，否则为 0。由于agent无法访问任何视觉信息，agent解决此任务并推广到新指令的唯一方法是正确解释指令。

另一个例子是使用语义解析问答对自然语言问题生成一个sql程序。如果在相关数据表上执行程序 a 导致正确答案（例如，美国），则agent将获得 1 的奖励。如果奖励未指定因为偶然程序（例如，a2；a3）agent也可以获得 1 的奖励。

在上述两种情况下，强化学习agent都需要学习从稀疏奖励中推广，其中只有少数轨迹转换为非零奖励。类似地，有些奖励可能没有明确区分偶然成功和有目的成功之间的区别。在这种情况下学习概括需要两个主要的成就:

1）有效探索，寻找成功轨迹。

2）弱化偶然轨迹以学习可推广的行为。

Meta Rewards Learning（MeRL）是谷歌提出的方法，用于将强化学习agent在奖励稀疏的环境中进行泛化。 MeRL 的关键贡献是在不影响agent的泛化性能的情况下有效地处理未指定的奖励。在我们的迷宫游戏示例中，agent可能会意外地找到解决方案。但是如果它在训练期间学会了执行偶然动作，则在提供未出现的指令时很可能会失败。为了应对这一挑战MeRL 优化了一个更精细的辅助奖励函数，它可以根据动作轨迹的特征区分意外成功和有目的的成功。通过Meta Rewards最大化agent在保持验证集上的性能来优化辅助奖励。

让我们在第二个NLU示例的上下文中说明MeRL。在语义解析游戏中，agent的目标是学习复杂的自然语言句子和SQL语法之间的映射。例如，在回答“Which nation won the most silver medals?”和相关的Wikipedia表，我们的agent需要生成一个类似sql的程序，以得到正确的答案(例如，“Nigeria”)。

将 MeRL 应用于语义解析游戏场景可以有效地将组合搜索、探索与稳健的策略优化分开。在高层次上，MeRL 模型将利用一种覆盖探索方法的模式在内存缓冲区中收集不同的成功轨迹集。然后使用元学习或贝叶斯优化技术来学习辅助奖励函数以减少偶然轨迹。在实践中，MeRL 方法在 WikiTableQuestions 和 WikiSQL 基准测试中取得了最先进的结果，分别比之前的工作提高了 1.2% 和 2.4%。此外，MeRL 无需任何专家演示即可自动学习辅助奖励功能。语义解析游戏场景中MeRL模型的通用构建块如下图所示：

在该实验中，MeRL优于目前最先进的强化学习模型，如下表所示:

MeRL 是解决强化学习中两个关键挑战的首批尝试之一。首先，它提供了一个模型来探索组合搜索空间以找到罕见的成功，同时它还有助于区分偶然的成功和有目的的成功。 MeRL 的原则可以帮助将强化学习的采用扩展到更主流的场景，例如当今最热门的conversational AI。

论文：arXiv:1902.07198

MeRL：强化学习分配奖励机制的新方法相关推荐

强化学习中好奇心机制
参考链接: https://www.leiphone.com/category/ai/TmJCRLNVeuXoh2mv.html https://tianjuewudi.gitee.io/2021/1 ...
强化学习与3D视觉结合新突破：高效能在线码垛机器人
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达转自 | 机器之心国防科技大学.克莱姆森大学和视比特机器人的研究 ...
深度强化学习系列: “奖励函数”的设计和设置（reward shaping）
概述前面已经讲了好几篇关于强化学习的概述.算法(DPG->DDPG),也包括对环境OpenAI gym的安装,baseline算法的运行和填坑,虽然讲了这么多,算法也能够正常运行还取得不错的效 ...
强化学习 | 基于Novelty-Pursuit的高效探索方法
深度强化学习实验室官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ Li, Ziniu, and Xiong-Hui ...
强化学习（九）- 策略梯度方法 - 梯度上升，黑箱优化，REINFORCE算法及CartPole实例
策略梯度方法引言 9.1 策略近似和其优势 9.2 策略梯度定理 9.2.1 梯度上升和黑箱优化 9.2.2 策略梯度定理的证明 9.3 REINFORCE:蒙特卡洛策略梯度 9.3.1 轨迹上的R ...
一种将 Tree-LSTM 的强化学习用于连接顺序选择的方法
[导读] 本篇博客讲解的是 2020 年由清华大学李国良教授团队发表在 ICDE 上的论文,介绍它所提出的算法与实验结果,并结合实际情况给出一些思考. 原文链接: http://dbgroup.cs. ...
如何提高学习欲--奖励机制
阶段性反馈机制(如何持之以恒.让自己发疯) 反馈机制是王者荣耀的核心武器,击杀野怪获得金币,不断地努力,获得奖励是我们不断的玩这个游戏的主要原因,也是人的本能,我什么都得不到凭什么这么做?,对记得初二 ...
深度强化学习-稀疏奖励及模仿学习-笔记（七）
稀疏奖励及模仿学习稀疏奖励 Sparse Reward Reward Shaping Curiosity Curriculum Learning Reverse Curriculum Generat ...
强化学习教父Richard Sutton新论文探索决策智能体的通用模型：寻找跨学科共性...
来源:机器之心本文约5200字,建议阅读10+分钟论文虽然有些难懂,但或许是一个新的研究方向. 强化学习和决策多学科会议(Multi-Disciplinary Conference on Rein ...

MeRL：强化学习分配奖励机制的新方法

MeRL：强化学习分配奖励机制的新方法相关推荐

最新文章

热门文章