如何提高强化学习的可靠性？

https://www.toutiao.com/a6700314150565839368/

来自网络

强化学习（RL）就像攀登1000米高的岩石表面一样，需要学习如何做出连续的决定。RL的潜在应用范围很广，包括机器人(无人机控制)、对话系统(个人助理、自动呼叫中心)、游戏产业(非玩家角色、计算机人工智能)、治疗设计(药物测试、作物管理)、复杂系统控制(资源分配、流程优化)等等。

已经有一些RL成就，例如Deepmind 发明了 DQN，这是第一个能够使用视觉输入在人类技能水平上玩游戏的深层 RL 算法[1]。但是将 RL 应用于大多数现实世界的场景仍然是一个挑战。首先，深度 RL 算法的样本效率不高，需要数十亿个样本才能得到结果，在现实应用中提取如此庞大的样本数量是不可行的；其次，RL在道德约束方面也不够完善，需要安全算法。他们必须能够在现实生活中学习，而不用冒生命或设备的风险。最后，算法可靠性很重要，并能够持续提供可靠的结果。

事实上，RL在很大程度上是不可靠的。更糟糕的是，由于强化学习过程的随机性，用不同的随机种子进行两次测试会得到截然不同的结果。微软研究人员提出了两种方法解决这种不可靠性：

算法选择

微软在 ICLR上发表的文章[2]提出了这个想法：如果一个算法不可靠，就训练其中的几个，并使用最好的一个。下图演示了算法选择过程：

强化学习中的算法选择（来自论文）

使几个 DQN 架构竞争，系统产生了比任何单一架构本身更好的最终性能。

改进策略可靠性

微软在提高 RL 算法可靠性方面的第二次尝试集中在一个特定的设置上，这个设置在现实应用中经常遇到，即批处理强化学习[3]。与传统的在线设置相比，在批处理强化学习中，学习代理不直接与环境交互。相反，它是一个baseline代理。它是固定的，用来收集数据，然后输入到一个算法来训练一个新的策略。批处理设置是现实场景中常见的约束。对话系统或视频游戏通常部署在个人设备上，一般不会频繁更新。

批处理强化学习过程（来自论文）

研究人员设计一种称为 SPIBB (Safe Policy Improvement with Baseline Bootstrapping)的新算法，该算法将在2019 ICML 会议上展示。 Spibb对策略更新实现了以下常识性规则：如果你不知道自己在做什么，那么就不要这样做。更确切地说，如果有足够的数据支持策略变更，那么它就可以这样做。否则的话只需复制数据收集过程中使用的baseline策略。

参考：

1.https://www.nature.com/articles/nature14236/

2.https://www.microsoft.com/en-us/research/publication/reinforcement-learning-algorithm-selection/

3.https://www.microsoft.com/en-us/research/publication/safe-policy-improvement-with-baseline-bootstrapping-2/

如何提高强化学习的可靠性？相关推荐

如何提高强化学习算法模型的泛化能力?
深度强化学习实验室官网:http://www.neurondance.com/ 来源:https://zhuanlan.zhihu.com/p/328287119 作者:网易伏羲实验室编辑:Dee ...
「强化学习可解释性」最新2022综述
来源:新智元本文共10000字,建议阅读15分钟本文本文探索XRL的基础性问题,并对现有工作进行综述. 强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法. 然而, ...
【ICML2021】 9篇RL论文作者汪昭然：构建“元宇宙”和理论基础，让深度强化学习从虚拟走进现实...
深度强化学习实验室官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:转载自AI科技评论作者 | 陈彩娴深度强 ...
谷歌发布 RLDS，在强化学习生成、共享和使用数据集
编译 | 禾木木出品 | AI科技大本营(ID:rgznai100) 大多数强化学习和序列决策算法都需要智能体与环境的大量交互生成训练数据,以获得最佳性能.这种方法效率很低,尤其是在很难做到这种交互 ...
DeepMind 的新强化学习系统是迈向通用 AI 的一步吗？
作者 | Ben Dickson 来源 | 数据实战派这篇文章是我们对 AI 研究论文评论的一部分,这是一系列探索人工智能最新发现的文章. 对于已经精通围棋.星际争霸 2 和其他游戏的深度强化学习模 ...
DeepMind 的新强化学习系统，是迈向通用人工智能的一步吗？
作者:Ben Dickson 来源:数据实战派前言尽管已经掌握围棋.星际争霸 2 和其他游戏,深度强化学习模型的主要挑战之一是,它们无法将其能力泛化到训练领域之外.这种限制使得将这些系统在现实世界 ...
《强化学习周刊》第38期：DreamingV2、Shadow-price DRL、离线强化学习
No.38 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
《强化学习周刊》第32期：上海交大华为 | 可解释强化学习研究综述
No.32 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
《强化学习周刊》第18期：ICML-2021强化学习的最新研究与应用
No.18 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于ICML-2021学 ...

如何提高强化学习的可靠性？

如何提高强化学习的可靠性？相关推荐

最新文章

热门文章