https://www.toutiao.com/a6700314150565839368/

来自网络

强化学习(RL)就像攀登1000米高的岩石表面一样,需要学习如何做出连续的决定。RL的潜在应用范围很广,包括机器人(无人机控制)、对话系统(个人助理、自动呼叫中心)、游戏产业(非玩家角色、计算机人工智能)、治疗设计(药物测试、作物管理)、复杂系统控制(资源分配、流程优化)等等。

已经有一些RL成就,例如Deepmind 发明了 DQN,这是第一个能够使用视觉输入在人类技能水平上玩游戏的深层 RL 算法[1]。但是将 RL 应用于大多数现实世界的场景仍然是一个挑战。首先,深度 RL 算法的样本效率不高,需要数十亿个样本才能得到结果,在现实应用中提取如此庞大的样本数量是不可行的;其次,RL在道德约束方面也不够完善,需要安全算法。 他们必须能够在现实生活中学习,而不用冒生命或设备的风险。最后,算法可靠性很重要,并能够持续提供可靠的结果。

事实上,RL在很大程度上是不可靠的。 更糟糕的是,由于强化学习过程的随机性,用不同的随机种子进行两次测试会得到截然不同的结果。 微软研究人员提出了两种方法解决这种不可靠性:

算法选择

​微软在 ICLR上发表的文章[2]提出了这个想法:如果一个算法不可靠,就训练其中的几个,并使用最好的一个。 下图演示了算法选择过程:

强化学习中的算法选择(来自论文)

使几个 DQN 架构竞争,系统产生了比任何单一架构本身更好的最终性能。

改进策略可靠性

微软在提高 RL 算法可靠性方面的第二次尝试集中在一个特定的设置上,这个设置在现实应用中经常遇到,即批处理强化学习[3]。与传统的在线设置相比,在批处理强化学习中,学习代理不直接与环境交互。相反,它是一个baseline代理。 它是固定的,用来收集数据,然后输入到一个算法来训练一个新的策略。 批处理设置是现实场景中常见的约束。 对话系统或视频游戏通常部署在个人设备上,一般不会频繁更新。

批处理强化学习过程(来自论文)

研究人员设计一种称为 SPIBB (Safe Policy Improvement with Baseline Bootstrapping)的新算法,该算法将在2019 ICML 会议上展示。 Spibb对策略更新实现了以下常识性规则:如果你不知道自己在做什么,那么就不要这样做。 更确切地说,如果有足够的数据支持策略变更,那么它就可以这样做。 否则的话只需复制数据收集过程中使用的baseline策略。

参考:

1.https://www.nature.com/articles/nature14236/

2.https://www.microsoft.com/en-us/research/publication/reinforcement-learning-algorithm-selection/

3.https://www.microsoft.com/en-us/research/publication/safe-policy-improvement-with-baseline-bootstrapping-2/

如何提高强化学习的可靠性?相关推荐

  1. 如何提高强化学习算法模型的泛化能力?

    深度强化学习实验室 官网:http://www.neurondance.com/ 来源:https://zhuanlan.zhihu.com/p/328287119 作者:网易伏羲实验室 编辑:Dee ...

  2. 「强化学习可解释性」最新2022综述

    来源:新智元 本文共10000字,建议阅读15分钟本文本文探索XRL的基础性问题,并对现有工作进行综述. 强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法. 然而, ...

  3. 【ICML2021】 9篇RL论文作者汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实...

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:转载自AI科技评论 作者 | 陈彩娴 深度强 ...

  4. 谷歌发布 RLDS,在强化学习生成、共享和使用数据集

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 大多数强化学习和序列决策算法都需要智能体与环境的大量交互生成训练数据,以获得最佳性能.这种方法效率很低,尤其是在很难做到这种交互 ...

  5. DeepMind 的新强化学习系统是迈向通用 AI 的一步吗?

    作者 | Ben Dickson 来源 | 数据实战派 这篇文章是我们对 AI 研究论文评论的一部分,这是一系列探索人工智能最新发现的文章. 对于已经精通围棋.星际争霸 2 和其他游戏的深度强化学习模 ...

  6. DeepMind 的新强化学习系统,是迈向通用人工智能的一步吗?

    作者:Ben Dickson 来源:数据实战派 前言 尽管已经掌握围棋.星际争霸 2 和其他游戏,深度强化学习模型的主要挑战之一是,它们无法将其能力泛化到训练领域之外.这种限制使得将这些系统在现实世界 ...

  7. 《强化学习周刊》第38期:DreamingV2、Shadow-price DRL、离线强化学习

    No.38 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  8. 《强化学习周刊》第32期:上海交大华为 | 可解释强化学习研究综述

    No.32 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  9. 《强化学习周刊》第18期:ICML-2021强化学习的最新研究与应用

    No.18 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于ICML-2021学 ...

最新文章

  1. [微信小程序]实现一个自定义遮罩层组件(完整示例代码附效果图)
  2. Matplotlib可视化散点图、配置X轴为对数坐标、并使用线条(line)连接散点图中的数据点、基于分组变量配置数据点的颜色(connecting two coordinates with line
  3. 人,是否应该不要去好高骛远
  4. 如何对ABAP SE80 workbench做增强
  5. 最简单最详细的SpringBoot入门项目——HelloWorld
  6. 阿里云云市场双11战报:30分钟破100万,单品销量暴涨300倍!
  7. CentOS7系统上Kubernetes集群搭建
  8. NameNode启动
  9. 禁止执行某些讨厌的程序,如tadb.exe
  10. linux ibm多路径软件,如何安装配置IBM存储多路径软件
  11. office2019初体验与kms服务器搭建
  12. bam文件flag的含义
  13. java中principal对象,如何使用OAuth2获取Spring的自定义Principal对象?
  14. (Java)全限定类名和非限定类名的区别
  15. LSGO软件技术团队2015~2016学年第十四周(1130~1206)总结
  16. 【原创】简单介绍 Windows XP 中的chkdsk(checkdisk磁盘检查)工具
  17. Chrome浏览器IDM下载报错Error 0×80004002
  18. jzoj4668. 腐败(数论)
  19. 电磁场学习一__导论
  20. 尼康D7100_认识机身上的控件

热门文章

  1. Oracle SQL Loader的详细语法
  2. MT to Death,专访 ACL Fellow刘群,一个NLPer的极致表白
  3. 苗旺:因果推断,观察性研究和 2021 年诺贝尔经济学奖 | 青源 Talk 第 8 期
  4. 综述 | 三大路径,一文总览知识图谱融合预训练模型的研究进展
  5. 智源社区AI周刊·第二期:过去一周AI领域的新鲜事
  6. 松本行弘为什么要开发Ruby
  7. 一文搞懂faiss计算
  8. 何恺明一作论文 MAE 已有人复现!PyTorch 版!(附链接)
  9. 极光:2021双十一电商行业研究报告
  10. ​两大顶级AI算法一起开源!Nature、Science齐发Alphafold2相关重磅,双厨狂喜~