丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

强化学习(RL)算法持续“进化”中……

来自Google Research的研究人员,证明可以使用图表示 (graph representation)和AutoML的优化技术,来学习新的、可解析和可推广的RL算法!

他们发现的其中两种算法可以推广到更复杂的环境中,比如具有视觉观察的Atari游戏。

这一成就使得RL算法越来越优秀!

具体怎么个“优秀法”,请看下文:

损失函数表示为计算图

首先,对于强化学习算法研究的难点,研究人员认为,一种可能的解决方案是设计一种元学习方法。

该方法可以设计新的RL算法,从而自动将其推广到各种各样的任务中。

受神经架构搜索(NAS)在表示神经网络结构的图空间中搜索的思想启发,研究人员通过将RL算法的损失函数表示为计算图(computational graph)元学习RL算法。

其中使用有向无环图来表示损失函数,该图带有分别表示输入、运算符、参数和输出的节点。

该表示方法好处有很多,总的来说就是可用来学习新的、可解析和可推广的RL算法。

并使用PyGlove库实现这种表示形式。

基于进化的元学习方法

接下来,研究人员使用基于进化的元学习方法来优化他们感兴趣的RL算法。

其过程大致如下:

新提出的算法必须首先在障碍环境中表现良好,然后才能在一组更难的环境中进行训练。算法性能被评估并用于更新群体(population),其中性能更好的算法进一步突变为新算法。在训练结束时,对性能最佳的算法在测试环境中进行评估。

本次实验中的群体(population)规模约为300个智能体,研究人员观察到在2-5万个突变后,发现候选损失函数的进化需要大约3天的训练。

为了进一步控制训练成本,他们在初始群体中植入了人类设计的RL算法,eg. DQN(深度Q学习算法)。

发现两种表现出良好泛化性能的算法

最终,他们发现了两种表现出良好泛化性能的算法

一种是DQNReg,它建立在DQN的基础上,在Q值上增加一个加权惩罚(weighted penalty),使其成为标准的平方Bellman误差。

第二种是DQNClipped,尽管它的支配项(dominating term)有一个简单的形式——Q值的最大值和平方Bellman误差(常数模),但更为复杂。

这两种算法都可以看作是正则化Q值的一种方法,都以不同的方式解决了高估Q值这一问题

最终DQNReg低估Q值,而DQNClipped会缓慢地接近基本事实,更不会高估。

性能评估方面,通过一组经典的控制环境,这两种算法都可以在密集奖励任务(CartPole、Acrobot、LunarLander)中持平基线,在稀疏奖励任务(MountainCar)中,性能优于DQN

其中,在一组测试各种不同任务的稀疏奖励MiniGrid环境中,研究人员发现DQNReg在训练和测试环境中的样本效率和最终性能都大大优于基线水平。

另外,在一些MiniGrid环境将DDQN(Double DQN)与DQNReg的性能进行可视化比较发现,当DDQN还在挣扎学习一切有意义的行为时,DQNReg已经可以有效地学习最优行为了。

最后,即使本次研究的训练是在基于非图像的环境中进行的,但在基于图像的Atari游戏环境中也观察到DQNReg算法性能的提高!

这表明,在一组廉价但多样化的训练环境中进行元训练,并具有可推广的算法表示,可以实现根本的算法推广

此研究成果写成的论文,已被ICLR 2021接收,研究人员门未来将扩展更多不同的RL设置,如Actor-Critic算法或离线RL。

谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳!|ICLR 2021相关推荐

  1. 如何提高强化学习算法模型的泛化能力?

    深度强化学习实验室 官网:http://www.neurondance.com/ 来源:https://zhuanlan.zhihu.com/p/328287119 作者:网易伏羲实验室 编辑:Dee ...

  2. 深度强化学习算法(朴素DQN,DDQN,PPO,A3C等)比较与实现

    不同算法的理论比较部分参考CSDN博客 - 专业IT技术发表平台,代码实现在python完成.用的算例是OpenAI官网gym提供的算例环境"CartPole-v1"游戏,代码实现 ...

  3. 只用1/500数据就打败人类!一种采样高效的强化学习算法 | 报告详解

    [栏目:前沿进展]近日,清华大学交叉信息研究院高阳研究组在强化学习领域中取得突破,研究组所提出的模型EfficientZero首次在雅达利(Atari )游戏数据上超过同等游戏时长的人类平均水平.Ef ...

  4. 【招聘推荐】启元世界招聘深度强化学习算法工程师

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑.排版:DeepRL 深度强化学习算法工程师 ...

  5. 【Nature重磅】OpenAI科学家提出全新强化学习算法,推动AI向智能体进化

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑:DeepRL 近年来,人工智能(AI)在强化 ...

  6. AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏

    [新智元导读]或许"智能爆炸"不会发生,但永远不要低估人工智能的发展.推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工 ...

  7. 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋

    原文链接:点击打开链接 摘要: 或许"智能爆炸"不会发生,但永远不要低估人工智能的发展.推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己, ...

  8. 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏...

    2019独角兽企业重金招聘Python工程师标准>>> 世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是Dee ...

  9. 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏

    世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是DeepMind再次迅速超越了他们自己,超越了我们剩下所有人的想象. 12月5日 ...

最新文章

  1. ICLR 2022 under review|化学反应感知的分子表征学习
  2. Windows10编译源码安装Aleth(Ethereum C++ client, tools and libraries)
  3. 深度学习-Tensorflow2.2-深度学习基础和tf.keras{1}-Tensorflow2.2-cpu/gpu环境安装-01
  4. jquery.timers使用说明
  5. selenium python下载_使用Selenium、Chrome和Python下载PDF
  6. 《C和指针》——带副作用的宏参数
  7. FileZilla 服务器端win server2008以上的配置
  8. hadoop框架分析
  9. Java基础学习总结(50)——Java事务处理总结
  10. websocket python unity_Unity 连接WebSocket(ws://)服务器
  11. C语言输入一个大写字母,试输出其小写字母
  12. ICLR2019 | 模型训练会发生了大量的、反复的样本遗忘现象,如何解决?
  13. pytorch自我错误总结
  14. html div调用js,在div中调用javascript函数
  15. Chrome书签删除恢复
  16. 苹果测试软件testflight游戏,教程:如何使用TestFlight 参与App 测试
  17. OMP: Hint This means that multiple copies of the OpenMP runtime have been linked into the program.
  18. excel提取工作表名称
  19. 关于grafana的界面操作展示loki
  20. 【AI视野·今日NLP 自然语言处理论文速览 第十三期】Wed, 23 Jun 2021

热门文章

  1. 检查传递给Bash脚本的参数数量
  2. Math.Floor()和Math.Truncate()之间的区别
  3. 如何根据C编程语言标准初始化结构
  4. 如何从“查找”中排除所有“拒绝权限”消息?
  5. JVM汇总--类加载/收集器
  6. 赛可达推病毒攻击检测和情报分享服务
  7. 详细解剖大型H5单页面应用的核心技术点
  8. Python 内置函数sorted()在高级用法
  9. CSS3秘笈第三版涵盖HTML5学习笔记13~17章
  10. 【算法】9 散列表【待补充】