谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳!|ICLR 2021
丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI
强化学习(RL)算法持续“进化”中……
来自Google Research的研究人员,证明可以使用图表示 (graph representation)和AutoML的优化技术,来学习新的、可解析和可推广的RL算法!
他们发现的其中两种算法可以推广到更复杂的环境中,比如具有视觉观察的Atari游戏。
这一成就使得RL算法越来越优秀!
具体怎么个“优秀法”,请看下文:
损失函数表示为计算图
首先,对于强化学习算法研究的难点,研究人员认为,一种可能的解决方案是设计一种元学习方法。
该方法可以设计新的RL算法,从而自动将其推广到各种各样的任务中。
受神经架构搜索(NAS)在表示神经网络结构的图空间中搜索的思想启发,研究人员通过将RL算法的损失函数表示为计算图(computational graph)来元学习RL算法。
其中使用有向无环图来表示损失函数,该图带有分别表示输入、运算符、参数和输出的节点。
该表示方法好处有很多,总的来说就是可用来学习新的、可解析和可推广的RL算法。
并使用PyGlove库实现这种表示形式。
基于进化的元学习方法
接下来,研究人员使用基于进化的元学习方法来优化他们感兴趣的RL算法。
其过程大致如下:
新提出的算法必须首先在障碍环境中表现良好,然后才能在一组更难的环境中进行训练。算法性能被评估并用于更新群体(population),其中性能更好的算法进一步突变为新算法。在训练结束时,对性能最佳的算法在测试环境中进行评估。
本次实验中的群体(population)规模约为300个智能体,研究人员观察到在2-5万个突变后,发现候选损失函数的进化需要大约3天的训练。
为了进一步控制训练成本,他们在初始群体中植入了人类设计的RL算法,eg. DQN(深度Q学习算法)。
发现两种表现出良好泛化性能的算法
最终,他们发现了两种表现出良好泛化性能的算法:
一种是DQNReg,它建立在DQN的基础上,在Q值上增加一个加权惩罚(weighted penalty),使其成为标准的平方Bellman误差。
第二种是DQNClipped,尽管它的支配项(dominating term)有一个简单的形式——Q值的最大值和平方Bellman误差(常数模),但更为复杂。
这两种算法都可以看作是正则化Q值的一种方法,都以不同的方式解决了高估Q值这一问题。
最终DQNReg低估Q值,而DQNClipped会缓慢地接近基本事实,更不会高估。
性能评估方面,通过一组经典的控制环境,这两种算法都可以在密集奖励任务(CartPole、Acrobot、LunarLander)中持平基线,在稀疏奖励任务(MountainCar)中,性能优于DQN。
其中,在一组测试各种不同任务的稀疏奖励MiniGrid环境中,研究人员发现DQNReg在训练和测试环境中的样本效率和最终性能都大大优于基线水平。
另外,在一些MiniGrid环境将DDQN(Double DQN)与DQNReg的性能进行可视化比较发现,当DDQN还在挣扎学习一切有意义的行为时,DQNReg已经可以有效地学习最优行为了。
最后,即使本次研究的训练是在基于非图像的环境中进行的,但在基于图像的Atari游戏环境中也观察到DQNReg算法性能的提高!
这表明,在一组廉价但多样化的训练环境中进行元训练,并具有可推广的算法表示,可以实现根本的算法推广。
此研究成果写成的论文,已被ICLR 2021接收,研究人员门未来将扩展更多不同的RL设置,如Actor-Critic算法或离线RL。
谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳!|ICLR 2021相关推荐
- 如何提高强化学习算法模型的泛化能力?
深度强化学习实验室 官网:http://www.neurondance.com/ 来源:https://zhuanlan.zhihu.com/p/328287119 作者:网易伏羲实验室 编辑:Dee ...
- 深度强化学习算法(朴素DQN,DDQN,PPO,A3C等)比较与实现
不同算法的理论比较部分参考CSDN博客 - 专业IT技术发表平台,代码实现在python完成.用的算例是OpenAI官网gym提供的算例环境"CartPole-v1"游戏,代码实现 ...
- 只用1/500数据就打败人类!一种采样高效的强化学习算法 | 报告详解
[栏目:前沿进展]近日,清华大学交叉信息研究院高阳研究组在强化学习领域中取得突破,研究组所提出的模型EfficientZero首次在雅达利(Atari )游戏数据上超过同等游戏时长的人类平均水平.Ef ...
- 【招聘推荐】启元世界招聘深度强化学习算法工程师
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑.排版:DeepRL 深度强化学习算法工程师 ...
- 【Nature重磅】OpenAI科学家提出全新强化学习算法,推动AI向智能体进化
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑:DeepRL 近年来,人工智能(AI)在强化 ...
- AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
[新智元导读]或许"智能爆炸"不会发生,但永远不要低估人工智能的发展.推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己,也刷新了世人对人工 ...
- 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋
原文链接:点击打开链接 摘要: 或许"智能爆炸"不会发生,但永远不要低估人工智能的发展.推出最强围棋AI AlphaGo Zero不到50天,DeepMind又一次超越了他们自己, ...
- 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏...
2019独角兽企业重金招聘Python工程师标准>>> 世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是Dee ...
- 【重磅】AlphaZero炼成最强通用棋类AI,DeepMind强化学习算法8小时完爆人类棋类游戏
世界最强围棋AI AlphaGo Zero带给世人的震撼并没有想象中那么久--不是因为大家都去看谁(没)跟谁吃饭了,而是DeepMind再次迅速超越了他们自己,超越了我们剩下所有人的想象. 12月5日 ...
最新文章
- ICLR 2022 under review|化学反应感知的分子表征学习
- Windows10编译源码安装Aleth(Ethereum C++ client, tools and libraries)
- 深度学习-Tensorflow2.2-深度学习基础和tf.keras{1}-Tensorflow2.2-cpu/gpu环境安装-01
- jquery.timers使用说明
- selenium python下载_使用Selenium、Chrome和Python下载PDF
- 《C和指针》——带副作用的宏参数
- FileZilla 服务器端win server2008以上的配置
- hadoop框架分析
- Java基础学习总结(50)——Java事务处理总结
- websocket python unity_Unity 连接WebSocket(ws://)服务器
- C语言输入一个大写字母,试输出其小写字母
- ICLR2019 | 模型训练会发生了大量的、反复的样本遗忘现象,如何解决?
- pytorch自我错误总结
- html div调用js,在div中调用javascript函数
- Chrome书签删除恢复
- 苹果测试软件testflight游戏,教程:如何使用TestFlight 参与App 测试
- OMP: Hint This means that multiple copies of the OpenMP runtime have been linked into the program.
- excel提取工作表名称
- 关于grafana的界面操作展示loki
- 【AI视野·今日NLP 自然语言处理论文速览 第十三期】Wed, 23 Jun 2021