【分层强化学习】HAC论文及代码
论文名称:Learning Multi-Level Hierarchies with Hindsight
论文作者:Andrew Levy, George Konidaris, Robert Platt, Kate Saenko
发表自:ICLR 2019
当前谷歌学术引用量:134
文章链接:https://arxiv.org/abs/1712.00948
与HIRO一样,本文解决的同样是分层强化学习中不同层级策略学习所存在的non-stationary(非平稳问题),但是用了完全不同思想的方法。分层强化学习通过将任务分解成多个子任务,样本利用率更高。然而,在分层结构中,上层的转移函数取决于下层的策略,当所有层级的策略同时进行训练时,下层策略不断更新,这就导致了上层的转移函数会随之不断变化,在这样的非平稳环境中,智能体很难学习到最优策略,这就是分层强化学习所面临的非平稳(non-stationary)问题。
为了有效解决这个non-stationary问题,HIRO使用了off-policy correction的方式,即重新提出子目标,使其能够适应不同时刻的底层策略。这篇文章则使用了hindsight的方法。加入了一些hindsight transition。hindsight就是事后的意思。文章假设一旦所有下层策略收敛到最优或者次优的时候,这时候同时学习多层策略就可以做到。
文章中主要提出Hindsight Action Transitions、Hindsight Goal Transitions、Subgoal Testing Transitions实现原始transition的修改和扩展来解决非平稳性问题。
已经总结的比较好博客:
知乎XuanAxuan:https://www.zhihu.com/question/520764541/answer/2439785957
知乎赵英男:
https://zhuanlan.zhihu.com/p/91055669
总结:
1.关于hindsight action transitions其实就是将transition中的action(也就是下一层的goal)修改为实际到达的state,通过这样的方式实现了假定底层策略为最优或者次优策略的目的(因为在这种修改下你的trajectory是按照提出的goal走的)。
2.关于Hindsight Goal Transitions是将 Hindsight Experience Replay 扩展到了分层结构中,保证了每一层级均能在一段动作之后获得一个稀疏奖励。简单来说,Hindsight goal transitions 就是在每隔一段transitions序列之后,在这一些transitions中选择一个所达到的 next state作为当前层级的goals,这样就能保证一定会有一个transitions的reward是有效的。
3.关于Subgoal testing transitions,尽管 hindsight action transitions 与 hindsight goal transitions 能够让智能体在稀疏奖励下并行学习各级策略,但hindsight action的定义限制了第 i 层的hindsight action只能是第 i−1层在 H个action以内能够达到的状态,这就使得一个层级只能学习到当前状态附近的subgoal action的Q值,而忽略需要超过 H 个动作才能达到的subgoal actions,进而会导致Q值的估计出现偏差。Subgoal testing transitions的作用与hindsight action transitions的作用截然相反:hindsight action transitions在假设下层策略最优的情况下,学习当前层级策略;而 subgoal testing transitions 则是用于让当前策略理解在当前的低层策略下,一个subgoal状态是否能够被实现。
加入了subgoal testing transition,critic function不会忽略那些不可达的子目标的值函数,同时每个子目标层也能够同时学习,Q值还是会更倾向那些底层目标可达到的子目标。
疑问:
1.在hindsight action transitions中对于为什么该方法对于智能体的顶层有效,在赵的博客中这样描述:尽管目前这些transtition的奖励仍然为-1,但是对于智能体的顶层还是有用的。通过这些transitions,高层策略能够学习如何提出自己的子目标,因为time scale是相同的。同时这些transition能够不考虑non-stationary的问题。
在Xuan的博客中这样描述:尽管这些hindsight action均不能获得稀疏奖励,它们对智能体的上层训练依然是有帮助的,因为它们能够帮助高层策略找到 个原始动作所能达到的目标。并且,这些transitions都能够克服下层策略变化或者探索产生的影响。
算法伪码:
本算法总结来说,其实就是产生三种不同的transitions放入经验回放池里用于训练,因此算法的流程实际上就是产生不同样本的流程。
仿真结果:
1.分层比不分层效果好
2.分三层比分两层效果好
3.HAC比HIRO效果好
HAC实现代码(pytorch版本):https://github.com/nikhilbarhate99/Hierarchical-Actor-Critic-HAC-PyTorch
【分层强化学习】HAC论文及代码相关推荐
- 分层强化学习:基于选项(option)的强化学习/论文笔记 The Option-Critic Architecture 2017 AAAI
The Option-Critic Architecture 2017 AAAI 1 option option 可以看作是一种对动作的抽象. 一般来说,option可以表示为一个三元组,其中: 是这 ...
- 【论文笔记】分层强化学习鼻祖:Feudal Reinforcement Learning 1993
1993年的分层强化学习:Feudal Reinforcement Learning 概括 1992年没有深度学习,人们研究RL的思路与现在并不相同.但不可否认,提出"分层强化学习" ...
- 【干货总结】分层强化学习(HRL)全面总结
深度强化学习实验室 来源:https://zhuanlan.zhihu.com/p/267524544 作者:脆皮咕(S.Q.Yang) 编辑:DeepRL 最近做分层强化学习的survey,系统地看 ...
- 分层强化学习综述:Hierarchical reinforcement learning: A comprehensive survey
论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...
- 【最新重磅整理】82篇AAAI2021强化学习领域论文接收列表
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室&AMiner 编 ...
- 【重磅最新】163篇ICML-2021强化学习领域论文整理汇总(2021.06.07)
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室 来源:整理自https: ...
- 集成的分层强化学习,让人工智能在解决智能问题时表现得更聪明
本文约2700字,建议阅读6分钟 本文概述了分层问题解决的认知基础,以及如何在当前的 HRL 架构中实现这些基础. 根据认知心理学的资料,生物主体复杂问题解决行为的发展,依赖于分层认知机制.分层强化学 ...
- 【强化学习】分层强化学习
最近一直在做实验的一篇论文有一些些分层强化学习的思想,就来学一学真分层强化学习,虽然已经是三四年前流程的东西了,但也有了解的必要(要不不知道怎么入手了) 分层强化学习的主要思想是将一个复杂的任务分成很 ...
- 强化学习笔记:分层强化学习
1 传统强化学习的不足 & 为什么需要分层强化学习? 传统的强化学习方法会面临维度灾难的问题,即当环境较为复 杂或者任务较为困难时,agent的状态空间过大,会导致需要学习的参数以及所需的存储 ...
最新文章
- 阿里2018营收2502亿元,云计算业务增幅超100%
- Mac OS X下Maven的安装与配置
- LESS-Middleware:Node.js 和 LESS 的完美搭配
- 【言简意赅】四句话搞懂第一范式,第二范式,第三范式,以及BCNF
- 获取springmvc中所有的Controller
- 300WLP、AFLW2000-3D、Biwi Kinect Head Pose Database姿态数据的读取
- 【虚拟机】如何判断CPU是否支持硬件虚拟化
- 半导体物理与器件_哀悼!我校校友、国际著名半导体器件物理学家、微电子学家陈星弼院士逝世...
- C语言typedef用法详解
- tpac100控制器设置教程_TP-link AC100控制器配置的详细方法
- 金山毒霸捆绑安装软件被起诉,辩称属于行业惯例
- indesign安装包.exe 自动简繁互转for_InDesign 简繁互换插件
- 上滑解锁流程 - 安卓R
- Android--高德地图,显示地图,并定位当前的位置
- 天线的极化与圆极化天线
- Mac剪切AVI视频
- 2021真无线耳机推荐,必须了解的真无线蓝牙耳机
- 自上而下拆解Synchronized
- 全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高
- 2021-07-12测绘资质新标准和旧标准改革内容