【分层强化学习】HAC论文及代码

论文名称：Learning Multi-Level Hierarchies with Hindsight
论文作者：Andrew Levy, George Konidaris, Robert Platt, Kate Saenko
发表自：ICLR 2019
当前谷歌学术引用量：134

文章链接：https://arxiv.org/abs/1712.00948

与HIRO一样，本文解决的同样是分层强化学习中不同层级策略学习所存在的non-stationary（非平稳问题），但是用了完全不同思想的方法。分层强化学习通过将任务分解成多个子任务，样本利用率更高。然而，在分层结构中，上层的转移函数取决于下层的策略，当所有层级的策略同时进行训练时，下层策略不断更新，这就导致了上层的转移函数会随之不断变化，在这样的非平稳环境中，智能体很难学习到最优策略，这就是分层强化学习所面临的非平稳（non-stationary）问题。

为了有效解决这个non-stationary问题，HIRO使用了off-policy correction的方式，即重新提出子目标，使其能够适应不同时刻的底层策略。这篇文章则使用了hindsight的方法。加入了一些hindsight transition。hindsight就是事后的意思。文章假设一旦所有下层策略收敛到最优或者次优的时候，这时候同时学习多层策略就可以做到。

文章中主要提出Hindsight Action Transitions、Hindsight Goal Transitions、Subgoal Testing Transitions实现原始transition的修改和扩展来解决非平稳性问题。

已经总结的比较好博客：
知乎XuanAxuan：https://www.zhihu.com/question/520764541/answer/2439785957
知乎赵英男：
https://zhuanlan.zhihu.com/p/91055669

总结：
1.关于hindsight action transitions其实就是将transition中的action（也就是下一层的goal）修改为实际到达的state，通过这样的方式实现了假定底层策略为最优或者次优策略的目的（因为在这种修改下你的trajectory是按照提出的goal走的）。
2.关于Hindsight Goal Transitions是将 Hindsight Experience Replay 扩展到了分层结构中，保证了每一层级均能在一段动作之后获得一个稀疏奖励。简单来说，Hindsight goal transitions 就是在每隔一段transitions序列之后，在这一些transitions中选择一个所达到的 next state作为当前层级的goals，这样就能保证一定会有一个transitions的reward是有效的。

3.关于Subgoal testing transitions，尽管 hindsight action transitions 与 hindsight goal transitions 能够让智能体在稀疏奖励下并行学习各级策略，但hindsight action的定义限制了第 i 层的hindsight action只能是第 i−1层在 H个action以内能够达到的状态，这就使得一个层级只能学习到当前状态附近的subgoal action的Q值，而忽略需要超过 H 个动作才能达到的subgoal actions，进而会导致Q值的估计出现偏差。Subgoal testing transitions的作用与hindsight action transitions的作用截然相反：hindsight action transitions在假设下层策略最优的情况下，学习当前层级策略；而 subgoal testing transitions 则是用于让当前策略理解在当前的低层策略下，一个subgoal状态是否能够被实现。

加入了subgoal testing transition,critic function不会忽略那些不可达的子目标的值函数，同时每个子目标层也能够同时学习，Q值还是会更倾向那些底层目标可达到的子目标。

疑问：
1.在hindsight action transitions中对于为什么该方法对于智能体的顶层有效，在赵的博客中这样描述：尽管目前这些transtition的奖励仍然为-1，但是对于智能体的顶层还是有用的。通过这些transitions，高层策略能够学习如何提出自己的子目标，因为time scale是相同的。同时这些transition能够不考虑non-stationary的问题。
在Xuan的博客中这样描述：尽管这些hindsight action均不能获得稀疏奖励，它们对智能体的上层训练依然是有帮助的，因为它们能够帮助高层策略找到个原始动作所能达到的目标。并且，这些transitions都能够克服下层策略变化或者探索产生的影响。

算法伪码：
本算法总结来说，其实就是产生三种不同的transitions放入经验回放池里用于训练，因此算法的流程实际上就是产生不同样本的流程。

仿真结果：

1.分层比不分层效果好
2.分三层比分两层效果好
3.HAC比HIRO效果好

HAC实现代码（pytorch版本）：https://github.com/nikhilbarhate99/Hierarchical-Actor-Critic-HAC-PyTorch

【分层强化学习】HAC论文及代码相关推荐

分层强化学习：基于选项（option）的强化学习/论文笔记 The Option-Critic Architecture 2017 AAAI
The Option-Critic Architecture 2017 AAAI 1 option option 可以看作是一种对动作的抽象. 一般来说,option可以表示为一个三元组,其中: 是这 ...
【论文笔记】分层强化学习鼻祖：Feudal Reinforcement Learning 1993
1993年的分层强化学习:Feudal Reinforcement Learning 概括 1992年没有深度学习,人们研究RL的思路与现在并不相同.但不可否认,提出"分层强化学习" ...
【干货总结】分层强化学习(HRL)全面总结
深度强化学习实验室来源:https://zhuanlan.zhihu.com/p/267524544 作者:脆皮咕(S.Q.Yang) 编辑:DeepRL 最近做分层强化学习的survey,系统地看 ...
分层强化学习综述：Hierarchical reinforcement learning: A comprehensive survey
论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...
【最新重磅整理】82篇AAAI2021强化学习领域论文接收列表
深度强化学习实验室官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室&AMiner 编 ...
【重磅最新】163篇ICML-2021强化学习领域论文整理汇总(2021.06.07)
深度强化学习实验室官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室来源:整理自https: ...
集成的分层强化学习，让人工智能在解决智能问题时表现得更聪明
本文约2700字,建议阅读6分钟本文概述了分层问题解决的认知基础,以及如何在当前的 HRL 架构中实现这些基础. 根据认知心理学的资料,生物主体复杂问题解决行为的发展,依赖于分层认知机制.分层强化学 ...
【强化学习】分层强化学习
最近一直在做实验的一篇论文有一些些分层强化学习的思想,就来学一学真分层强化学习,虽然已经是三四年前流程的东西了,但也有了解的必要(要不不知道怎么入手了) 分层强化学习的主要思想是将一个复杂的任务分成很 ...
强化学习笔记：分层强化学习
1 传统强化学习的不足 & 为什么需要分层强化学习? 传统的强化学习方法会面临维度灾难的问题,即当环境较为复杂或者任务较为困难时,agent的状态空间过大,会导致需要学习的参数以及所需的存储 ...

【分层强化学习】HAC论文及代码

【分层强化学习】HAC论文及代码相关推荐

最新文章

热门文章