论文名称:Learning Multi-Level Hierarchies with Hindsight
论文作者:Andrew Levy, George Konidaris, Robert Platt, Kate Saenko
发表自:ICLR 2019
当前谷歌学术引用量:134

文章链接:https://arxiv.org/abs/1712.00948

与HIRO一样,本文解决的同样是分层强化学习中不同层级策略学习所存在的non-stationary(非平稳问题),但是用了完全不同思想的方法。分层强化学习通过将任务分解成多个子任务,样本利用率更高。然而,在分层结构中,上层的转移函数取决于下层的策略,当所有层级的策略同时进行训练时,下层策略不断更新,这就导致了上层的转移函数会随之不断变化,在这样的非平稳环境中,智能体很难学习到最优策略,这就是分层强化学习所面临的非平稳(non-stationary)问题。

为了有效解决这个non-stationary问题,HIRO使用了off-policy correction的方式,即重新提出子目标,使其能够适应不同时刻的底层策略。这篇文章则使用了hindsight的方法。加入了一些hindsight transition。hindsight就是事后的意思。文章假设一旦所有下层策略收敛到最优或者次优的时候,这时候同时学习多层策略就可以做到。

文章中主要提出Hindsight Action Transitions、Hindsight Goal Transitions、Subgoal Testing Transitions实现原始transition的修改和扩展来解决非平稳性问题。

已经总结的比较好博客:
知乎XuanAxuan:https://www.zhihu.com/question/520764541/answer/2439785957
知乎赵英男:
https://zhuanlan.zhihu.com/p/91055669

总结:
1.关于hindsight action transitions其实就是将transition中的action(也就是下一层的goal)修改为实际到达的state,通过这样的方式实现了假定底层策略为最优或者次优策略的目的(因为在这种修改下你的trajectory是按照提出的goal走的)。
2.关于Hindsight Goal Transitions是将 Hindsight Experience Replay 扩展到了分层结构中,保证了每一层级均能在一段动作之后获得一个稀疏奖励。简单来说,Hindsight goal transitions 就是在每隔一段transitions序列之后,在这一些transitions中选择一个所达到的 next state作为当前层级的goals,这样就能保证一定会有一个transitions的reward是有效的。

3.关于Subgoal testing transitions,尽管 hindsight action transitions 与 hindsight goal transitions 能够让智能体在稀疏奖励下并行学习各级策略,但hindsight action的定义限制了第 i 层的hindsight action只能是第 i−1层在 H个action以内能够达到的状态,这就使得一个层级只能学习到当前状态附近的subgoal action的Q值,而忽略需要超过 H 个动作才能达到的subgoal actions,进而会导致Q值的估计出现偏差。Subgoal testing transitions的作用与hindsight action transitions的作用截然相反:hindsight action transitions在假设下层策略最优的情况下,学习当前层级策略;而 subgoal testing transitions 则是用于让当前策略理解在当前的低层策略下,一个subgoal状态是否能够被实现。


加入了subgoal testing transition,critic function不会忽略那些不可达的子目标的值函数,同时每个子目标层也能够同时学习,Q值还是会更倾向那些底层目标可达到的子目标。

疑问:
1.在hindsight action transitions中对于为什么该方法对于智能体的顶层有效,在赵的博客中这样描述:尽管目前这些transtition的奖励仍然为-1,但是对于智能体的顶层还是有用的。通过这些transitions,高层策略能够学习如何提出自己的子目标,因为time scale是相同的。同时这些transition能够不考虑non-stationary的问题。
在Xuan的博客中这样描述:尽管这些hindsight action均不能获得稀疏奖励,它们对智能体的上层训练依然是有帮助的,因为它们能够帮助高层策略找到 个原始动作所能达到的目标。并且,这些transitions都能够克服下层策略变化或者探索产生的影响。

算法伪码:
本算法总结来说,其实就是产生三种不同的transitions放入经验回放池里用于训练,因此算法的流程实际上就是产生不同样本的流程。

仿真结果:


1.分层比不分层效果好
2.分三层比分两层效果好
3.HAC比HIRO效果好

HAC实现代码(pytorch版本):https://github.com/nikhilbarhate99/Hierarchical-Actor-Critic-HAC-PyTorch

【分层强化学习】HAC论文及代码相关推荐

  1. 分层强化学习:基于选项(option)的强化学习/论文笔记 The Option-Critic Architecture 2017 AAAI

    The Option-Critic Architecture 2017 AAAI 1 option option 可以看作是一种对动作的抽象. 一般来说,option可以表示为一个三元组,其中: 是这 ...

  2. 【论文笔记】分层强化学习鼻祖:Feudal Reinforcement Learning 1993

    1993年的分层强化学习:Feudal Reinforcement Learning 概括 1992年没有深度学习,人们研究RL的思路与现在并不相同.但不可否认,提出"分层强化学习" ...

  3. 【干货总结】分层强化学习(HRL)全面总结

    深度强化学习实验室 来源:https://zhuanlan.zhihu.com/p/267524544 作者:脆皮咕(S.Q.Yang) 编辑:DeepRL 最近做分层强化学习的survey,系统地看 ...

  4. 分层强化学习综述:Hierarchical reinforcement learning: A comprehensive survey

    论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...

  5. 【最新重磅整理】82篇AAAI2021强化学习领域论文接收列表

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室&AMiner 编 ...

  6. 【重磅最新】163篇ICML-2021强化学习领域论文整理汇总(2021.06.07)

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室 来源:整理自https: ...

  7. 集成的分层强化学习,让人工智能在解决智能问题时表现得更聪明

    本文约2700字,建议阅读6分钟 本文概述了分层问题解决的认知基础,以及如何在当前的 HRL 架构中实现这些基础. 根据认知心理学的资料,生物主体复杂问题解决行为的发展,依赖于分层认知机制.分层强化学 ...

  8. 【强化学习】分层强化学习

    最近一直在做实验的一篇论文有一些些分层强化学习的思想,就来学一学真分层强化学习,虽然已经是三四年前流程的东西了,但也有了解的必要(要不不知道怎么入手了) 分层强化学习的主要思想是将一个复杂的任务分成很 ...

  9. 强化学习笔记:分层强化学习

    1 传统强化学习的不足 & 为什么需要分层强化学习? 传统的强化学习方法会面临维度灾难的问题,即当环境较为复 杂或者任务较为困难时,agent的状态空间过大,会导致需要学习的参数以及所需的存储 ...

最新文章

  1. 阿里2018营收2502亿元,云计算业务增幅超100%
  2. Mac OS X下Maven的安装与配置
  3. LESS-Middleware:Node.js 和 LESS 的完美搭配
  4. 【言简意赅】四句话搞懂第一范式,第二范式,第三范式,以及BCNF
  5. 获取springmvc中所有的Controller
  6. 300WLP、AFLW2000-3D、Biwi Kinect Head Pose Database姿态数据的读取
  7. 【虚拟机】如何判断CPU是否支持硬件虚拟化
  8. 半导体物理与器件_哀悼!我校校友、国际著名半导体器件物理学家、微电子学家陈星弼院士逝世...
  9. C语言typedef用法详解
  10. tpac100控制器设置教程_TP-link AC100控制器配置的详细方法
  11. 金山毒霸捆绑安装软件被起诉,辩称属于行业惯例
  12. indesign安装包.exe 自动简繁互转for_InDesign 简繁互换插件
  13. 上滑解锁流程 - 安卓R
  14. Android--高德地图,显示地图,并定位当前的位置
  15. 天线的极化与圆极化天线
  16. Mac剪切AVI视频
  17. 2021真无线耳机推荐,必须了解的真无线蓝牙耳机
  18. 自上而下拆解Synchronized
  19. 全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高
  20. 2021-07-12测绘资质新标准和旧标准改革内容

热门文章

  1. 今年北京将新增城市公园31处 让市民享受高品质绿化
  2. 再见!北京!再见!百度!
  3. 将来的手机,我心中的手机 【十年前的一篇随笔】
  4. C++ 贪心算法 摇摆序列
  5. 计算机网络测试仪,网络测试仪如何使用
  6. 通过小型机液晶面板查看FSP/ASMI IP地址
  7. Crx搜搜 - 一个牛X的扩展商店
  8. 2020联发科技笔试面试经验
  9. 打开cad图纸计算机打不开,电脑上CAD软件为何打不开?打开电脑CAD软件方法!
  10. DISM 修复 Win10