简要介绍了一下Model-Based RL领域的经典论文(2018年以前)。

文章目录

  • 引子
  • a. Model is learned
    • Imagination-Augmented Agents for Deep Reinforcement Learning, Weber, et al, 2017. Algorithm: I2A.(deepmind)
    • Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning, Nagabandi, et al, 2017. Algorithm: MBMF.
    • Model-Based Value Expansion for Efficient Model-Free Reinforcement Learning, Feinberg et al, 2018. Algorithm: MVE.
    • Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion, Buckman et al, 2018. Algorithm: STEVE.
    • Model-Ensemble Trust-Region Policy Optimization, Kurutach, et al, 2018. Algorithm: ME-TRPO.
    • Model-Based Reinforcement Learning via Meta-Policy Optimization, Clavera, et al, 2018. Algorithm: MB-MPO.
    • Recurrent World Models Facilitate Policy Evolution, Ha and Schmidhuber, 2018.
  • b.Model is Given
    • Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, Silver, et al, 2018. Algorithm: AlphaZero.
    • Thinking Fast and Slow with Deep Learning and Tree Search, Anthony et al, 2017. Algorithm: Expert Iteration(ExIt).

引子


在model-free的方法中,无非两种方式,value-based方法先学习值函数(MC或TD)再更新策略,policy-based方法直接将真实轨迹数据(real experience)更新策略。而model-based方法呢,顾名思义,会先将着重点放在环境模型(environment dynamics),通过采样先学习一个对环境的建模,再根据学习到的环境模型做值函数/策略优化。在model-based方法中,planning步骤至关重要,正是通过在learned model基础上做planning才提高了整个强化学习算法迭代的效率。

在完成了对环境的建模后,在model-based大类方法中同样有两种路径,一种是通过学到的model生成一些仿真轨迹,通过仿真轨迹估计值函数进而优化策略;另一种是通过学到的model直接优化策略,这也是目前model-based方法常走的路线。

a. Model is learned

Imagination-Augmented Agents for Deep Reinforcement Learning, Weber, et al, 2017. Algorithm: I2A.(deepmind)


Ot即为t时刻的环境状态(St)
使rollout policy来模仿最终的想象力增强的策略, 以此来进行rollout policy 的训练。

也就是说,通过和环境交互采样后,让系统学习到一个可编码的环境。在决策时,就先考虑通过模型“想象”后续情况,然后得到一个策略。得到策略后,再将这个策略用无模型的方式进行表征。

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning, Nagabandi, et al, 2017. Algorithm: MBMF.


基于模型和无模型的方法各有千秋,这篇文章希望把基于模型的收敛快和无模型的水平高相结合。因此使用模仿学习,学习专家策略,让无模型的网络较快地达到一个相对可以接受的水平,然后采用无模型强化学习。
核心其实就是用模仿学习加快了无模型强化前期的收敛速度。

Model-Based Value Expansion for Efficient Model-Free Reinforcement Learning, Feinberg et al, 2018. Algorithm: MVE.


因为模型是学习得到的,在规划时如果步数太多,模型很容易会有偏差,于是采用H步截断的方式。这样也可以减少计算的复杂度。
另外,使用AC方式训练模型,用专家网络估计后续步骤的reward,用Q估计H步后局面的价值。

Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion, Buckman et al, 2018. Algorithm: STEVE.


感觉就是刷分的方式。
用多个网络估计reward。
用多个网络学习model,进行状态转移估计。
用多个网络对H步的状态价值进行估计。
当然效果肯定也好。对于越难学到的model,ensemble的效果越好。

Model-Ensemble Trust-Region Policy Optimization, Kurutach, et al, 2018. Algorithm: ME-TRPO.


用监督学习方法学习环境动力模型,然后用TRPO进行agent的策略学习。最后用ensemble的方式让模型work得更好。

Model-Based Reinforcement Learning via Meta-Policy Optimization, Clavera, et al, 2018. Algorithm: MB-MPO.


之前的基于model的都是先随机采样学得model,之后都用这个学到的model了。本文使用环境采样和策略学习交替进行的方式。
可以想象,在前期模型不太好的情况下进行策略学习可能会带来算力上的浪费。每次学习的时候采样的又不多。
实际上,每一次学习策略都是用元学习的方式。
最终呢,这个模型不容易受到模型偏差的影响,因为它不断地在刷新自己对模型的认知。

Recurrent World Models Facilitate Policy Evolution, Ha and Schmidhuber, 2018.


用VAE来做环境的编码,用RNN对环境进行处理,用决策器(单层线性模型)进行决策。
将环境模型用在了赛车游戏中,取得了不错的效果。

b.Model is Given

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm, Silver, et al, 2018. Algorithm: AlphaZero.

Thinking Fast and Slow with Deep Learning and Tree Search, Anthony et al, 2017. Algorithm: Expert Iteration(ExIt).


神经网络更像是人的直觉,而MCTS更像是推理的过程。
用神经网络来评估当前局面,然后用MCTS进行随机采样动作,然后再用神经网络评估、再MCTS采样……如此循环直到叶子节点。

MCTS用神经网络选择行为的话,神经网络的效果会对MCTS的效果产生影响。
神经网络越来越好的同时,能够促进MCTS得到的结果越来越好,从而产生良性循环。颇有“教学相长”的味道。


都看到这里了,就顺手点个赞吧~

【论文笔记】强化学习论文阅读-Model-Based RL 9篇相关推荐

  1. 模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive

    模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...

  2. 【ICML2018】63篇强化学习论文全解读

    https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/81230588 由全球最大中文IT社区CSDN与全球AI技术社区AICamp共同打造的 ...

  3. 论文笔记—A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping

    论文笔记-A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping 论文链接 文章摘要 ~~~~    ~ ...

  4. 个人强化学习论文导航

    这里整理我笔记过的强化学习论文 持续更新中- 关于问题范数的介绍 图解 RL/IL 问题范式(On-Policy.Off-policy.Offline/Batch.IL-) Offline/Batch ...

  5. 结构体实验报告总结_解读!清华、谷歌等10篇强化学习论文总结

    强化学习(Reinforcement Learning,RL)正成为当下机器学习中最热门的研究领域之一.与常见的监督学习和非监督学习不同,强化学习强调智能体(agent)与环境(environment ...

  6. 《强化学习周刊》第69期:ICLR2023强化学习论文推荐、MIT实现自动调整内在奖励的强化学习...

    No.69 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...

  7. python全局解释器锁 tensorflow_想轻松复现深度强化学习论文?看这篇经验之谈

    近期深度强化学习领域日新月异,其中最酷的一件事情莫过于 OpenAI和 DeepMind 训练智能体接收人类的反馈而不是传统的奖励信号.本文作者认为复现论文是提升机器学习技能的最好方式之一,所以选择了 ...

  8. 【强化学习论文解读 1】 NAF

    [强化学习论文解读 1] NAF 1. 引言 2. 论文解读 2.1 背景 2.2 NAF算法原理 2.3 Imagination Rollouts方法 3. 总结 1. 引言 本文介绍一篇2016年 ...

  9. 【强化学习论文合集】三十三.2021国际人工智能联合会议论文(IJCAI2021)

    欢迎订阅本专栏:<强化学习论文合集> 专栏介绍: 本专栏整理了2017~2022年(后面会持续更新)强化学习领域国际顶级会议已录用的论文,会议包括但不限于:ICML.NeurIPS.AAA ...

  10. 【强化学习论文合集】十二.2018国际人工智能联合会议论文(IJCAI2018)

    欢迎订阅本专栏:<强化学习论文合集> 专栏介绍: 本专栏整理了2017~2022年(后面会持续更新)强化学习领域国际顶级会议已录用的论文,会议包括但不限于:ICML.NeurIPS.AAA ...

最新文章

  1. Paging Library使用及原理
  2. JavaScript打印杨辉三角
  3. c++代码好玩_Py之pygame:有趣好玩—利用pygame库实现鱼儿自动实时目标跟踪(附完整代码)...
  4. lyapunov指数 matlab计算_Matlab学习笔记1——B站台大课
  5. 博客园使用highlight.js对代码进行高亮,并实现自定义关键词高亮
  6. PID算法搞不懂?看这篇文章就够了。
  7. 《给教师的阅读建议》经典语录
  8. 干,认识Audio框架还因此发现一个雷
  9. FTP多用户权限 linux环境 一站式解决方案(基础篇)
  10. 用java进行安卓开发的步骤_如何在windows下Android开发IDE搭建步骤
  11. 数据清洗Chap4——dataframe操作
  12. 大学生涯规划800字计算机,我的大学生活规划(我的大学生活规划800字作文)
  13. java将数字转为大写(1转为一)
  14. 网络验证系统BSPHP二次开发 自定义加密解密开发
  15. Go:go程序报错Cannot run program
  16. 锂电池升压-SX1308
  17. 华为MA5600配置radius认证登陆
  18. Altium Designer——原理图中元件属性description、designator和comment的意义
  19. APISpace 汉字转五笔API
  20. 聚焦低代码SaaS云服务,让企业轻松办公!

热门文章

  1. 考研复试计算机网络篇
  2. Python让Excel飞起来—模块
  3. html图片切换动画,js实现图片切换(动画版)
  4. 人工蜂群算法的java代码_求人工蜂群算法的c程序源代码``````谢谢各位大神了``````...
  5. 银河麒麟V10 SP1服务版虚拟机安装
  6. 未来-区块链-Aliyun:阿里云IoT - 所知不止于感知
  7. 获取post请求的几种常见方式
  8. 字符串模板和dom模板的区别
  9. 文献查询、导出手册(包括 Web of Science, Endnote,EI handbook)
  10. 计算机模拟需要什么配置电脑,城市天际线配置要求 最低电脑配置要求