关注公众号,发现CV技术之美

以无法为有法,以无形为有形

基于模型的强化学习算法 (Model-Based Reinforcement Learning, Model-Based RL) 就很好地体现了以上这句话的精神本质。该类算法一般先从数据中学习环境模型,然后基于学到的环境模型对策略进行优化,从而实现了“有法”和“有形”。

引言强化学习面对实际落地场景急需解决的是样本效率低下的问题。基于模型的强化学习方法通过构建环境模型,从而减少与真实环境的交互次数,因此可以天然地提高样本利用效率。

我们说的环境模型,一般可以从数学上抽象为状态转移函数和奖励函数。一旦有了这两部分,理想情况下智能体就可以不需要与真实环境进行交互,通过在环境模型中最大化累积奖励回报,训练得到策略。图1就是机械臂在环境模型中学习策略,执行动作。

图1. 机械臂在环境模型中学习策略

1.   Model-Based RL简介

Model-Based RL算法门类众多,可以从状态表征、环境建模、理论推导以及与其他方向交叉结合等不同角度切入,因此很难通过较为清晰的树状结构进行归纳。因此本文通过“如何构建环境模型”和“如何利用环境模型”这两个角度,对Model-Based RL算法进行简单归类,如图2所示。

图2. Model-Based RL算法分类

   1.1  模型学习 (Learn the Model) ——如何构建环境模型

模型学习主要突出的是Model-Based RL算法对环境模型的构建过程。下面简单介绍上面图2中所提到的四种相关算法。

  • World Model提出一种基于无监督学习的环境模型,并利用该模型实现从仿真到现实的任务迁移。

  • I2A提出一种基于想象力增强 (imagination-augmented) 的模型结构,通过对轨迹预测进行策略学习。

  • MBMF在一些标准基准任务上探索了具有学习环境模型的 MPC方法。

  • MBVE提出一种基于环境模型生成的模拟数据来改进对值估计的方法。

但天下没有免费的午餐 (There's No Free Lunch.),Model-Based RL在模型学习部分也存在若干问题

  • 环境建模存在误差,而且随着算法与环境模型的迭代交互,累积误差越来越大,使得算法难以收敛到最优解。

  • 环境模型缺乏通用性,每次换一个问题,就要重新建模。

1.2  模型利用 (Given the Model) ——如何利用环境模型

模型利用主要强调Model-Based RL算法使用环境模型的辅助策略学习。下面简单介绍前面图2中所提到的四种相关算法。

  • ExItAlphaZero都是基于专家迭代 (Expert Iteration) 和 蒙特卡洛树搜索的方法学习策略。

  • POPLIN基于环境模型做在线规划,提出分别对动作空间和参数空间的优化思路。

  • M2AC提出一种基于模型不确定性的mask机制,增强了策略提升。

2.   Model-Based RL 总结梳理

为了构建Model-Based RL社区,降低领域入门门槛,我们对Model-Based RL的一些经典论文和前沿进展进行梳理,主要侧重NeurIPS, ICLR, ICML三大顶会中的相关工作,相关论文列表已整理好放置于GitHub平台。

⭐️ Model-Based RL Paper List github链接:

https://github.com/opendilab/awesome-model-based-RL

本项工作的贡献可以归纳以下几点:

  • 追踪最新model-based RL前沿研究,同时给出领域内的经典论文;

  • 内容清晰全面;

    • 总结每篇论文的核心关键

    • 包含论文里的实验环境

    • 统计出现在openreview的论文审稿分数

通过对2021年Model-Based RL的顶会文章做简单分析,有以下三点共识

  • 对隐空间 (Latent Space) 建模和决策更加重视。

  • Model-Based RL和离线强化学习 (Offline RL) 联系较为紧密,未来潜力巨大。

  • 学术界研究Model-Based RL的实验环境还都在活跃在仿真器中,多是mujoco, deepmind control suite, deepmind lab, atari和d4rl dataset。

3.   结语

我们将继续在 Model-Based RL Paper List 仓库中推进Model-Based RL的研究进展,包括一些算法文章解读,并结合DI-engine进行代码实现。

同时也欢迎志同道合的小伙伴Pull Request相关工作,共同营造健康、可持续的Model-Based RL学术生态。

⭐️ DI-engine github链接:

https://github.com/opendilab/DI-engine

Model-Based RL前沿追踪——以无法为有法,以无形为有形相关推荐

  1. 小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks.

    小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks 文章目录 小样本论文笔记5:Mod ...

  2. ”AE-OT A NEW GENERATIVE MODEL BASED ON EXTENDED“阅读笔记

    "AE-OT A NEW GENERATIVE MODEL BASED ON EXTENDED SEMI-DISCRETE OPTIMAL TRANSPORT"阅读笔记 来源:IC ...

  3. Face Swapping under Large Pose Variations: a 3D Model Based Approach论文阅读笔记

    题目:Face Swapping under Large Pose Variations: a 3D Model Based Approach 翻译:大姿态变化下的人脸交换:一种基于三维模型的方法 摘 ...

  4. 论文阅读【异常检测】ModelCoder: A Fault Model based Automatic Root Cause Localization Framework for Microservi

    ModelCoder: A Fault Model based Automatic Root Cause Localization Framework for Microservice Systems ...

  5. A Rapid Scene Depth Estimation Model Based on Underwater Light Attenuation Prior......

    A Rapid Scene Depth Estimation Model Based on Underwater Light Attenuation Prior for Underwater Imag ...

  6. Contrast in Haze Removal: Configurable Contrast Enhancement Model Based on Dark Channel Prior

    吐槽吐槽!!!有史以来读的最费劲的一篇文章,各种长句!各种句式!各种缩写!各种实验中夹杂公式!!!各种各种!!!可是是IEEE的文章呢,读了那么多英文文章的如今读到我开始怀疑我的英文水平了,怀疑人生了 ...

  7. A data-driven two-lane traffic flow model based on cellular automata

    A data-driven two-lane traffic flow model based on cellular automata 这是一篇发表在 Physica A 上的一篇论文.cellul ...

  8. 【论文学习】《Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks》

    <Parallel WaveGAN : A fast waveform generation model based on generative adversarial networks wit ...

  9. 【目标追踪】三帧差法原理及实现

    三帧差法原理及实现 (一)帧差法原理及实现: (二)帧差法存在的问题: (三)三帧差法的原理: (四)三帧差法的实现代码: (五)视频中的目标追踪效果: 关注我的公众号: (一)帧差法原理及实现: 这 ...

最新文章

  1. prometheus监控耗时MySQL_Grafana+Prometheus监控mysql性能
  2. oracle decode函数
  3. 原来信用卡肉这么肥,怪不得银行天天给你发短信叫你办理
  4. 麦克风阵列音频检查方法和标准
  5. hdu2609 How many
  6. movielens推荐系统_案例|推荐系统的评估指标
  7. MATLAB 句柄函数记录——多变量
  8. VS2008建立webserver(转)
  9. SpringMVC 中整合JSON、XML视图二
  10. Redis入门到入土教程_1
  11. 针对卡巴斯基2010的免杀研究
  12. Outlook验证服务器证书,OUTLOOK2019 解决 无法验证您连接到的服务器使用的安全证书...
  13. Hbase与pegasus对比
  14. eoLinker-API_Shop_知识类API调用的代码示例合集:驾考题库、ISBN书号查询等
  15. h5将word转为html,怎么把Word版通知转化成H5版
  16. 油猴插件安装以及好用的脚本推荐 包含电脑版本和手机版本
  17. 中国移动ZN-M160G光猫超级密码破解 | 河南移动兆能光猫超管密码获取 | 中国移动光猫如何开启UPnP功能
  18. 求滑动窗口中的最大值和最小值
  19. 六大任务赏金平台,带你深度参与区块链的发展
  20. CodeVS4416 FFF 团卧底的后宫

热门文章

  1. Uncaught SyntaxError: Unexpected identifier ”的报错解决
  2. CSS基础必备知识点05
  3. 基于人机交互设备测量用户情绪。
  4. 交换排序(冒泡、快速)
  5. Huffman编码解码
  6. Namomo Spring Camp Div2 Week1 - 第五次打卡
  7. android6.0关机动画,安卓系统修改开机动画,关机动画
  8. pandas 转换为文本类型_分享5个高效的pandas函数!
  9. 计算机按应用可分为几类,计算机按性能可以分为哪几类
  10. TEN网格数据导入oracle,开源-Solidity 分散的oracle网络的示例链链接。-糯米PHP