文章目录

  • 参考资料
  • 1. Model based vs Model free
    • 1. Model-based
      • 1.1 模型建立
      • 1.2 使用模型做控制
    • 2. Model-free
    • 3. 经验的其他用途
    • 4.Model-free vs Model-based

参考资料

  • https://zhuanlan.zhihu.com/p/102197348
  • https://zhuanlan.zhihu.com/p/45418829
  • 如何通俗易懂地理解基于模型的强化学习?
  • Model-Based RL
  • https://zhuanlan.zhihu.com/p/162787188

1. Model based vs Model free

1. Model-based

强化学习中所说的model-based并不是已知环境模型,或者已知状态转移概率而是要从经验中学习到一个环境模型或者其他映射,并利用这个learned model 加速策略迭代的进程

model-based 旨在高效的利用experience,提高学习效率以及实现 data-efficient。

一般来说,model-based的好处是由于其对环境的动力学特性(dynamic )进行建模,其sample efficiency更好,在样本很少的情况下学习的更好。但是一般来说其渐近表现不如model-free的算法好,即收敛之后的性能。

model-based算法有两个关键的问题,一个是建立什么样的模型,一个是怎样使用模型去做控制。

1.1 模型建立

模型的选择有:
1)nonparametric类方法,比如Bayesian nonparametric model;

2)local models,比如guided policy search,这个方法主要是反复的找更好的轨迹,并且把策略朝着该轨迹上拟合;

3)parametric models,比如使用神经网络来拟合,这种方法又分为deterministic模型和stochastic模型,deterministic计算更简单但是在样本少的时候会更容易overfit。

1.2 使用模型做控制

使用模型来做控制的方法主要有:

1)policy based method,即利用模型去探索并找到一个好的policy π:st→at\pi: s_t \to a_tπ:st​→at​ ,属于learning;

2)model predictive control(MPC),这种方法不去寻求一个依赖于当前状态的策略,而是每次遇到一个新的选择的时候,都基于模型去逐步预测、模拟、做选择。属于planning。

2. Model-free

Model-free就是我们常听到的 DQN, DDPG, PPO ,SAC等SOTA算法。它和model-based 的区别就在于是否利用经验做策略迭代之外的事。Model-free RL不需要去学Transition或者Reward Models

model-free在其中就是下图的 direct RL,因此 model-free 就是value/policy->acting->experience->direct RL->value/policy 的过程。

Model-free RL方法一般分成3类:

  • Value-Based Method (Q-Learning,DQN等)。
  • Policy-Based Method (Policy Gradient)。
  • Policy and Value Based Method(Actor Critic,如典型的DDPG)。

所谓的 model-based 就是在其上增加了 model learning->model->planning 的过程。通过 experience data 学习得到一个环境的模型。

显然,所有model-free都可以转变为model-based, model-based只是一个框架,任意的model-free算法都可以嵌套进去。

3. 经验的其他用途

除了用于策略迭代外,经验还可用于:

  • 拟合环境模型以及即时奖励模型 ,作为新的数据源补充算法的训练
    Dyna, ME-TRPO, NAF
  • 拟合未来的值函数以及即时奖励,辅助决策
    VPN, I2A
  • 拟合未来的Q值,用于增加Q值预估的质量,将其在环境模型中展开(rollout)
    MVE, STEVE, MBPO

rollout定义可以参考如下:

4.Model-free vs Model-based

  • 无模型的方法不需要构建环境模型。智能体直接与环境交互,并基于探索得到的样本提升其策略性能。
  • 与基于模型的方法相比,无模型的方法由于不关心环境模型,无须学习环境模型,也就不存在环境拟合不准确的问题,相对更易于实现和训练。
  • 然而,无模型的方法也有其自身的问题。最常见的问题是,有时在真实环境中进行探索的代价是极高的,如巨大的时间消耗、不可逆的设备损耗及安全风险,等等。比如在自动驾驶中,我们不能在没有任何防护措施的情况下,让智能体用无模型的方法在现实世界中探索,因为任何交通事故的代价都将是难以承受的。

Model based RL概述相关推荐

  1. ”AE-OT A NEW GENERATIVE MODEL BASED ON EXTENDED“阅读笔记

    "AE-OT A NEW GENERATIVE MODEL BASED ON EXTENDED SEMI-DISCRETE OPTIMAL TRANSPORT"阅读笔记 来源:IC ...

  2. 小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks.

    小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks 文章目录 小样本论文笔记5:Mod ...

  3. Face Swapping under Large Pose Variations: a 3D Model Based Approach论文阅读笔记

    题目:Face Swapping under Large Pose Variations: a 3D Model Based Approach 翻译:大姿态变化下的人脸交换:一种基于三维模型的方法 摘 ...

  4. 论文阅读【异常检测】ModelCoder: A Fault Model based Automatic Root Cause Localization Framework for Microservi

    ModelCoder: A Fault Model based Automatic Root Cause Localization Framework for Microservice Systems ...

  5. A Rapid Scene Depth Estimation Model Based on Underwater Light Attenuation Prior......

    A Rapid Scene Depth Estimation Model Based on Underwater Light Attenuation Prior for Underwater Imag ...

  6. Contrast in Haze Removal: Configurable Contrast Enhancement Model Based on Dark Channel Prior

    吐槽吐槽!!!有史以来读的最费劲的一篇文章,各种长句!各种句式!各种缩写!各种实验中夹杂公式!!!各种各种!!!可是是IEEE的文章呢,读了那么多英文文章的如今读到我开始怀疑我的英文水平了,怀疑人生了 ...

  7. A data-driven two-lane traffic flow model based on cellular automata

    A data-driven two-lane traffic flow model based on cellular automata 这是一篇发表在 Physica A 上的一篇论文.cellul ...

  8. 【论文学习】《Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks》

    <Parallel WaveGAN : A fast waveform generation model based on generative adversarial networks wit ...

  9. WOFOST模型Matlab,WOFOST Model Based on Soil Moisture Driven and Its Adaptability

    [1]王鹏文,潘万博.我国玉米发展现状和趋势分析[J].天津农学院学报,2005,12(3):53-57.Wang P W,Pan W B. Present situation and objecti ...

  10. A Pulmonary Nodule Detection Model Based on Progressive Resolution and Hierarchical Saliency

    paper:https://arxiv.org/abs/1807.00598 摘要 胸部CT上肺结节的检出是肺癌早期诊断的重要步骤,对于患者是至关重要的.虽然在文献中已经发表了一些计算机辅助结节检测方 ...

最新文章

  1. 重磅直播|基于激光雷达的感知、定位导航应用
  2. 图像处理之霍夫变换(直线检測算法)
  3. python【数据结构与算法】 python3 deque模块(双端队列)
  4. WebSocket相关
  5. Java基础——异常处理
  6. Windows10局域网内共享资源(你没有权限访问 或者 账号或者密码错误)
  7. zw版【转发·台湾nvp系列Delphi例程】HALCON DispCross
  8. [html] DOM节点的根节点是不是body?
  9. Google浏览器调试前端代码
  10. 彻底告别“人工+Excel”低效模式,传统制造业实现“一站式”数据化管理
  11. linux设置最大打开文件数
  12. SystemVerilog 2005 语法
  13. 华为机试HJ4:字符串分隔
  14. CSS3最颠覆性的动画效果,基本属性[过渡和2D]
  15. 用sql写每年的第三周_如何写好5000行的SQL代码
  16. 正则全攻略使用手册,你确定不进来看看吗
  17. 甄零一诺合同——专注合同信息化管理
  18. 2019吉林大学计算机学硕考研,计算机科学与技术学院2019年硕士研究生复试基本要求...
  19. win7虚拟机安装VMware tools失败
  20. ecmall php传变量,PHP_ECMall支持SSL连接邮件服务器的配置方法详解,首先,主要是ecmall使用的phpmail - phpStudy...

热门文章

  1. Passive Aggressive Alogrithm
  2. 武科大计算机科学与技术教务处,欢迎访问武汉理工大学计算机科学与技术学院...
  3. 微信订阅号获取openid
  4. 阿里云国际版账户登录不上去什么原因?
  5. 汉诺塔_-Chaz-_新浪博客
  6. python的小tips
  7. matlab演示波粒二象性,MATLAB实验电子波动性的Matlab仿真
  8. 视频技术系列 - 谈谈毫米波
  9. 高速CAN收发器TJA1043的状态机
  10. 起风了用计算机按,用计算机弹起风了要点那些键