Model based RL概述
文章目录
- 参考资料
- 1. Model based vs Model free
- 1. Model-based
- 1.1 模型建立
- 1.2 使用模型做控制
- 2. Model-free
- 3. 经验的其他用途
- 4.Model-free vs Model-based
参考资料
- https://zhuanlan.zhihu.com/p/102197348
- https://zhuanlan.zhihu.com/p/45418829
- 如何通俗易懂地理解基于模型的强化学习?
- Model-Based RL
- https://zhuanlan.zhihu.com/p/162787188
1. Model based vs Model free
1. Model-based
强化学习中所说的model-based并不是已知环境模型,或者已知状态转移概率。而是要从经验中学习到一个环境模型或者其他映射,并利用这个learned model 加速策略迭代的进程。
model-based 旨在高效的利用experience,提高学习效率以及实现 data-efficient。
一般来说,model-based的好处是由于其对环境的动力学特性(dynamic )进行建模,其sample efficiency更好,在样本很少的情况下学习的更好。但是一般来说其渐近表现不如model-free的算法好,即收敛之后的性能。
model-based算法有两个关键的问题,一个是建立什么样的模型,一个是怎样使用模型去做控制。
1.1 模型建立
模型的选择有:
1)nonparametric类方法,比如Bayesian nonparametric model;
2)local models,比如guided policy search,这个方法主要是反复的找更好的轨迹,并且把策略朝着该轨迹上拟合;
3)parametric models,比如使用神经网络来拟合,这种方法又分为deterministic模型和stochastic模型,deterministic计算更简单但是在样本少的时候会更容易overfit。
1.2 使用模型做控制
使用模型来做控制的方法主要有:
1)policy based method,即利用模型去探索并找到一个好的policy π:st→at\pi: s_t \to a_tπ:st→at ,属于learning;
2)model predictive control(MPC),这种方法不去寻求一个依赖于当前状态的策略,而是每次遇到一个新的选择的时候,都基于模型去逐步预测、模拟、做选择。属于planning。
2. Model-free
Model-free就是我们常听到的 DQN, DDPG, PPO ,SAC等SOTA算法。它和model-based 的区别就在于是否利用经验做策略迭代之外的事。Model-free RL不需要去学Transition
或者Reward Models
。
model-free在其中就是下图的 direct RL,因此 model-free 就是value/policy->acting->experience->direct RL->value/policy
的过程。
Model-free RL方法一般分成3类:
- Value-Based Method (Q-Learning,DQN等)。
- Policy-Based Method (Policy Gradient)。
- Policy and Value Based Method(Actor Critic,如典型的DDPG)。
所谓的 model-based 就是在其上增加了 model learning->model->planning
的过程。通过 experience data 学习得到一个环境的模型。
显然,所有model-free都可以转变为model-based, model-based只是一个框架,任意的model-free算法都可以嵌套进去。
3. 经验的其他用途
除了用于策略迭代外,经验还可用于:
- 拟合环境模型以及即时奖励模型 ,作为新的数据源补充算法的训练
Dyna, ME-TRPO, NAF - 拟合未来的值函数以及即时奖励,辅助决策
VPN, I2A - 拟合未来的Q值,用于增加Q值预估的质量,将其在环境模型中展开(rollout)
MVE, STEVE, MBPO
rollout定义可以参考如下:
4.Model-free vs Model-based
- 无模型的方法不需要构建环境模型。智能体直接与环境交互,并基于探索得到的样本提升其策略性能。
- 与基于模型的方法相比,无模型的方法由于不关心环境模型,无须学习环境模型,也就不存在环境拟合不准确的问题,相对更易于实现和训练。
- 然而,无模型的方法也有其自身的问题。最常见的问题是,有时在真实环境中进行探索的代价是极高的,如巨大的时间消耗、不可逆的设备损耗及安全风险,等等。比如在自动驾驶中,我们不能在没有任何防护措施的情况下,让智能体用无模型的方法在现实世界中探索,因为任何交通事故的代价都将是难以承受的。
Model based RL概述相关推荐
- ”AE-OT A NEW GENERATIVE MODEL BASED ON EXTENDED“阅读笔记
"AE-OT A NEW GENERATIVE MODEL BASED ON EXTENDED SEMI-DISCRETE OPTIMAL TRANSPORT"阅读笔记 来源:IC ...
- 小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks.
小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks 文章目录 小样本论文笔记5:Mod ...
- Face Swapping under Large Pose Variations: a 3D Model Based Approach论文阅读笔记
题目:Face Swapping under Large Pose Variations: a 3D Model Based Approach 翻译:大姿态变化下的人脸交换:一种基于三维模型的方法 摘 ...
- 论文阅读【异常检测】ModelCoder: A Fault Model based Automatic Root Cause Localization Framework for Microservi
ModelCoder: A Fault Model based Automatic Root Cause Localization Framework for Microservice Systems ...
- A Rapid Scene Depth Estimation Model Based on Underwater Light Attenuation Prior......
A Rapid Scene Depth Estimation Model Based on Underwater Light Attenuation Prior for Underwater Imag ...
- Contrast in Haze Removal: Configurable Contrast Enhancement Model Based on Dark Channel Prior
吐槽吐槽!!!有史以来读的最费劲的一篇文章,各种长句!各种句式!各种缩写!各种实验中夹杂公式!!!各种各种!!!可是是IEEE的文章呢,读了那么多英文文章的如今读到我开始怀疑我的英文水平了,怀疑人生了 ...
- A data-driven two-lane traffic flow model based on cellular automata
A data-driven two-lane traffic flow model based on cellular automata 这是一篇发表在 Physica A 上的一篇论文.cellul ...
- 【论文学习】《Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks》
<Parallel WaveGAN : A fast waveform generation model based on generative adversarial networks wit ...
- WOFOST模型Matlab,WOFOST Model Based on Soil Moisture Driven and Its Adaptability
[1]王鹏文,潘万博.我国玉米发展现状和趋势分析[J].天津农学院学报,2005,12(3):53-57.Wang P W,Pan W B. Present situation and objecti ...
- A Pulmonary Nodule Detection Model Based on Progressive Resolution and Hierarchical Saliency
paper:https://arxiv.org/abs/1807.00598 摘要 胸部CT上肺结节的检出是肺癌早期诊断的重要步骤,对于患者是至关重要的.虽然在文献中已经发表了一些计算机辅助结节检测方 ...
最新文章
- 重磅直播|基于激光雷达的感知、定位导航应用
- 图像处理之霍夫变换(直线检測算法)
- python【数据结构与算法】 python3 deque模块(双端队列)
- WebSocket相关
- Java基础——异常处理
- Windows10局域网内共享资源(你没有权限访问 或者 账号或者密码错误)
- zw版【转发·台湾nvp系列Delphi例程】HALCON DispCross
- [html] DOM节点的根节点是不是body?
- Google浏览器调试前端代码
- 彻底告别“人工+Excel”低效模式,传统制造业实现“一站式”数据化管理
- linux设置最大打开文件数
- SystemVerilog 2005 语法
- 华为机试HJ4:字符串分隔
- CSS3最颠覆性的动画效果,基本属性[过渡和2D]
- 用sql写每年的第三周_如何写好5000行的SQL代码
- 正则全攻略使用手册,你确定不进来看看吗
- 甄零一诺合同——专注合同信息化管理
- 2019吉林大学计算机学硕考研,计算机科学与技术学院2019年硕士研究生复试基本要求...
- win7虚拟机安装VMware tools失败
- ecmall php传变量,PHP_ECMall支持SSL连接邮件服务器的配置方法详解,首先,主要是ecmall使用的phpmail - phpStudy...