强化学习——有模型（Model-base）与无模型（Model-free）RL

Model-base RL

在这个过程中，agent 没有跟环境进行交互，环境的所有信息（转移概率和价值函数都给了，不需要自己探索）都具有了。

Model-free RL

在这个过程中，agent没有环境的信息，需要跟环境进行交互，采集到很多的轨迹数据，agent 从轨迹中获取信息来改进策略，从而获得更多的奖励。

与环境交互获得的轨迹如下

有模型与无模型预测和控制的方法

有模型（MDP）：

预测：动态规划DP

控制：policy iteration；value iteration

无模型：

预测：MC；TD

控制：Sarsa；Q-learning；

预测之间的区别

DP和MC区别：

DP需要更新所有轨迹，需要知道环境；MC只需要更新该状态下的一条轨迹，不需要知道环境；

TD和MC区别：

TD只走一步状态值就更新；MC全部走完状态值更新

bootstrapping 的意思就是我们基于之前估计的量来估计一个量。

控制之间的区别

policy iteration；value iteration和Sarsa；Q-learning；

有模型的policy iteration；value iteration是通过求状态价值函数计算状态动作价值函数，通过使用状态动作价值函数来对策略进行max改善。

无模型的Sarsa；Q-learning使用计算出的Q函数直接改善，这是因为没有环境所以求不出状态价值函数。

强化学习3——有模型（Model-base）与无模型（Model-free）RL的区别相关推荐

强化学习动态规划策略评估策略改进策略迭代有模型无模型
目录一.动态规划 1.1核心思想 1.2异步动态规划二.策略评估与改进 2.1有模型学习与无模型学习 2.2策略评估 2.2.1输入 2.2.2输出 2.2.3迭代过程 2.3策略改进 2.3.1 ...
强化学习(一)--＞隐马尔科夫模型HMM--＞HMM模型基础
隐马尔科夫模型HMM 隐马尔科夫模型算是比较经典的机器学习模型了,在自然语言处理.语言识别.模型识别等这些领域也得到了广泛的应用.在深度学习的崛起,尤其是RNN.LSTM等神经网络序列模型的火热,HM ...
强化学习经典算法笔记(十九)：无监督策略学习算法Diversity Is All You Need
强化学习经典算法笔记19:无监督策略学习算法Diversity Is All You Need DIAYN核心要点模型定义目标函数的构造 DIAYN算法细节目标函数的优化 SAC的训练判别器的 ...
《强化学习周刊》第26期：UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
强化学习基础篇（五）：Dyna-Q 算法
强化学习基础篇(五):Dyna-Q 算法 (Dynamic Programming) 1. 简介 2. Dyna-Q 3. Dyna-Q 代码实践 4. 小结文章转于伯禹学习平台-动手学强化学习 ...
深入浅出强化学习：原理入门（待更新）
之前看强化学习的一些教学视频,发现自己对一些强化学习中符号的定义理解不太透彻,例如 \(Q_{target}\),\(Q值\), \(Q估计\),\(Q现实\),\(Q预测\), 现在发现郭宪老师的书 ...
【强化学习论文】柔性行为综合的扩散规划
文献题目:Planning with Diffusion for Flexible Behavior Synthesis 发表时间:2022 摘要基于模型的强化学习方法通常只将学习用于估计近似动力学 ...
动手学强化学习(一)
第 1 章初探强化学习 1. 强化学习的环境强化学习的智能体是在和一个动态环境的交互中完成序贯决策的. 2. 强化学习的目标在强化学习中,我们关注回报(return)的期望,并将其定义为价值(v ...
【论文笔记】基于深度强化学习的机器人操作行为研究综述
目录摘要关键词 1 引言 2 概念和术语 2.1 深度学习 2.2 强化学习 2.2.1 强化学习算法原理 2.2.2 强化学习算法分类 1. 无模型(model-free)算法和基于模型(mod ...
模型预测控制与强化学习-论文阅读（一）Integration of reinforcement learning and model predictive
模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...

强化学习3——有模型（Model-base）与无模型（Model-free）RL的区别

文章目录