强化学习3——有模型(Model-base)与无模型(Model-free)RL的区别
文章目录
- 强化学习——有模型(Model-base)与无模型(Model-free)RL
- Model-base RL
- Model-free RL
- 有模型与无模型预测和控制的方法
- 预测之间的区别
- 控制之间的区别
强化学习——有模型(Model-base)与无模型(Model-free)RL
Model-base RL
在这个过程中,agent 没有跟环境进行交互,环境的所有信息(转移概率和价值函数都给了,不需要自己探索)都具有了。
Model-free RL
在这个过程中,agent没有环境的信息,需要跟环境进行交互,采集到很多的轨迹数据,agent 从轨迹中获取信息来改进策略,从而获得更多的奖励。
与环境交互获得的轨迹如下
有模型与无模型预测和控制的方法
有模型(MDP):
预测:动态规划DP
控制:policy iteration;value iteration
无模型:
预测:MC;TD
控制:Sarsa;Q-learning;
预测之间的区别
DP和MC区别:
DP需要更新所有轨迹,需要知道环境;MC只需要更新该状态下的一条轨迹,不需要知道环境;
TD和MC区别:
TD只走一步状态值就更新;MC全部走完状态值更新
bootstrapping 的意思就是我们基于之前估计的量来估计一个量。
控制之间的区别
policy iteration;value iteration和Sarsa;Q-learning;
有模型的policy iteration;value iteration是通过求状态价值函数计算状态动作价值函数,通过使用状态动作价值函数来对策略进行max改善。
无模型的Sarsa;Q-learning使用计算出的Q函数直接改善,这是因为没有环境所以求不出状态价值函数。
强化学习3——有模型(Model-base)与无模型(Model-free)RL的区别相关推荐
- 强化学习 动态规划 策略评估 策略改进 策略迭代 有模型 无模型
目录 一.动态规划 1.1核心思想 1.2异步动态规划 二.策略评估与改进 2.1有模型学习与无模型学习 2.2策略评估 2.2.1输入 2.2.2输出 2.2.3迭代过程 2.3策略改进 2.3.1 ...
- 强化学习(一)-->隐马尔科夫模型HMM-->HMM模型基础
隐马尔科夫模型HMM 隐马尔科夫模型算是比较经典的机器学习模型了,在自然语言处理.语言识别.模型识别等这些领域也得到了广泛的应用.在深度学习的崛起,尤其是RNN.LSTM等神经网络序列模型的火热,HM ...
- 强化学习经典算法笔记(十九):无监督策略学习算法Diversity Is All You Need
强化学习经典算法笔记19:无监督策略学习算法Diversity Is All You Need DIAYN核心要点 模型定义 目标函数的构造 DIAYN算法细节 目标函数的优化 SAC的训练 判别器的 ...
- 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
- 强化学习基础篇(五):Dyna-Q 算法
强化学习基础篇(五):Dyna-Q 算法 (Dynamic Programming) 1. 简介 2. Dyna-Q 3. Dyna-Q 代码实践 4. 小结 文章转于 伯禹学习平台-动手学强化学习 ...
- 深入浅出强化学习:原理入门(待更新)
之前看强化学习的一些教学视频,发现自己对一些强化学习中符号的定义理解不太透彻,例如 \(Q_{target}\),\(Q值\), \(Q估计\),\(Q现实\),\(Q预测\), 现在发现郭宪老师的书 ...
- 【强化学习论文】柔性行为综合的扩散规划
文献题目:Planning with Diffusion for Flexible Behavior Synthesis 发表时间:2022 摘要 基于模型的强化学习方法通常只将学习用于估计近似动力学 ...
- 动手学强化学习(一)
第 1 章 初探强化学习 1. 强化学习的环境 强化学习的智能体是在和一个动态环境的交互中完成序贯决策的. 2. 强化学习的目标 在强化学习中,我们关注回报(return)的期望,并将其定义为价值(v ...
- 【论文笔记】基于深度强化学习的机器人操作行为研究综述
目录 摘要 关键词 1 引言 2 概念和术语 2.1 深度学习 2.2 强化学习 2.2.1 强化学习算法原理 2.2.2 强化学习算法分类 1. 无模型(model-free)算法和基于模型(mod ...
- 模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive
模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...
最新文章
- 电子狗显示连接不上服务器,大家觉得我这样做得对吗?行车记录仪新名词:云狗...
- 竞赛老陪跑怎么办?来自一位Kaggle比赛失败者的含泪总结
- 前端学习 -- Css -- 伪元素
- krylov子空间迭代法
- pysvn安装及常用方法
- ng-repeat part2 - How li ng-repeat=nameF in Ionames{{nameF}}/li is parsed
- Spring的两种动态代理:Jdk和Cglib 的区别和实现
- oracle11g导入错误,oracle 11g导入到10g引起的错误
- 【大牛疯狂教学】mysqlinnodb和myisam
- 新架构让数据中心犹如PC
- 【C语言】数据结构C语言版 实验2 不带头结点的单链表
- 根据Ibatis的SqlMap配置文件生成表结构
- n维椭球体积公式_干掉公式 —— numpy 就该这么学
- 广度优先遍历(Breadth First Search)
- 中兴B860AV2.1-T非高安 /高安版本-通用线刷固件及教程
- Android集成Sentry
- 世界上最成功的 10 位 Logo 设计师
- Ubuntu安装NVIDIA 显卡驱动
- Matlab之绘制箭头图或速度图
- 对象存储OSS基本概念讲解
热门文章
- 【CSS3】自定义滚动条样式 -webkit-scrollbar
- Android中WebView加载本地Html,与JavaScript与Android方法相互传值...
- Ubuntu 14.04 DNS 配置
- 404 – File or directory not found.
- velocity 遍历map
- tfrecord文件生成与读取
- 【5分钟搞定】如何将py打包成exe可执行文件
- Spark on K8S 的现状与挑战
- win10 + mac双系统安装常用工具
- 【网址收藏】helm charts github地址