文章目录

  • 强化学习——有模型(Model-base)与无模型(Model-free)RL
    • Model-base RL
    • Model-free RL
    • 有模型与无模型预测和控制的方法
      • 预测之间的区别
      • 控制之间的区别

强化学习——有模型(Model-base)与无模型(Model-free)RL

Model-base RL

​ 在这个过程中,agent 没有跟环境进行交互,环境的所有信息(转移概率和价值函数都给了,不需要自己探索)都具有了。

Model-free RL

​ 在这个过程中,agent没有环境的信息,需要跟环境进行交互,采集到很多的轨迹数据,agent 从轨迹中获取信息来改进策略,从而获得更多的奖励。

​ 与环境交互获得的轨迹如下

有模型与无模型预测和控制的方法

有模型(MDP):

​ 预测:动态规划DP

​ 控制:policy iteration;value iteration

无模型:

​ 预测:MC;TD

​ 控制:Sarsa;Q-learning;

预测之间的区别

DP和MC区别:

DP需要更新所有轨迹,需要知道环境;MC只需要更新该状态下的一条轨迹,不需要知道环境;

TD和MC区别:

TD只走一步状态值就更新;MC全部走完状态值更新

bootstrapping 的意思就是我们基于之前估计的量来估计一个量。

控制之间的区别

policy iteration;value iteration和Sarsa;Q-learning;

​ 有模型的policy iteration;value iteration是通过求状态价值函数计算状态动作价值函数,通过使用状态动作价值函数来对策略进行max改善。

​ 无模型的Sarsa;Q-learning使用计算出的Q函数直接改善,这是因为没有环境所以求不出状态价值函数。

强化学习3——有模型(Model-base)与无模型(Model-free)RL的区别相关推荐

  1. 强化学习 动态规划 策略评估 策略改进 策略迭代 有模型 无模型

    目录 一.动态规划 1.1核心思想 1.2异步动态规划 二.策略评估与改进 2.1有模型学习与无模型学习 2.2策略评估 2.2.1输入 2.2.2输出 2.2.3迭代过程 2.3策略改进 2.3.1 ...

  2. 强化学习(一)-->隐马尔科夫模型HMM-->HMM模型基础

    隐马尔科夫模型HMM 隐马尔科夫模型算是比较经典的机器学习模型了,在自然语言处理.语言识别.模型识别等这些领域也得到了广泛的应用.在深度学习的崛起,尤其是RNN.LSTM等神经网络序列模型的火热,HM ...

  3. 强化学习经典算法笔记(十九):无监督策略学习算法Diversity Is All You Need

    强化学习经典算法笔记19:无监督策略学习算法Diversity Is All You Need DIAYN核心要点 模型定义 目标函数的构造 DIAYN算法细节 目标函数的优化 SAC的训练 判别器的 ...

  4. 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...

    No.26 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  5. 强化学习基础篇(五):Dyna-Q 算法

    强化学习基础篇(五):Dyna-Q 算法 (Dynamic Programming) 1. 简介 2. Dyna-Q 3. Dyna-Q 代码实践 4. 小结 文章转于 伯禹学习平台-动手学强化学习 ...

  6. 深入浅出强化学习:原理入门(待更新)

    之前看强化学习的一些教学视频,发现自己对一些强化学习中符号的定义理解不太透彻,例如 \(Q_{target}\),\(Q值\), \(Q估计\),\(Q现实\),\(Q预测\), 现在发现郭宪老师的书 ...

  7. 【强化学习论文】柔性行为综合的扩散规划

    文献题目:Planning with Diffusion for Flexible Behavior Synthesis 发表时间:2022 摘要 基于模型的强化学习方法通常只将学习用于估计近似动力学 ...

  8. 动手学强化学习(一)

    第 1 章 初探强化学习 1. 强化学习的环境 强化学习的智能体是在和一个动态环境的交互中完成序贯决策的. 2. 强化学习的目标 在强化学习中,我们关注回报(return)的期望,并将其定义为价值(v ...

  9. 【论文笔记】基于深度强化学习的机器人操作行为研究综述

    目录 摘要 关键词 1 引言 2 概念和术语 2.1 深度学习 2.2 强化学习 2.2.1 强化学习算法原理 2.2.2 强化学习算法分类 1. 无模型(model-free)算法和基于模型(mod ...

  10. 模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive

    模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...

最新文章

  1. 电子狗显示连接不上服务器,大家觉得我这样做得对吗?行车记录仪新名词:云狗...
  2. 竞赛老陪跑怎么办?来自一位Kaggle比赛失败者的含泪总结
  3. 前端学习 -- Css -- 伪元素
  4. krylov子空间迭代法
  5. pysvn安装及常用方法
  6. ng-repeat part2 - How li ng-repeat=nameF in Ionames{{nameF}}/li is parsed
  7. Spring的两种动态代理:Jdk和Cglib 的区别和实现
  8. oracle11g导入错误,oracle 11g导入到10g引起的错误
  9. 【大牛疯狂教学】mysqlinnodb和myisam
  10. 新架构让数据中心犹如PC
  11. 【C语言】数据结构C语言版 实验2 不带头结点的单链表
  12. 根据Ibatis的SqlMap配置文件生成表结构
  13. n维椭球体积公式_干掉公式 —— numpy 就该这么学
  14. 广度优先遍历(Breadth First Search)
  15. 中兴B860AV2.1-T非高安 /高安版本-通用线刷固件及教程
  16. Android集成Sentry
  17. 世界上最成功的 10 位 Logo 设计师
  18. Ubuntu安装NVIDIA 显卡驱动
  19. Matlab之绘制箭头图或速度图
  20. 对象存储OSS基本概念讲解

热门文章

  1. 【CSS3】自定义滚动条样式 -webkit-scrollbar
  2. Android中WebView加载本地Html,与JavaScript与Android方法相互传值...
  3. Ubuntu 14.04 DNS 配置
  4. 404 – File or directory not found.
  5. velocity 遍历map
  6. tfrecord文件生成与读取
  7. 【5分钟搞定】如何将py打包成exe可执行文件
  8. Spark on K8S 的现状与挑战
  9. win10 + mac双系统安装常用工具
  10. 【网址收藏】helm charts github地址