文章目录

  • 前言
    • 无模型控制
      • 问题
      • 思路
      • 方法
        • On-Policy learning
          • MC
          • Sarsa
        • Off-policy learning
          • Q-learning
        • On-Policy learning 和 Off-policy learning的区别

前言

本文是学习周博雷老师的强化学习课程的心得体会。
雷大佬的GItHub

无模型控制

问题

​ 当我们不知道 MDP 模型的情况下,如何优化价值函数,得到最佳的策略。

思路

​ 这里和有模型的控制策略的估计有一个不同是,我们这里使用MC方法来估算Q函数。其余的和无模型的控制是一样的。

​ 大概思路是:初始化一个Q和π\piπ,然后不停的迭代更新Q和π\piπ。注意这里与有模型的控制的区别是,我们直接迭代的Q而不是V,(这是因为没有模型)。

方法

On-Policy learning

​ On-Policy就是使用同一个police,在迭代中不断的更新。

MC

​ 步骤1:通过MC方法估计Q-table;

​ MC方法的精髓是采样,这里利用ϵ−GreedyExploration\epsilon-Greedy Explorationϵ−GreedyExploration方法进行采样,选取每一步的动作。

​ 步骤2:根据估计出的Q-table改善π\piπ;

具体步骤如下:

具体算法如下:

Sarsa

​ sarsa是将control loop中的MC换成TD。

Off-policy learning

​ Off-policy learning有两个policy,一个探索policy和一个目标policy,我们用探索policy进行采样计算Q,然后用算出的Q来更新目标policy。

​ 优点:

  1. 可以利用别的方面的策略更新另一个方面的策略,比如将人的运动转移到机器人身上。
  2. 可以重复利用产生过的policy,节省计算资源。
Q-learning


On-Policy learning 和 Off-policy learning的区别

On-Policy learning:

​ 始终只有一个policy,只是在迭代中不停的更新。

​ 学出的策略比较保守。

Off-policy learning:

​ 这里有一个探索policy和一个目标policy,我们用探索policy进行采样计算Q,然后用算出的Q来更新目标policy。

​ 学出的策略比较激进。

sarsa和Q-learning的区别:

强化学习4——无模型控制model-free control (On-Policy learning:Sarsa和Off-policy learning:Q-learning)相关推荐

  1. [论文]基于强化学习的无模型水下机器人深度控制

    基于强化学习的无模型水下机器人深度控制 摘要 介绍 问题公式 A.水下机器人的坐标框架 B.深度控制问题 马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...

  2. 基于模型的强化学习比无模型的强化学习更好?错!

    作者 | Carles Gelada and Jacob Buckman 编辑 | DeepRL 来源 | 深度强化学习实验室(ID:Deep-RL) [导读]许多研究人员认为,基于模型的强化学习(M ...

  3. 重温强化学习之无模型学习方法:时间差分方法

    1.时间差分方法简介 强化学习中最核心也是最新奇的想法 混合DP和MC思想:        与MC类似,TD也从历史经验中学习:与DP类似使用后继状态的值函数更新当前状态的值函数 蒙特卡洛只是适用于片 ...

  4. 强化学习4——无模型预测(蒙特卡洛法和TD法)

    文章目录 强化学习--无模型预测与控制 无模型的概念 无模型预测 蒙特卡洛法 基本蒙特卡洛 改进增量MC更新算法 动态规划(DP)与蒙特卡洛(MC)的区别 Temporal Difference(TD ...

  5. 强化学习之无模型方法一:蒙特卡洛

    无模型方法(model-free) 无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法.该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索. 由于 ...

  6. 强化学习(四) - 无模型学习(MC、TDL)

    上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...

  7. 重温强化学习之无模型学习方法:蒙特卡洛方法

    1.无模型方法简介 无模型属于学习方法的一种,(学习和规划),需要智能体和环境进行交互,一般采用样本备份,需要结合充分的探索 MDPs中未知P,R-无模型 交互是为了更加了解环境,了解状态 动态规划是 ...

  8. 重温强化学习之无模型学习方法:TD(lambda)

    1.多步自举 一步TD:TD(0),白色圈V函数,黑色Q函数,后继状态V函数更新当前状态V函数,采样,智能体和环境进行交互.根据状态采取一个动作,转为后继状态,环境给一个奖励-->采样一步得到后 ...

  9. 初探强化学习(6)到底TMD什么是model-based和model-free(基于模型的强化学习和基于模型的强化学习 TMD的到底是什么)

    0 如何定义无模型和有模型 Model-based和Model-free方法对比 Model-based: 一旦model学好后,就是采用On-Policy的算法: 一旦model学好后,就不需要与真 ...

最新文章

  1. 难忘的一天——装操作系统(三)
  2. 以上帝模式管理Windows系统
  3. python【数据结构与算法】Floyd算法模拟
  4. ft2232驱动安装方法_关于Win10无法安装英伟达驱动的处理方法
  5. Optaplanner终于支持多线程并行运行 - Multithreaded incremental solving
  6. javafx窗体程序_JavaFX真实世界应用程序:欧洲电视网广播联盟
  7. SIP 中的Dialog,call,session 和 transaction .
  8. 内含福利|CSDN携手字节跳动:云原生Meetup北京站报名热烈启动,1月8日见!
  9. linux之ssh使用与配置
  10. 深度学习《CGAN模型》
  11. 2018 ngChina —— “跨平台”版块简介
  12. RTOS原理与实现05:事件控制块实现
  13. 输入框输入文字字符匹配
  14. atitit.编程语言 类与对象的 扩展机制.doc
  15. 计算机考研804是什么意思,北邮通信考研专业课801和804的选择
  16. Postgis使用工具raster2pgsql批量导入栅格数据(一)
  17. nandflash oob解析
  18. idea项目列表名称与项目名称不一致
  19. 电商小程序实战教程-分类导航
  20. 通过JSP网页连接MySQL数据库,从MySQL数据库中读出一张表并显示在JSP网页中

热门文章

  1. 0123互联网新闻 | 在线教育机构掌门1对1获3.5亿美元融资;淘宝直播独立App将在春节前上线...
  2. LeetCode_每日一题(8月)
  3. zkdoctor安装部署
  4. [十六]JavaIO之InputStreamReader 与 OutputStreamWriter
  5. 批量给MapGis文件正确的地图参数
  6. Ansible-playbook简单应用的几个实例
  7. 熟悉linux的安全与优化
  8. mysql 性能分析 命令_MySQL中使用SHOW PROFILE命令分析性能的用法整理
  9. 反置页表(1__操作系统)
  10. SpringBoot中Profile配置和加载配置文件