一、Model-based RL

Model-Free RL,从经验中学习价值函数(以及/或者策略)。

Model-based RL,从经验中直接学习环境的MDP模型。(状态转移概率P以及奖励矩阵R)从模型出发,规划价值函数(和/或策略)。能够更加有效的学习,减少模型的不确定性,但是缺点是会带来两个(学习模型,进行规划)过程的误差。

这里有一个重要的假设,就是R和P是互相独立的,也就是某一时刻的状态和行为(s,a)(s,a)获得的下一时刻收益r∼Rr∼R和下一时刻状态s∼Ps∼P无关。

  • 那么第一步,经验中学习模型就是两个监督学习问题:

回归问题: s,a→rs,a→r

分类问题: s,a→s′s,a→s′

至于用什么来表示模型的P和R,高斯过程模型、线性高斯模型、神经网络模型都是可以的。

  • 第二步,就是利用学习到的模型进行规划。

我们有价值迭代,策略迭代,树搜索等方法。此外,还可以直接对已知模型进行抽样,对抽样出的experience利用前几节的model-free方法如Q-learning、Sarsa、Monte-Carlo-Control等进行规划。

二、Integrated Arch

Dyna:从真实experience和simulated experience中学习和规划价值函数(策略)。其中后者是我们学习到的MDP(不精确的模型)产生的sample。

从算法过程上来看,就是在每一步,用真实环境的Sample数据学习一次Q,并学习一次Model,然后用Model产生的sample学习n次Q。

三、Simulation-based Search

关注当前状态,利用Forward Search算法,建立一个以当前状态stst为root的搜索树。

基于模拟的搜索:从当前状态开始,利用我们的模型计算出k个episode;然后利用model-free的方法进行学习和规划。

模拟过程中采用的策略:如果当前需要的状态和动作已经包含在构造的树中,那么最大化Q;否则随机选择Action(exploration)。

Dyna-2,利用real experience学习long-term memory,利用simulated experience 学习 short-term memory。

原文地址:http://cairohy.github.io/2017/09/11/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-8%EF%BC%9AIntegrating%20Learning%20and%20Planning/

【David Silver强化学习公开课】-8:Integrating Learning and Planning相关推荐

  1. 【David Silver强化学习公开课之一】强化学习入门

    本文是David Silver强化学习公开课第一课的总结笔记.第一课主要解释了强化学习在多领域的体现,主要解决什么问题,与监督学习算法的区别,完整的算法流程由哪几部分组成,其中的agent又包含什么内 ...

  2. David Silver强化学习公开课自学笔记——Lec2马尔科夫决策过程

    本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学 0.数学规范 大写字母表示随机变量:S,A,RS,A,RS,A,R等 小写字母表示具体的值:s,a,rs,a,rs,a,r等 空心字母表示统计运算 ...

  3. David Silver强化学习公开课自学笔记——Lec1强化学习简介

    本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学 1.背景介绍 (1)背景 强化学习是多学科多领域交叉的产物,本质是解决决策问题,即学会自动决策,在各个领域体现不同,但都归结为人类如何且为什么能做 ...

  4. 【David Silver强化学习公开课】-6:Value Function Approximation

    一.介绍 找到一种适应真实情况(很大的状态空间)的RL方法,之前的价值函数表示是通过一个S×A的表(Table)来表示Q(s,a).状态空间很大时,这种表示内存占用过大,而且单独学习每个state的价 ...

  5. 【David Silver强化学习公开课】-5:Model-Free Control

    一.介绍 这一讲的内容是大部分情况下真实使用的算法,也就是在对环境一无所知的情况下,去学习出一个好的策略.首先介绍一些概念: Model-Free Control,在环境未知的前提下,如何学习策略(价 ...

  6. 【David Silver强化学习公开课】-4:Model-Free Prediction

    一.介绍 无论是价值迭代还是策略迭代,都是在已经知道MDP模型(也就是动态转移矩阵P和奖励R)的前提下用DP的方式进行控制.那么如果对模型的这些属性并不了解,要如何进行预测和控制呢? 本节主要讲几种方 ...

  7. 【David Silver强化学习公开课】-7:Policy Gradient

    一.介绍 之前的控制方法都是Value-based,而在确定价值函数之后,其实我们是在价值函数的基础上确定了某种策略(贪婪,ϵϵ-贪婪)找到action.那么我们为什么不直接通过策略函数控制actio ...

  8. 【David Silver强化学习公开课】-3:DP

    一.一些概念 MDP的两个规划问题: 预测,给定MDP和策略π,求出价值函数vπvπ 控制,给定MDP,求出最佳价值函数v∗v∗和最佳策略π∗π∗ Policy Evaluation策略评估: 给定一 ...

  9. David Silver强化学习公开课】-2:MDP

    一.一些概念 马尔科夫性质:当前时刻状态仅仅与前一个时刻相关. 状态转移矩阵,表明了任意状态a到状态b的条件概率. 马尔科夫过程(马尔科夫链):一个具有马尔科夫性质的无记忆的随机过程,包含n个状态. ...

最新文章

  1. BigDecimal 类型转换、运算、比较
  2. python安装之后怎么打开-安装python后如何通过Python打开网页
  3. maxwell中文汉化补丁_《我的世界:地下城》中文剧情流程攻略 通关视频流程
  4. charles 安装 ssl_charles抓包配置
  5. python学习笔记二— 循环
  6. dbref java_查询mongodb dbref内部字段
  7. mysql降级导入_mysql 升级和降级
  8. r语言t检验输出检验统计量_如何进行统计分析
  9. js处理DataSet数据源
  10. 百度地图点聚合,加载1万个marker
  11. 为什么要去学习函数式编程
  12. c语言数据类型转换规律,c语言,数据类型转换
  13. IDEA Mac快捷键
  14. java五子棋的报告_Java课程设计 - 五子棋(个人报告)
  15. python将一张图片粘贴到另外一张图片上,按照指定坐标放置
  16. 1分钟搞定两个电脑之间谷歌收藏夹的迁移,不用账号!不用下载!
  17. 明明输给了 SpaceX,OneWeb 为什么还能拿到英国政府的钱?
  18. Things3 3.13.13 一款优秀的GTD任务管理工具
  19. win7配置C语言VS2010,开发Windows7软件的绝配:Visual Studio 2010
  20. HNUST 辅导上机(模拟)

热门文章

  1. xml simpleXML_load_file(), simpleXML_load_string()
  2. Spring+Quartz 集群
  3. iBATIS.NET 学习笔记(五)
  4. lstm网络python代码实现
  5. Python进阶_wxpy学习:机器人对象
  6. Anaconda prompt:Cache entry deserialization failed, entry ignored
  7. 笔记本安装linux系统_Win10怎么安装linux双系统?win10安装linux双系统教程
  8. [云炬创业基础笔记]第二章创业者测试10
  9. 云炬随笔20161223
  10. 云炬Android开发教程 Android Studio自带的AVD模拟器安装教程