一、介绍

找到一种适应真实情况(很大的状态空间)的RL方法,之前的价值函数表示是通过一个S×A的表(Table)来表示Q(s,a)。状态空间很大时,这种表示内存占用过大,而且单独学习每个state的价值函数太慢了。而且在遇到没有见过的状态时,表现会很差(缺少泛化能力)。

二、价值函数逼近-Incremental Online

使用参数化的价值函数V’(s,w)来逼近V(s),或者Q’(s,a,w)逼近Q(s,a)。常用的方法有:特征线性组合,神经网络等。那么我们就需要不断的优化这个逼近函数。

训练逼近函数的过程中,还要注意数据non-stationary和non-iid的性质。

  • 梯度下降,以真实价值函数vπvπ和估计的价值函数的MSE作为objective,用GD进行训练。(这里用V函数举例,对Q函数同理)
J(W)=Eπ[(vπ(s)−v′(s,w))2]J(W)=Eπ[(vπ(s)−v′(s,w))2]

但是,在RL中,真实价值函数是不知道的,因此在实际使用中,我们在不同的方法中使用不同的target:

MC中,target是GtGt;而TD(0)中,target是Rt+γV′(St+1,w)Rt+γV′(St+1,w);TD(λ)中,target是GλtGtλ。

所以,我们采用逼近式的策略评估过程时,相当于采用MC或者TD的target,并用GD的训练方式得到一个与真实价值函数相近的函数。

三、价值函数逼近-batch method

从乱序的数据集D中采样状态价值对,然后用来优化逼近函数。这里的优化目标是所有样本的MSE经验期望(均值)。

乱序+采样,减弱了样本之间本来的相关性。

这个部分介绍的内容也就是DQN中使用的experience replay。

第二个DQN中使用的部分就是fixed Q-target,使用两个相同的神经网络,但是计算target的网络参数较老,定期从learning网络更新参数。因为target老是更新的话,不会稳定。这个trick其实理论依据不强,主要是实践中效果比较好。

从最后给出的表格可以看出,DQN的训练非常依赖这两个trick,没有这两种变化的话,效果不怎么好。

原文地址: http://cairohy.github.io/2017/09/04/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-6%EF%BC%9AValue%20Function%20Appro/

【David Silver强化学习公开课】-6:Value Function Approximation相关推荐

  1. 【David Silver强化学习公开课之一】强化学习入门

    本文是David Silver强化学习公开课第一课的总结笔记.第一课主要解释了强化学习在多领域的体现,主要解决什么问题,与监督学习算法的区别,完整的算法流程由哪几部分组成,其中的agent又包含什么内 ...

  2. David Silver强化学习公开课自学笔记——Lec2马尔科夫决策过程

    本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学 0.数学规范 大写字母表示随机变量:S,A,RS,A,RS,A,R等 小写字母表示具体的值:s,a,rs,a,rs,a,r等 空心字母表示统计运算 ...

  3. David Silver强化学习公开课自学笔记——Lec1强化学习简介

    本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学 1.背景介绍 (1)背景 强化学习是多学科多领域交叉的产物,本质是解决决策问题,即学会自动决策,在各个领域体现不同,但都归结为人类如何且为什么能做 ...

  4. 【David Silver强化学习公开课】-8:Integrating Learning and Planning

    一.Model-based RL Model-Free RL,从经验中学习价值函数(以及/或者策略). Model-based RL,从经验中直接学习环境的MDP模型.(状态转移概率P以及奖励矩阵R) ...

  5. 【David Silver强化学习公开课】-5:Model-Free Control

    一.介绍 这一讲的内容是大部分情况下真实使用的算法,也就是在对环境一无所知的情况下,去学习出一个好的策略.首先介绍一些概念: Model-Free Control,在环境未知的前提下,如何学习策略(价 ...

  6. 【David Silver强化学习公开课】-4:Model-Free Prediction

    一.介绍 无论是价值迭代还是策略迭代,都是在已经知道MDP模型(也就是动态转移矩阵P和奖励R)的前提下用DP的方式进行控制.那么如果对模型的这些属性并不了解,要如何进行预测和控制呢? 本节主要讲几种方 ...

  7. 【David Silver强化学习公开课】-7:Policy Gradient

    一.介绍 之前的控制方法都是Value-based,而在确定价值函数之后,其实我们是在价值函数的基础上确定了某种策略(贪婪,ϵϵ-贪婪)找到action.那么我们为什么不直接通过策略函数控制actio ...

  8. 【David Silver强化学习公开课】-3:DP

    一.一些概念 MDP的两个规划问题: 预测,给定MDP和策略π,求出价值函数vπvπ 控制,给定MDP,求出最佳价值函数v∗v∗和最佳策略π∗π∗ Policy Evaluation策略评估: 给定一 ...

  9. David Silver强化学习公开课】-2:MDP

    一.一些概念 马尔科夫性质:当前时刻状态仅仅与前一个时刻相关. 状态转移矩阵,表明了任意状态a到状态b的条件概率. 马尔科夫过程(马尔科夫链):一个具有马尔科夫性质的无记忆的随机过程,包含n个状态. ...

最新文章

  1. 1.2W 字的 SQL 语法速成手册
  2. React服务端渲染实现(基于Dva)
  3. python单例模式的五种实现方式
  4. typedef void(*Fun)(void);
  5. php中添加分类的界面设计,zblog php新增自定义分类模板和文章模板
  6. matlab连续型随机变量,matlab连续型随机变量的分布.doc
  7. mysql5.1 utf8_编译安装mysql 5.1使用utf8解决乱码问题
  8. 力扣232. 用栈实现队列(JavaScript)
  9. C和指针 第十六章 标准函数库 本地跳转setjmp.h
  10. 一二线城市知名IT互联网公司名单!
  11. 高中计算机考察ppt,高中信息技术考察报告ppt课件.ppt
  12. sublime linux 中文 版,Linux 下 Sublime Text 3 中文输入 (Debian 系通用)
  13. MATLAB——逻辑函数
  14. 小红书可以赚钱吗?通过小红书赚钱的几种方式!
  15. 360众测重装上阵,创新服务模式重塑众测新业态
  16. 【MATLAB】最速下降方法
  17. VTP-------详解
  18. TCP/IP 模型与 OSI 模型对比
  19. 30000台苹果电脑遭恶意软件入侵,包括最新的M1系列!快检查一下自己的电脑
  20. Accurate, Dense, and Robust Multi-View Stereopsis论文分析与代码实现(一)

热门文章

  1. Windows 8 动手实验系列教程 实验6:设置和首选项
  2. Android应用程序运行方式以及优先级
  3. copyof java_死磕 java集合之CopyOnWriteArrayList源码分析
  4. 【Matlab】找到矩阵中每个连通域的最小值
  5. 解决Tensorflow2.0 tf.keras.Model.load_weights() 报错处理问题
  6. OpenGL编程指南11:组合运动示例2—创建机器人手臂模型
  7. 独立成分分析ICA系列3:直观解释与理解
  8. 将FORMSTYLE类型由FSNORMAL变为FSMDICHILD时,窗体的VISIBLE自动设为TRUE.且create之后,自动运行onshow事件。
  9. ARMCM3汇编指令
  10. C语言中变量的链接属性