一、一些概念

马尔科夫性质:当前时刻状态仅仅与前一个时刻相关。

状态转移矩阵,表明了任意状态a到状态b的条件概率。

马尔科夫过程(马尔科夫链):一个具有马尔科夫性质的无记忆的随机过程,包含n个状态。

马尔科夫激励过程(S,P,R,γ)是一个带有value的马尔科夫链。

用GtGt来表示t时刻会得到的总的return。出于数学计算、防止NaN无穷大的return等原因,引入折扣因子γ∈[0,1]γ∈[0,1]来对下一时刻的奖励和更远的奖励之间进行取舍。(若所有序列都会在有限步终结,而且策略上合适,γ也可以取1。)

Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1

价值函数v(s),在马尔科夫激励过程(MRP)中表征指定状态下,获得的return的期望。是由所有包含该状态的样本Sample序列计算出来的。其中RsRs是立即奖励,可以认为是离开状态s时获得的奖励。

v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γ∑s′∈SPss′v(s′)v(s)=E[Gt|St=s]=E[Rt+1+γ(v(st+1)|St=s)]=Rs+γ∑s′∈SPss′v(s′)

上面的公式可以向量化的表示为:

V=R+γPVV=R+γPV

而这个公式是有解析解的,MRP每个状态的价值可以直接被解出来。

二、MDP

马尔科夫决策过程(S,A,P,R,γ),在MRP基础上增加了有限的action集合。

策略,给定状态时,关于行为的概率分布,用π来表示。决定了agent的行为。

MDP和马尔科夫过程、MRP内在的联系。

状态价值函数vπ(s)vπ(s)定义了在状态s下,采用策略π,所能获得的期望return。

行为价值函数qπ(s,a)qπ(s,a)定义了在状态s下,采取行为a,并在之后采用策略π所能获得的期望return。

这两个价值函数之间密切相关。状态的价值,就等于这个状态下所有行为a产生的行为价值q,乘以做出该行为的概率(策略)π。反之,行为的价值,就等于这个行为所能产生的立即奖励immediate reward加上折扣因子乘以下一个状态(到达这个状态的概率由动态转移矩阵来确定)乘以这个状态的状态价值。

在MDP中,你能够控制你的行为(通过策略),但是你无法控制环境(做出行为之后会发生什么),这个要靠动态转移矩阵来计算。

最佳价值函数v∗(s)v∗(s)和q∗(s,a)q∗(s,a)。最佳策略π∗π∗,就是在每个状态下选择最大的行为价值函数q*。

如何计算这个Q呢,Bellman Optimality Equation。也就是对每个状态,其价值等于价值最大的行为的价值,而这个行为的价值又由直接奖励和行为*可能会导致的状态价值有关。

v∗(s)=maxaq∗(s,a)v∗(s)=maxaq∗(s,a)
q∗(s,a)=Ras+γ∑s′∈SPass′v∗(s′)q∗(s,a)=Rsa+γ∑s′∈SPss′av∗(s′)

而这个公式就无法直接解析求解了,求解的方法有:

  • Value iteration
  • Policy iteration
  • Q-learning
  • Sarsa

最后,对MDP的扩展模型和其他一些概念进行了简介,如infinite/continuous/POMDP/belief states。

参考

  • https://zhuanlan.zhihu.com/p/21378532
原文地址:http://cairohy.github.io/2017/08/29/deeplearning/%E3%80%8ADavid%20Silver%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%AC%E5%BC%80%E8%AF%BE%E3%80%8B-2%EF%BC%9AMDP/

David Silver强化学习公开课】-2:MDP相关推荐

  1. 【David Silver强化学习公开课之一】强化学习入门

    本文是David Silver强化学习公开课第一课的总结笔记.第一课主要解释了强化学习在多领域的体现,主要解决什么问题,与监督学习算法的区别,完整的算法流程由哪几部分组成,其中的agent又包含什么内 ...

  2. David Silver强化学习公开课自学笔记——Lec2马尔科夫决策过程

    本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学 0.数学规范 大写字母表示随机变量:S,A,RS,A,RS,A,R等 小写字母表示具体的值:s,a,rs,a,rs,a,r等 空心字母表示统计运算 ...

  3. David Silver强化学习公开课自学笔记——Lec1强化学习简介

    本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学 1.背景介绍 (1)背景 强化学习是多学科多领域交叉的产物,本质是解决决策问题,即学会自动决策,在各个领域体现不同,但都归结为人类如何且为什么能做 ...

  4. 【David Silver强化学习公开课】-8:Integrating Learning and Planning

    一.Model-based RL Model-Free RL,从经验中学习价值函数(以及/或者策略). Model-based RL,从经验中直接学习环境的MDP模型.(状态转移概率P以及奖励矩阵R) ...

  5. 【David Silver强化学习公开课】-4:Model-Free Prediction

    一.介绍 无论是价值迭代还是策略迭代,都是在已经知道MDP模型(也就是动态转移矩阵P和奖励R)的前提下用DP的方式进行控制.那么如果对模型的这些属性并不了解,要如何进行预测和控制呢? 本节主要讲几种方 ...

  6. 【David Silver强化学习公开课】-7:Policy Gradient

    一.介绍 之前的控制方法都是Value-based,而在确定价值函数之后,其实我们是在价值函数的基础上确定了某种策略(贪婪,ϵϵ-贪婪)找到action.那么我们为什么不直接通过策略函数控制actio ...

  7. 【David Silver强化学习公开课】-6:Value Function Approximation

    一.介绍 找到一种适应真实情况(很大的状态空间)的RL方法,之前的价值函数表示是通过一个S×A的表(Table)来表示Q(s,a).状态空间很大时,这种表示内存占用过大,而且单独学习每个state的价 ...

  8. 【David Silver强化学习公开课】-5:Model-Free Control

    一.介绍 这一讲的内容是大部分情况下真实使用的算法,也就是在对环境一无所知的情况下,去学习出一个好的策略.首先介绍一些概念: Model-Free Control,在环境未知的前提下,如何学习策略(价 ...

  9. 【David Silver强化学习公开课】-3:DP

    一.一些概念 MDP的两个规划问题: 预测,给定MDP和策略π,求出价值函数vπvπ 控制,给定MDP,求出最佳价值函数v∗v∗和最佳策略π∗π∗ Policy Evaluation策略评估: 给定一 ...

最新文章

  1. C#的访问修饰符Protected
  2. 广搜破解密码(HDU1195)
  3. 感觉没有学会什么真正的本领
  4. 如何停止java线程
  5. mysql和mariadb对比_MySQL并发复制系列三:MySQL和MariaDB实现对比
  6. 使用caffe训练faster-rcnn时遇到的问题总结
  7. BotVS开发基础—2.1 账户、行情、K线、深度
  8. ctypes安装_用python amp; bat写软件安装脚本 + HM NIS Edit自动生成软件安装脚本
  9. pandas中的数据如何转化为张量?
  10. 高门槛的动作捕捉技术,真的会成为VR行业灾难的缔造者吗?
  11. 探究贴片广告背后的技术大片
  12. FF14 界面 字变得很小 一种适用于高分辨率笔记本或屏幕下FF14窗口或无边框模式的性能优化方法
  13. 微信小程序完成简单的模仿抖音点赞效果动画wx.createAnimation
  14. java word 分页显示_jsp转word + 分页
  15. CRTD--有关于intel芯片组和BCM4360网卡适配银河麒麟V10系统(适用于macbook)
  16. github 本地 fatal: couldn‘t find remote ref master错误解决方案
  17. Lambda表达式详细总结
  18. system(“pause“);
  19. RabbitMQ之mandatory和immediate介绍
  20. 直播技术视频教程分享

热门文章

  1. QUrl不同版本之间的坑
  2. [工具]Mac下非常好用的快捷终端Dterm
  3. linux学习笔记(5)
  4. “熊猫烧香”式的病毒营销
  5. 在一个IIS上同时运行两个版本ASP.NET报错的
  6. python input()与raw_input()
  7. SDN学习之旅-RYU笔记(1)
  8. 机器学习导论(张志华):随机向量性质
  9. Python学习笔记:字符串和编码
  10. 学习Matlab强大的符号计算(解方程)