马尔科夫奖励过程MRP

状态转移函数:P(St+1=s′∣st=s)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s\right)P(St+1​=s′∣st​=s)

奖励函数:R(st=s)=E[rt∣st=s]R\left(s_{t}=s\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s\right]R(st​=s)=E[rt​∣st​=s]

回报:Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt​=Rt+1​+γRt+2​+γ2Rt+3​+γ3Rt+4​+…+γT−t−1RT​

回报只是状态转移中的一条路径的价值

状态价值函数:回报的期望Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT−t−1RT∣st=s]\begin{aligned} \mathrm{V}_{\mathrm{t}}(\mathrm{s}) &=\mathbb{E}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \end{aligned}Vt​(s)​=E[Gt​∣st​=s]=E[Rt+1​+γRt+2​+γ2Rt+3​+…+γT−t−1RT​∣st​=s]​,

状态价值函数相较于奖励函数,考虑了折扣后的未来的奖励,是一个更加靠谱的状态价值的估计;奖励函数只是考虑了当下。
状态价值函数是回报的一个期望
Rt+1表示t时刻的奖励R_{t+1}表示t时刻的奖励Rt+1​表示t时刻的奖励

马尔科夫决策过程MDP

状态转移概率P(St+1=s′∣st=s,at=a)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s,a_{t}=a\right)P(St+1​=s′∣st​=s,at​=a)

奖励函数R(st=s,at=a)=E[rt∣st=s,at=a]R\left(s_{t}=s,a_{t}=a\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s,a_{t}=a\right]R(st​=s,at​=a)=E[rt​∣st​=s,at​=a]

回报:Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt​=Rt+1​+γRt+2​+γ2Rt+3​+γ3Rt+4​+…+γT−t−1RT​

状态价值函数:vπ(s)=Eπ[Gt∣st=s]\mathrm{v}^{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right]vπ(s)=Eπ​[Gt​∣st​=s]

动作价值函数,Q函数:qπ(s,a)=Eπ[Gt∣st=s,At=a]q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, A_{t}=a\right]qπ(s,a)=Eπ​[Gt​∣st​=s,At​=a]

强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别相关推荐

  1. 马尔可夫Markov决策过程 MDP、马尔可夫奖励过程MRP

    引言 在概率论及统计学中,马尔可夫过程(英语:Markov process)是一个具备了马尔可夫性质的随机过程,因为俄国数学家安德雷·马尔可夫得名.马尔可夫过程是不具备记忆特质的(memoryless ...

  2. 马尔可夫奖励过程(MRP)

    马尔可夫奖励过程 目录 逻辑场景回顾 概念介绍 状态(State): 动作(Action): 策略(Policy): 奖励(即时奖励)(Reward): 状态转移函数(State Transition ...

  3. 马科夫过程(MP) -> 马尔科夫奖励过程(MRP) -> 马尔科夫决策过程(MDP)

    一 .马尔可夫性 - 只与当前状态有关 马尔科夫性,当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状 ...

  4. 强化学习笔记(二)马尔可夫决策过程

    马尔可夫决策过程 一.马尔可夫过程(MP) 二.马尔可夫奖励过程(MRP) 三.马尔可夫决策过程(MDP) 四.价值函数的求解方法 1.蒙特卡罗法 2.动态规划法 3.时序差分学习 五.MDP的两个核 ...

  5. 强化学习笔记:马尔可夫过程 马尔可夫奖励过程

    1 马尔可夫性质 (Markov Property) 我们设状态的历史为(包含了之前的所有状态) 如果一个状态转移是符合马尔可夫性质的,也就是满足如下条件: 也就是说,从当前状态转移到状态的概率,就直 ...

  6. 深度强化学习笔记(二)马尔可夫决策过程

    地址:https://datawhalechina.github.io/easy-rl/ 马尔可夫决策过程 上图介绍了在强化学习里面 agent 跟 environment 之间的交互,agent 在 ...

  7. 强化学习笔记(一)马尔可夫决策过程

    强化学习笔记(一)马尔可夫决策过程 参考资料 正文 Q1: R t R_{t} Rt​, G t G_{t} Gt​, V ( S t ) V(S_{t}) V(St​)都有奖励或收获的含义,它们有什 ...

  8. 强化学习(二):马尔可夫决策过程

    首先感谢B站UP主:Re_miniscence_,本篇文章总结来自于他,并添加了一些自己的理解. 该up的BB空间 1.随机变量 概率论中的知识,如用X表示一个随机事件,用p(X)表示概率. 2.随机 ...

  9. 强化学习:10种真实的奖励与惩罚应用

    作者 | Patrycja 翻译 | Katie,责编 | 晋兆雨 出品 | AI科技大本营 头图 | 付费下载于视觉中国 在强化学习(Reinforcement Learning)中,对代理进行奖励 ...

最新文章

  1. xgboost api
  2. 前端代码规范(es6,eslint,vue)
  3. [Xcode 实际操作]二、视图与手势-(12)UITapGestureRecognizer手势之双击
  4. 卸载 插件_永远都不会卸载的CAD插件,好用到怀疑人生
  5. 预祝大家2011农历新年快乐,宏“兔”大展,心想事成~
  6. javac -version ;java -version不一致
  7. 分布式事务控制解决方案
  8. 【Oracle】基础知识查漏补缺
  9. 如何培养客户忠诚:你要的不是会员,而是粉丝!
  10. springmvc请求参数绑定
  11. CNN 卷积神经网络结构转载
  12. 百度时间显示时间_百度SEO需要多长时间以及如何加快排名?
  13. excel练习1——数据透视表基础介绍
  14. 富爸爸穷爸爸的所有书籍
  15. Android TextView设置背景色和边框
  16. 从零开始学C++11新标准知识(内含大厂面试题100道)第二期
  17. Pyhton opencv 图片裁剪
  18. Dynamic Movement Primitives与UR5机械臂仿真
  19. vue 打造携程网平台界面实战
  20. Ubuntu20中使用AirSim--亲测可用

热门文章

  1. 氧气中国·创业创新大赛企业服务专场
  2. 热备份路由选择协议(HSRP)
  3. Redux源码分析(一)
  4. 百度地图-矩形编辑的模拟实现
  5. 第179天:javascript中replace使用总结
  6. Lexus OpenCart 自适应主题模板 ABC-0017
  7. HDU 1875 畅通工程再续 (最小生成树)
  8. Android 中文 API —— TextSwitcher
  9. 博客No.1活动暂停公告
  10. 统计学习方法的三要素