习题

1-1 为什么在马尔可夫奖励过程中需要有折扣因子(discount factor)?

  • 马尔可夫过程是带环的,需要避免无穷的奖励
  • 我们没办法完美模拟环境,对未来的预估不一定准确。折扣因子可以将这个不确定性表达出来,希望尽快得到奖励,而不是在未来某一个点得到奖励。
  • 如果奖励是有实际价值的,我们可能更希望立即得到奖励,而不是后面再得到奖励
  • 在我们人的因为里,大家也是想得到即时奖励。

1-2 为什么矩阵形式的贝尔曼方程(Bellman equation)的解析解比较难解?

  • 矩阵的解析解需要对矩阵进行求逆,该过程复杂度是O(N^3)
  • 当状态非常多的时候,比如说从我们现在十个状态到一千个状态,到一百万个状态,这个转移矩阵就会是个一百万乘一百万的一个矩阵。求解就非常不易

2-3 计算贝尔曼方程(Bellman equation)的常见方法以及区别?

  1. 蒙特卡罗方法:可用来计算价值函数的值
  2. 动态规划方法:可用来计算价值函数的值
  3. 时间差分学习(以上两者的结合)

2-4 马尔可夫奖励过程(MRP)与马尔可夫决策过程(MDP)的区别?

  • 马尔可夫决策过程比马尔可夫奖励过程多了一个决策过程。状态转移也多了一个条件,即采取行为,从而导致未来的状态的变化。价值函数也一样多了一个条件。
  • 两者可以进行相互转换:
    • 条件:已知马尔科夫决策过程 和 一个策略函数
    • 已知策略函数:对于转移函数 P(s'|s, a) 可以计算它在每个状态采取行动的概率。直接将动作进行加和,就可以得到马尔可夫奖励过程。

2-5 马尔可夫决策过程里面的状态转移与马尔可夫奖励过程的结构或者计算方面的差异?

  • 结构差异:马尔可夫决策过程比马尔可夫奖励过程多了一层行为
  • 计算差异:增加了动作策略概率函数
    • 马尔可夫奖励过程的状态转移(马尔可夫链),转移概率是直接确定的,就是从当前状态通过转移概率得到下一时刻的状态值。
    • 马尔可夫决策过程的状态转移,首先要确定采取哪个行动,然后才是进行状态转移

2-6 我们如何寻找最优策略,方法有哪些?

  1. 穷举法
  2. 迭代法(策略迭代 | 价值迭代)

强化学习_02_DataWhale马尔可夫决策过程习题相关推荐

  1. 【githubshare】深度学习蘑菇书,覆盖了强化学习、马尔可夫决策过程、策略梯度、模仿学习

    GitHub 上的深度学习技术书籍:<蘑菇书 EasyRL>,覆盖了强化学习.马尔可夫决策过程.策略梯度.模仿学习等多个知识点. GitHub:github.com/datawhalech ...

  2. 【强化学习】《动手学强化学习》马尔可夫决策过程

    [强化学习]<动手学强化学习>马尔可夫决策过程 一.随机过程.马尔可夫过程.马尔可夫奖励过程 二.马尔可夫决策过程 三.蒙特卡洛方法 四.最优策略与贝尔曼最优方程 一.随机过程.马尔可夫过 ...

  3. 强化学习之——马尔可夫决策过程原理

    强化学习之--马尔可夫决策过程原理 1.1 MDP:策略与环境模型 我们以蛇棋为模型引入--蛇棋的关键问题在于:哪些因素决定了蛇棋最终获得分数的多少? 两个因素 选择什么样的手法投掷(也就是投3以内的 ...

  4. 什么是强化学习(马尔可夫决策过程)

    文章目录 什么是强化学习(马尔可夫决策过程) 1. 强化学习(概述) 2. 马尔可夫决策过程 2.1 马尔可夫假设 2.2 马尔可夫决策过程 2.3 状态值函数(state-value functio ...

  5. 强化学习笔记-马尔可夫决策过程

    前言 本文首先介绍了三个基本概念:马尔可夫性.马尔可夫过程和马尔可夫决策过程.接着引入贝尔曼方程,给出了值函数.状态行为函数.最优值函数.最优状态行为函数的推导公式以及它们之间的关系. 解释马尔可夫性 ...

  6. mdp框架_强化学习-MDP(马尔可夫决策过程)算法原理

    1. 前言 前面的强化学习基础知识介绍了强化学习中的一些基本元素和整体概念.今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程). 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框 ...

  7. 强化学习之马尔可夫决策过程—机器学习公开课第十五讲

    本篇笔记对应的是公开课的第十五讲,主要内容包括 马尔可夫决策过程MDP(Markov Decision Process).价值函数(Value Function).价值迭代(Value Iterati ...

  8. 【深度强化学习】马尔可夫决策过程(Markov Decision Process, MDP)

    1. Markov Process 我们一步一步来讲解 Markov Decision Process.按顺序,从 Markov Process 到 Markov Reward Process,再到 ...

  9. 重温强化学习之马尔可夫决策过程(MDPs)

最新文章

  1. python非贪婪、多行匹配正则表达式例子[转载]
  2. Web Worker 使用教程
  3. php将代码上传至服务器步骤
  4. android脚步--Relativelayout设置
  5. excel筛选排序从小到大_excel表格怎么按字数的多少来排列!
  6. OpenHFT Java Lang项目
  7. unserialize用法
  8. Android Studio两模块间getLaunchIntentForPackage跳转,出现intent为null,已解决
  9. 乐优商城项目实战系列2
  10. kindle DXG 安装多看
  11. 合宙Air720U724U722U Lua 固件更新说明
  12. 怎样开始买基金---我的基金购买体验[转]
  13. android fsck_msdos 分析(二)
  14. Navigator.sendBeacon()
  15. 如何用安装启动盘启动计算机,U大师U盘启动盘制作教程 详细图解步骤教你怎么装系统(老机版)...
  16. 当GOOGLE搜索结果的链接无法打开时
  17. 关于js延迟加载的几种方法
  18. HTML5 批量大文件上传下载
  19. SpringBoot--网上商城项目(自定义的参数解析器、购物车后台前台功能、商品详情页)
  20. 按enter键,快速切换到下一个输入框进行输入

热门文章

  1. 您的连接不是私密连接(Chrome)
  2. Live2D看板娘代码引用
  3. Vue中权限控制完全实现
  4. 计算机二级考试2018陕西,陕西计算机二级自学教程推荐:Office高级应用(2018年版)...
  5. flv视频流页面播放
  6. 对于物联网卡各种套餐我们应该如何选择?
  7. 代理模式——为他人做嫁衣裳
  8. 在DB2中创建第一个触发器
  9. 看门狗系统设计与临终遗言
  10. 29 获取ApplicationContext