习题

1-1 为什么在马尔可夫奖励过程中需要有折扣因子（discount factor）？

马尔可夫过程是带环的，需要避免无穷的奖励
我们没办法完美模拟环境，对未来的预估不一定准确。折扣因子可以将这个不确定性表达出来，希望尽快得到奖励，而不是在未来某一个点得到奖励。
如果奖励是有实际价值的，我们可能更希望立即得到奖励，而不是后面再得到奖励
在我们人的因为里，大家也是想得到即时奖励。

1-2 为什么矩阵形式的贝尔曼方程（Bellman equation）的解析解比较难解?

矩阵的解析解需要对矩阵进行求逆，该过程复杂度是O(N^3)
当状态非常多的时候，比如说从我们现在十个状态到一千个状态，到一百万个状态，这个转移矩阵就会是个一百万乘一百万的一个矩阵。求解就非常不易

2-3 计算贝尔曼方程（Bellman equation）的常见方法以及区别？

蒙特卡罗方法：可用来计算价值函数的值
动态规划方法：可用来计算价值函数的值
时间差分学习（以上两者的结合）

2-4 马尔可夫奖励过程（MRP）与马尔可夫决策过程（MDP）的区别？

马尔可夫决策过程比马尔可夫奖励过程多了一个决策过程。状态转移也多了一个条件，即采取行为，从而导致未来的状态的变化。价值函数也一样多了一个条件。
两者可以进行相互转换：
- 条件：已知马尔科夫决策过程和一个策略函数
- 已知策略函数：对于转移函数 P(s'|s, a) 可以计算它在每个状态采取行动的概率。直接将动作进行加和，就可以得到马尔可夫奖励过程。

2-5 马尔可夫决策过程里面的`状态转移`与马尔可夫奖励过程的结构或者计算方面的差异？

结构差异：马尔可夫决策过程比马尔可夫奖励过程多了一层行为
计算差异：增加了动作策略概率函数
- 马尔可夫奖励过程的状态转移（马尔可夫链），转移概率是直接确定的，就是从当前状态通过转移概率得到下一时刻的状态值。
- 马尔可夫决策过程的状态转移，首先要确定采取哪个行动，然后才是进行状态转移

2-6 我们如何寻找最优策略，方法有哪些？

穷举法
迭代法（策略迭代 | 价值迭代）

强化学习_02_DataWhale马尔可夫决策过程习题相关推荐

【githubshare】深度学习蘑菇书，覆盖了强化学习、马尔可夫决策过程、策略梯度、模仿学习
GitHub 上的深度学习技术书籍:<蘑菇书 EasyRL>,覆盖了强化学习.马尔可夫决策过程.策略梯度.模仿学习等多个知识点. GitHub:github.com/datawhalech ...
【强化学习】《动手学强化学习》马尔可夫决策过程
[强化学习]<动手学强化学习>马尔可夫决策过程一.随机过程.马尔可夫过程.马尔可夫奖励过程二.马尔可夫决策过程三.蒙特卡洛方法四.最优策略与贝尔曼最优方程一.随机过程.马尔可夫过 ...
强化学习之——马尔可夫决策过程原理
强化学习之--马尔可夫决策过程原理 1.1 MDP:策略与环境模型我们以蛇棋为模型引入--蛇棋的关键问题在于:哪些因素决定了蛇棋最终获得分数的多少? 两个因素选择什么样的手法投掷(也就是投3以内的 ...
什么是强化学习（马尔可夫决策过程）
文章目录什么是强化学习(马尔可夫决策过程) 1. 强化学习(概述) 2. 马尔可夫决策过程 2.1 马尔可夫假设 2.2 马尔可夫决策过程 2.3 状态值函数(state-value functio ...
强化学习笔记-马尔可夫决策过程
前言本文首先介绍了三个基本概念:马尔可夫性.马尔可夫过程和马尔可夫决策过程.接着引入贝尔曼方程,给出了值函数.状态行为函数.最优值函数.最优状态行为函数的推导公式以及它们之间的关系. 解释马尔可夫性 ...
mdp框架_强化学习-MDP(马尔可夫决策过程)算法原理
1. 前言前面的强化学习基础知识介绍了强化学习中的一些基本元素和整体概念.今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程). 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框 ...
强化学习之马尔可夫决策过程—机器学习公开课第十五讲
本篇笔记对应的是公开课的第十五讲,主要内容包括马尔可夫决策过程MDP(Markov Decision Process).价值函数(Value Function).价值迭代(Value Iterati ...
【深度强化学习】马尔可夫决策过程（Markov Decision Process, MDP）
1. Markov Process 我们一步一步来讲解 Markov Decision Process.按顺序,从 Markov Process 到 Markov Reward Process,再到 ...
重温强化学习之马尔可夫决策过程(MDPs)

强化学习_02_DataWhale马尔可夫决策过程习题

习题

1-1 为什么在马尔可夫奖励过程中需要有折扣因子（discount factor）？

1-2 为什么矩阵形式的贝尔曼方程（Bellman equation）的解析解比较难解?

2-3 计算贝尔曼方程（Bellman equation）的常见方法以及区别？

2-4 马尔可夫奖励过程（MRP）与马尔可夫决策过程（MDP）的区别？

2-5 马尔可夫决策过程里面的`状态转移`与马尔可夫奖励过程的结构或者计算方面的差异？

2-6 我们如何寻找最优策略，方法有哪些？

强化学习_02_DataWhale马尔可夫决策过程习题相关推荐

最新文章

热门文章

强化学习_02_DataWhale马尔可夫决策过程习题

习题

1-1 为什么在马尔可夫奖励过程中需要有折扣因子（discount factor）？

1-2 为什么矩阵形式的贝尔曼方程（Bellman equation）的解析解比较难解?

2-3 计算贝尔曼方程（Bellman equation）的常见方法以及区别？

2-4 马尔可夫奖励过程（MRP）与马尔可夫决策过程（MDP）的区别？

2-5 马尔可夫决策过程里面的状态转移与马尔可夫奖励过程的结构或者计算方面的差异？

2-6 我们如何寻找最优策略，方法有哪些？

强化学习_02_DataWhale马尔可夫决策过程习题相关推荐

最新文章

热门文章

2-5 马尔可夫决策过程里面的`状态转移`与马尔可夫奖励过程的结构或者计算方面的差异？