前言

本文首先介绍了三个基本概念：马尔可夫性、马尔可夫过程和马尔可夫决策过程。接着引入贝尔曼方程，给出了值函数、状态行为函数、最优值函数、最优状态行为函数的推导公式以及它们之间的关系。

解释马尔可夫性、马尔可夫过程和马尔可夫决策过程。

马尔可夫性：当前状态可以决定未来，则认为该状态具有马尔可夫性。即如果某一状态信息蕴含了所有相关的历史信息，只要当前状态可知，所有的历史信息都不再需要。
可以用下面的状态转移概率公式来描述马尔可夫性：

可见状态S_t包含的信息等价于所有历史状态S₁ , S₂ , ……S_t包含的信息，状态S_t具有马尔可夫性。
例如，围棋未来的走法只和当前棋面有关，知道历史棋面信息对于当前该怎么走没有多大的帮助，则围棋的棋面是马尔可夫的。再如，直升机下一个时刻的位置信息也仅和当前时刻的位置和速度相关，因此直升机的位置也具有马尔可夫性。

马尔可夫过程：凡是具有马尔可夫性的随机过程都叫马尔可夫过程，又叫马尔可夫链。它是一个无记忆的随机过程，可以用一个元组<S,P>表示，其中S是有限数量的状态集，P是状态转移概率矩阵。

马尔可夫决策过程：马尔可夫决策过程（Markov Decision Process,MDP）是针对具有马尔可夫性的随机过程序贯地作出决策。即下一时间步状态s‘仅与当前当前状态s和动作a有关，而此刻之前的状态或动作不对其有任何影响。
过程：根据每个时间步观察到的状态s，从可用的行动集合中选用一个行动a，环境在a的作用下，转换至新状态s’。决策者根据新观察到的状态s‘，再做出新的决策，采取行为a’，依次反复地进行。

MDP五元组M=<S,A,P,R,γ>中，各个字母代表什么含义。

一个马尔可夫决策过程由一个五元组构成：M=<S,A,P,R,γ>。
（1）S代表环境的状态集合，指的是智能体所能获得的对决策有用的信息。A代表智能体的动作集合，它是智能体在当前强化学习任务中可以选择的动作集。
（2）A表示智能体的动作集合，是智能体在当前强化学习任务中可以选择的动作的动作集。
（3）P^a_SS’表示在当前状态s下（s∈S），经过动作a作用后（a∈A），会转移到的其他状态s’（s‘∈S）的概率。具体数学表达式如下：

某些时候，P与动作无关，可以写成：

（4）R是回报函数，表示在当前状态s（s∈S），采取动作a（a∈A）后，获得的回报，具有的数学表达式如下：

（5）γ是衰减系数，也叫折扣因子，γ∈[0,1]。使用折扣因子是为了在计算当前状态的累积回报时，将未来时刻的立即回报也考虑进来。这种做法符合人类的认知习惯，人类在追求眼前利益的同时，也会考虑具有不确定性的远期利益。

对于一个马尔可夫决策过程，奖赏值数量有限，请给出状态转移函数和回报函数。

状态转移函数：P^a_SS’表示在当前状态s下（s∈S），经过动作a作用后（a∈A），会转移到的其他状态s’（s‘∈S）的概率。具体数学表达式如下：

某些时候，P与动作无关，可以写成：

回报函数：R是回报函数，表示在当前状态s（s∈S），采取动作a（a∈A）后，获得的回报，具有的数学表达式如下：

扑克和围棋均属于MDP问题，两种游戏之间有什么本质区别？

对于扑克，博弈各方不知道其他博弈者的牌具体是什么，属于不完全信息博弈。
而对于围棋，博弈双方的所有信息都体现在棋盘上，属于完全信息博弈。

请写出贝尔曼期望方程和贝尔曼最优方程。

贝尔曼期望方程：

通过方程可以看出值函数由两部分组成，一是该状态的即时奖励期望，另一个是下一时刻状态的价值期望，可以根据下一时刻状态的概率分布得到其期望。

贝尔曼最优方程：

贝尔曼最优方程表达的是当前最优值函数（或最优行为值函数）和它后继最优值函数（或最优行为值函数）的关系，以及最优值函数和最优行为值函数之间的关系。
贝尔曼最优性方程是一个递归方程，可由动态规划（dynamic programming，DP）算法求解，通过求解该方程可以找到最优值函数和最优策略。
贝尔曼最优性方程是非线性的，没有固定的解决方案，只能通过一些迭代方法来解决，如价值迭代、策略迭代、Q学习、Sarsa等。

强化学习的目标是什么？什么是最优策略和最优值函数？

强化学习的目标是：找到最优策略Π，使得该策略下的累积回报期望最大。

最优策略：如果策略Π在所有状态下的期望回报都比策略 Π‘ 大，那么就说策略Π比Π’好。

最优值函数：所有策略中最优策略对应的值函数就是最优值函数。

最优值函数和最优策略为什么等价？

每个策略对应着一个状态值函数，最优策略自然对应着最优状态值函数。

参考资料：

https://zhuanlan.zhihu.com/p/108484403
https://zhuanlan.zhihu.com/p/54728513
《强化学习》邹伟鬲玲刘昱杓著

强化学习笔记-马尔可夫决策过程相关推荐

强化学习学习笔记——马尔可夫决策过程（二）
强化学习学习笔记--马尔可夫决策过程(二) 马尔科夫奖励过程(Markov Reword Process,MRP) 爱学习的马尔科夫蛙状态值函数(State-Value Function) 马尔科夫 ...
【githubshare】深度学习蘑菇书，覆盖了强化学习、马尔可夫决策过程、策略梯度、模仿学习
GitHub 上的深度学习技术书籍:<蘑菇书 EasyRL>,覆盖了强化学习.马尔可夫决策过程.策略梯度.模仿学习等多个知识点. GitHub:github.com/datawhalech ...
【强化学习】《动手学强化学习》马尔可夫决策过程
[强化学习]<动手学强化学习>马尔可夫决策过程一.随机过程.马尔可夫过程.马尔可夫奖励过程二.马尔可夫决策过程三.蒙特卡洛方法四.最优策略与贝尔曼最优方程一.随机过程.马尔可夫过 ...
强化学习之——马尔可夫决策过程原理
强化学习之--马尔可夫决策过程原理 1.1 MDP:策略与环境模型我们以蛇棋为模型引入--蛇棋的关键问题在于:哪些因素决定了蛇棋最终获得分数的多少? 两个因素选择什么样的手法投掷(也就是投3以内的 ...
什么是强化学习（马尔可夫决策过程）
文章目录什么是强化学习(马尔可夫决策过程) 1. 强化学习(概述) 2. 马尔可夫决策过程 2.1 马尔可夫假设 2.2 马尔可夫决策过程 2.3 状态值函数(state-value functio ...
强化学习之马尔可夫决策过程—机器学习公开课第十五讲
本篇笔记对应的是公开课的第十五讲,主要内容包括马尔可夫决策过程MDP(Markov Decision Process).价值函数(Value Function).价值迭代(Value Iterati ...
mdp框架_强化学习-MDP(马尔可夫决策过程)算法原理
1. 前言前面的强化学习基础知识介绍了强化学习中的一些基本元素和整体概念.今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程). 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框 ...
强化学习_02_DataWhale马尔可夫决策过程习题
习题 1-1 为什么在马尔可夫奖励过程中需要有折扣因子(discount factor)? 马尔可夫过程是带环的,需要避免无穷的奖励我们没办法完美模拟环境,对未来的预估不一定准确.折扣因子可以将这个 ...
【深度强化学习】马尔可夫决策过程（Markov Decision Process, MDP）
1. Markov Process 我们一步一步来讲解 Markov Decision Process.按顺序,从 Markov Process 到 Markov Reward Process,再到 ...

强化学习笔记-马尔可夫决策过程

前言