注：笔记来自课程人工智能必备数学知识
Tips①：只是记录从这个课程学到的东西，不是推广、没有安利
Tips②：本笔记主要目的是为了方便自己遗忘查阅，或过于冗长、或有所缺省、或杂乱无章，见谅
Tips③：本笔记使用markdown编写，相关缩进为了方便使用了LaTeX公式的\qquad，复制粘贴请注意

文章目录

一、深度强化学习
二、马尓可夫链（Markov Chain）
- 1、马尓可夫链
- 2、状态转移矩阵
- 3、收敛和平稳条件
三、马尓可夫奖励过程
四、马尓可夫决策过程与强化学习
- 1、马尓可夫决策过程
- 2、强化学习

一、深度强化学习

深度强化学习=深度神经网络+强化学习\color{#6666FF} \textbf{深度强化学习} = \textbf{深度神经网络} + \textbf{强化学习}深度强化学习=深度神经网络+强化学习

一个模型是深度学习模型，同时又使用强化学习的方法进行训练，使其应用在某个具体的领域，就是深度强化学习模型

马尓可夫链就是强化学习的底层数学原理

当我们考虑一个问题能否用强化学习的方式来解决时，我们就要思考这个问题能否定义为一个马尔可夫决策过程

二、马尓可夫链（Markov Chain）

1、马尓可夫链

马尓可夫链是状态空间中从一个状态到另一个状态转换的随机过程，下一个状态的概率分布只由当前状态决定，且与它前面的事件均无关：

P(St+1∣St,St−1,⋯,S0)=P(St+1∣St)\color{#6666FF} P(S_{t+1} | S_t, S_{t - 1}, \cdots, S_0) = P(S_{t+1} | S_t)P(St+1∣St,St−1,⋯,S0)=P(St+1∣St)

一种状态到另一种状态的转变，称为状态的转移
一种状态向另一种状态转移的概率，称为转移概率

示例1：\color{#FFA5FF} \textbf{示例1}：示例1：
假设有两种天气状态（晴天、下雨），第二天的天气状态只取决于前一天的天气状态：\color{#FFA5FF} \qquad 假设有两种天气状态（晴天、下雨），第二天的天气状态只取决于前一天的天气状态：假设有两种天气状态（晴天、下雨），第二天的天气状态只取决于前一天的天气状态：
第一天晴天，第二天：晴天（80%），下雨（20%）\color{#FFA5FF} \qquad\qquad 第一天晴天，第二天：晴天（80\%），下雨（20\%）第一天晴天，第二天：晴天（80%），下雨（20%）
第一天下雨，第二天：晴天（50%），下雨（50%）\color{#FFA5FF} \qquad\qquad 第一天下雨，第二天：晴天（50\%），下雨（50\%）第一天下雨，第二天：晴天（50%），下雨（50%）

可作出状态转换图如下：\color{#FF8080} 可作出状态转换图如下：可作出状态转换图如下：
\qquad

2、状态转移矩阵

从上面的示例中，我们可以看出：\color{#00A000} 从上面的示例中，我们可以看出：从上面的示例中，我们可以看出：

一个马尓可夫链由一个二元组(S,P)组成\color{#6666FF} \qquad 一个马尓可夫链由一个二元组(S, P)组成一个马尓可夫链由一个二元组(S,P)组成
其中\color{#6666FF} \qquad 其中其中
S——状态的集合\color{#6666FF} \qquad\qquad S——状态的集合S——状态的集合
P——状态转移矩阵（记录了从任意一个状态到另一个状态的转移概率）\color{#6666FF} \qquad\qquad P——状态转移矩阵（记录了从任意一个状态到另一个状态的转移概率）P——状态转移矩阵（记录了从任意一个状态到另一个状态的转移概率）

设当前各状态概率构成一个概率向量V0，经过t次状态转移后，各个状态概率构成概率向量Vt，则有\color{#AA66FF} 设当前各状态概率构成一个概率向量V_0，经过t次状态转移后，各个状态概率构成概率向量V_t，则有设当前各状态概率构成一个概率向量V0，经过t次状态转移后，各个状态概率构成概率向量Vt，则有
Vt=V0Pt\color{#AA66FF} V_t = V_0 P^tVt=V0Pt

题例2：\color{#FFA5FF} \textbf{题例2}：题例2：
假设有三种天气状态（晴天、阴天、下雨），第二天的天气状态只取决于前一天的天气状态：\color{#FFA5FF} \qquad 假设有三种天气状态（晴天、阴天、下雨），第二天的天气状态只取决于前一天的天气状态：假设有三种天气状态（晴天、阴天、下雨），第二天的天气状态只取决于前一天的天气状态：
第一天晴天，第二天：晴天（70%），阴天（20%），下雨（10%）\color{#FFA5FF} \qquad\qquad 第一天晴天，第二天：晴天（70\%），阴天（20\%），下雨（10\%）第一天晴天，第二天：晴天（70%），阴天（20%），下雨（10%）
第一天阴天，第二天：晴天（40%），阴天（40%），下雨（20%）\color{#FFA5FF} \qquad\qquad 第一天阴天，第二天：晴天（40\%），阴天（40\%），下雨（20\%）第一天阴天，第二天：晴天（40%），阴天（40%），下雨（20%）
第一天下雨，第二天：晴天（20%），阴天（40%），下雨（40%）\color{#FFA5FF} \qquad\qquad 第一天下雨，第二天：晴天（20\%），阴天（40\%），下雨（40\%）第一天下雨，第二天：晴天（20%），阴天（40%），下雨（40%）
(1).今天是晴天、阴天、下雨的概率分别为(0.5,0.5,0)，计算明天各天气状态的概率\color{#FFA5FF} \qquad (1).今天是晴天、阴天、下雨的概率分别为(0.5, 0.5, 0)，计算明天各天气状态的概率(1).今天是晴天、阴天、下雨的概率分别为(0.5,0.5,0)，计算明天各天气状态的概率
(2).今天是晴天，计算后天各天气状态的概率\color{#FFA5FF} \qquad (2).今天是晴天，计算后天各天气状态的概率(2).今天是晴天，计算后天各天气状态的概率

解：\color{#FF8080} \qquad \textbf{解：}解：
状态转移矩阵P=(0.70.20.10.40.40.20.20.40.4)\color{#FF8080} \qquad\qquad 状态转移矩阵P = \begin{pmatrix} 0.7 & 0.2 & 0.1\\ 0.4 & 0.4 & 0.2\\ 0.2 & 0.4 & 0.4\\ \end{pmatrix}状态转移矩阵P=⎝⎛0.70.40.20.20.40.40.10.20.4⎠⎞

(1).V0=(0.50.50)\color{#FF8080} \qquad\qquad(1).V_0 = \begin{pmatrix} 0.5& 0.5& 0 \end{pmatrix}(1).V0=(0.50.50)
V1=V0P=(0.50.50)(0.70.20.10.40.40.20.20.40.4)=(0.550.30.15)\color{#FF8080} \qquad\qquad\quad\;\; V_1 = V_0 P = \begin{pmatrix} 0.5 & 0.5 & 0 \end{pmatrix} \begin{pmatrix} 0.7 & 0.2 & 0.1\\ 0.4 & 0.4 & 0.2\\ 0.2 & 0.4 & 0.4\\ \end{pmatrix} = \begin{pmatrix} 0.55 & 0.3 & 0.15 \end{pmatrix}V1=V0P=(0.50.50)⎝⎛0.70.40.20.20.40.40.10.20.4⎠⎞=(0.550.30.15)

(2).V0=(100)\color{#FF8080} \qquad\qquad(2).V_0 = \begin{pmatrix} 1& 0& 0 \end{pmatrix}(2).V0=(100)
V2=V0P2=(100)(0.70.20.10.40.40.20.20.40.4)2=(0.590.260.15)\color{#FF8080} \qquad\qquad\quad\;\; V_2 = V_0 P^2 = \begin{pmatrix} 1 & 0 & 0 \end{pmatrix} {\begin{pmatrix} 0.7 & 0.2 & 0.1\\ 0.4 & 0.4 & 0.2\\ 0.2 & 0.4 & 0.4\\ \end{pmatrix}}^2 = \begin{pmatrix} 0.59 & 0.26 & 0.15 \end{pmatrix}V2=V0P2=(100)⎝⎛0.70.40.20.20.40.40.10.20.4⎠⎞2=(0.590.260.15)

从上面的题例中，我们可以看到，一个马尓可夫链可以预测多次状态转移的结果。\color{#00A000} 从上面的题例中，我们可以看到，一个马尓可夫链可以预测多次状态转移的结果。从上面的题例中，我们可以看到，一个马尓可夫链可以预测多次状态转移的结果。
但是随着转移次数的增加，某些状态的概率可能会越来越小，因此我们需要加一些约束。\color{#00A000} 但是随着转移次数的增加，某些状态的概率可能会越来越小，因此我们需要加一些约束。但是随着转移次数的增加，某些状态的概率可能会越来越小，因此我们需要加一些约束。

3、收敛和平稳条件

马尔可夫连收敛和平稳的前提条件如下：\color{#6666FF} 马尔可夫连收敛和平稳的前提条件如下：马尔可夫连收敛和平稳的前提条件如下：
①.状态有限\color{#6666FF} \qquad ①.状态有限①.状态有限
②.状态间转移概率固定\color{#6666FF} \qquad ②.状态间转移概率固定②.状态间转移概率固定
③.从任意状态可转移到任意状态\color{#6666FF} \qquad ③.从任意状态可转移到任意状态③.从任意状态可转移到任意状态
④.不能是简单的循环\color{#6666FF} \qquad ④.不能是简单的循环④.不能是简单的循环
例如：(x,y,z)三种状态，x能100%转移到y，y又能100%转移到x\color{#FFA5FF} \qquad\quad\; 例如：(x,y,z)三种状态，x能100\%转移到y，y又能100\%转移到x例如：(x,y,z)三种状态，x能100%转移到y，y又能100%转移到x

三、马尓可夫奖励过程

马尔可夫过程描述的是状态间的转移关系\color{#6666FF} \textbf{马尔可夫过程}描述的是状态间的转移关系马尔可夫过程描述的是状态间的转移关系

在各个状态的转移过程中赋予不同的奖励值，就得到了马尔可夫奖励过程\color{#6666FF} 在各个状态的转移过程中赋予不同的奖励值，就得到了\textbf{马尔可夫奖励过程}在各个状态的转移过程中赋予不同的奖励值，就得到了马尔可夫奖励过程

马尔可夫奖励过程可以用一个四元组(S,P,R,γ)表示\color{#6666FF} \textbf{马尔可夫奖励过程}可以用一个四元组(S, P, R, \gamma)表示马尔可夫奖励过程可以用一个四元组(S,P,R,γ)表示
其中\color{#6666FF} 其中其中
S——状态集合\color{#6666FF} \qquad S——状态集合S——状态集合
P——状态转移矩阵P(St+1∣St)\color{#6666FF} \qquad P——状态转移矩阵 \qquad P(S_{t+1} | S_t)P——状态转移矩阵P(St+1∣St)
R——奖励函数R(S)=E(Rt+1∣St)\color{#6666FF} \qquad R——奖励函数 \qquad\qquad R(S) = E(R_{t+1} | S_t)R——奖励函数R(S)=E(Rt+1∣St)
eg:在之前的天气示例中，不同的天气会给人不同的心情状态（奖励）\color{#FFA5FF} \qquad\qquad eg: 在之前的天气示例中，不同的天气会给人不同的心情状态（奖励）eg:在之前的天气示例中，不同的天气会给人不同的心情状态（奖励）
{晴天+2阴天+0下雨−1\color{#FFA5FF} \qquad\qquad\qquad \begin{cases} 晴天 & +2 \\ 阴天 & +0 \\ 下雨 & -1 \\ \end{cases}⎩⎪⎨⎪⎧晴天阴天下雨+2+0−1
γ——衰减因子γ∈[0,1]\color{#6666FF} \qquad \;\gamma——衰减因子 \qquad\qquad \gamma \in [0, 1]γ——衰减因子γ∈[0,1]
理解：\color{#00A000} \qquad\qquad 理解：理解：
举个例子：\color{#FFA5FF} \qquad\qquad\qquad 举个例子：举个例子：
“2天后得到100元”和“35天后得到100元”，我们往往会认为他们的价值是不同的\color{#FFA5FF} \qquad\qquad\qquad\qquad “2天后得到100元”和“35天后得到100元”，我们往往会认为他们的价值是不同的“2天后得到100元”和“35天后得到100元”，我们往往会认为他们的价值是不同的
“2天后得到100元”的奖励值可能是γ2R\color{#FFA5FF} \qquad\qquad\qquad\qquad “2天后得到100元”的奖励值可能是\gamma^2 R“2天后得到100元”的奖励值可能是γ2R
而“35天后得到100元”的奖励值可能是γ35R\color{#FFA5FF} \qquad\qquad\qquad\qquad 而“35天后得到100元”的奖励值可能是\gamma^{35} R而“35天后得到100元”的奖励值可能是γ35R
往往越是未来的奖励，它们的价值就越低\color{#00A000} \qquad\qquad\qquad 往往越是未来的奖励，它们的价值就越低往往越是未来的奖励，它们的价值就越低
γ值设置越大，衰减越慢，表示一个人更在乎未来的奖励\color{#AA66FF} \qquad\qquad \gamma值设置越大，衰减越慢，表示一个人更在乎未来的奖励γ值设置越大，衰减越慢，表示一个人更在乎未来的奖励
γ值设置越小，衰减越快，表示一个人更在乎眼前的奖励\color{#AA66FF} \qquad\qquad \gamma值设置越小，衰减越快，表示一个人更在乎眼前的奖励γ值设置越小，衰减越快，表示一个人更在乎眼前的奖励

四、马尓可夫决策过程与强化学习

1、马尓可夫决策过程

马尔可夫决策过程相比马尔可夫奖励过程多了一个动作A，它可以用一个五元组(S,A,P,R,γ)表示\color{#6666FF} \textbf{马尔可夫决策过程}相比\textbf{马尔可夫奖励过程}多了一个动作A，它可以用一个五元组(S, A, P, R, \gamma)表示马尔可夫决策过程相比马尔可夫奖励过程多了一个动作A，它可以用一个五元组(S,A,P,R,γ)表示
马尔可夫奖励过程可以用一个四元组(S,P,R,γ)表示\color{#6666FF} \textbf{马尔可夫奖励过程}可以用一个四元组(S, P, R, \gamma)表示马尔可夫奖励过程可以用一个四元组(S,P,R,γ)表示
其中\color{#6666FF} 其中其中
S——状态集合\color{#6666FF} \qquad S——状态集合S——状态集合
A——动作集合（决策过程集合）\color{#6666FF} \qquad A——动作集合（决策过程集合）A——动作集合（决策过程集合）
P——状态转移矩阵P(St+1∣St,At)\color{#6666FF} \qquad P——状态转移矩阵 \qquad P(S_{t+1} | S_t, A_t)P——状态转移矩阵P(St+1∣St,At)
R——奖励函数R(S)=E(Rt+1∣St,At)\color{#6666FF} \qquad R——奖励函数 \qquad\qquad R(S) = E(R_{t+1} | S_t, A_t)R——奖励函数R(S)=E(Rt+1∣St,At)
γ——衰减因子γ∈[0,1]\color{#6666FF} \qquad \;\gamma——衰减因子 \qquad\qquad \gamma \in [0, 1]γ——衰减因子γ∈[0,1]

马尔可夫决策过程是强化学习的基本过程\color{#AA66FF} \textbf{马尔可夫决策过程}是\textbf{强化学习}的基本过程马尔可夫决策过程是强化学习的基本过程

2、强化学习

一个强化学习的过程如下图所示，其实就是一个典型的马尓可夫链\color{#6666FF} 一个强化学习的过程如下图所示，其实就是一个典型的马尓可夫链一个强化学习的过程如下图所示，其实就是一个典型的马尓可夫链

强化学习的原理：\color{#6666FF} 强化学习的原理：强化学习的原理：
最大化期望回报π(At∣St)，相应的结果就是找到从状态空间S映射到动作空间A的最优策略\color{#6666FF} \qquad 最大化期望回报\pi(A_t | S_t)，相应的结果就是找到从状态空间S映射到动作空间A的最优策略最大化期望回报π(At∣St)，相应的结果就是找到从状态空间S映射到动作空间A的最优策略

示例3：\color{#FFA5FF} \textbf{示例3}：示例3：

可以设置
遇到-100
遇到+100

随着不断的训练，可以优化模型
让模型找到最短的直接到达终点的路径
（最短是因为有衰减因子γ存在）

人工智能必备数学知识· 学习笔记 ·002【马尓可夫链，马尓可夫链奖励过程，马尔可夫决策过程】相关推荐

人工智能必备数学知识· 学习笔记 ·001【线性回归，最小二乘法梯度下降法】
注:笔记来自课程人工智能必备数学知识 Tips①:只是记录从这个课程学到的东西,不是推广.没有安利 Tips②:本笔记主要目的是为了方便自己遗忘查阅,或过于冗长.或有所缺省.或杂乱无章,见谅 Ti ...
Acwing数学知识——学习笔记
ACwing数学知识听课笔记文章目录质数试除法求素数分解质因数板子质数筛朴素筛法--每一个数都把自己的倍数全部筛除埃氏筛法-把所有质数的倍数全部删除(用这个就行了) 约数试除法求约数 ...
MATLAB马尔科夫决策过程遗传,科学网—【RL系列】马尔可夫决策过程与动态编程笔记 - 管金昱的博文...
推荐阅读顺序: Reinforcement Learning: An Introduction (Drfit) 本篇马尔可夫决策过程马尔可夫决策(MDP)过程为强化学习(RL)提供了理论基础,而动 ...
强化学习--马尔可夫决策过程学习笔记
本文学习内容参照视频 1.强化学习基本概念:强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺 ...
马尔可夫决策过程-强化学习学习笔记(二)
概念引入强化学习的通俗理解马尔可夫的通俗介绍简介马尔可夫决策过程 (Markov Decision Processes, MDPs)是对强化学习问题的数学描述. 马尔可夫决策过程(Markov ...
【学习笔记】传说中的马尔可夫决策过程(MDP)和贝尔曼方程(Bellman Equation)
最近读了几篇paper,都着重涉及到了强化学习,都点到了马尔可夫决策过程(Markov Decision Process) 和贝尔曼方程或者叫贝尔曼等式(Bellman Equation),捧着似懂非 ...
什么是强化学习（马尔可夫决策过程）
文章目录什么是强化学习(马尔可夫决策过程) 1. 强化学习(概述) 2. 马尔可夫决策过程 2.1 马尔可夫假设 2.2 马尔可夫决策过程 2.3 状态值函数(state-value functio ...
[强化学习-3] Devil 课程第二章解析+ 学生马尔可夫决策过程代码
马尔可夫决策过程(MDP) 一:介绍马尔可夫决策过程是用来形式化地描述强化学习中的环境其中环境是完全可以观测的值得注意的是,大部分强化学习问题都可以看作 MDP 问题. 简单地理解,MDP是用来 ...
论文学习「MDP」：马尔可夫决策过程原理与代码实现
最近在学习 RL ,不得不先接触一下" 马尔可夫决策过程 ",这里找到了 David Silver 的课程: UCL Course on RL (http://www0.cs.uc ...

人工智能必备数学知识· 学习笔记 ·002【马尓可夫链，马尓可夫链奖励过程，马尔可夫决策过程】