注:笔记 来自课程 人工智能必备数学知识
Tips①:只是记录从这个课程学到的东西,不是推广、没有安利
Tips②:本笔记主要目的是为了方便自己遗忘查阅,或过于冗长、或有所缺省、或杂乱无章,见谅
Tips③:本笔记使用markdown编写,相关缩进为了方便使用了LaTeX公式的\qquad,复制粘贴请注意

文章目录

  • 一、深度强化学习
  • 二、马尓可夫链(Markov Chain)
    • 1、马尓可夫链
    • 2、状态转移矩阵
    • 3、收敛和平稳条件
  • 三、马尓可夫奖励过程
  • 四、马尓可夫决策过程与强化学习
    • 1、马尓可夫决策过程
    • 2、强化学习

一、深度强化学习

深度强化学习=深度神经网络+强化学习\color{#6666FF} \textbf{深度强化学习} = \textbf{深度神经网络} + \textbf{强化学习}深度强化学习=深度神经网络+强化学习

一个模型是深度学习模型,同时又使用强化学习的方法进行训练,使其应用在某个具体的领域,就是深度强化学习模型

马尓可夫链就是强化学习的底层数学原理

当我们考虑一个问题能否用强化学习的方式来解决时,我们就要思考这个问题能否定义为一个马尔可夫决策过程

二、马尓可夫链(Markov Chain)

1、马尓可夫链

马尓可夫链是状态空间中从一个状态到另一个状态转换的随机过程,下一个状态的概率分布只由当前状态决定,且与它前面的事件均无关:

P(St+1∣St,St−1,⋯,S0)=P(St+1∣St)\color{#6666FF} P(S_{t+1} | S_t, S_{t - 1}, \cdots, S_0) = P(S_{t+1} | S_t)P(St+1​∣St​,St−1​,⋯,S0​)=P(St+1​∣St​)

一种状态到另一种状态的转变,称为状态的转移
一种状态向另一种状态转移的概率,称为转移概率

示例1:\color{#FFA5FF} \textbf{示例1}:示例1:
假设有两种天气状态(晴天、下雨),第二天的天气状态只取决于前一天的天气状态:\color{#FFA5FF} \qquad 假设有两种天气状态(晴天、下雨),第二天的天气状态只取决于前一天的天气状态:假设有两种天气状态(晴天、下雨),第二天的天气状态只取决于前一天的天气状态:
第一天晴天,第二天:晴天(80%),下雨(20%)\color{#FFA5FF} \qquad\qquad 第一天晴天,第二天:晴天(80\%),下雨(20\%)第一天晴天,第二天:晴天(80%),下雨(20%)
第一天下雨,第二天:晴天(50%),下雨(50%)\color{#FFA5FF} \qquad\qquad 第一天下雨,第二天:晴天(50\%),下雨(50\%)第一天下雨,第二天:晴天(50%),下雨(50%)

可作出状态转换图如下:\color{#FF8080} 可作出状态转换图如下:可作出状态转换图如下:
\qquad

2、状态转移矩阵

从上面的示例中,我们可以看出:\color{#00A000} 从上面的示例中,我们可以看出:从上面的示例中,我们可以看出:

一个马尓可夫链由一个二元组(S,P)组成\color{#6666FF} \qquad 一个马尓可夫链由一个二元组(S, P)组成一个马尓可夫链由一个二元组(S,P)组成
其中\color{#6666FF} \qquad 其中其中
S——状态的集合\color{#6666FF} \qquad\qquad S——状态的集合S——状态的集合
P——状态转移矩阵(记录了从任意一个状态到另一个状态的转移概率)\color{#6666FF} \qquad\qquad P——状态转移矩阵(记录了从任意一个状态到另一个状态的转移概率)P——状态转移矩阵(记录了从任意一个状态到另一个状态的转移概率)

设当前各状态概率构成一个概率向量V0,经过t次状态转移后,各个状态概率构成概率向量Vt,则有\color{#AA66FF} 设当前各状态概率构成一个概率向量V_0,经过t次状态转移后,各个状态概率构成概率向量V_t,则有设当前各状态概率构成一个概率向量V0​,经过t次状态转移后,各个状态概率构成概率向量Vt​,则有
Vt=V0Pt\color{#AA66FF} V_t = V_0 P^tVt​=V0​Pt

题例2:\color{#FFA5FF} \textbf{题例2}:题例2:
假设有三种天气状态(晴天、阴天、下雨),第二天的天气状态只取决于前一天的天气状态:\color{#FFA5FF} \qquad 假设有三种天气状态(晴天、阴天、下雨),第二天的天气状态只取决于前一天的天气状态:假设有三种天气状态(晴天、阴天、下雨),第二天的天气状态只取决于前一天的天气状态:
第一天晴天,第二天:晴天(70%),阴天(20%),下雨(10%)\color{#FFA5FF} \qquad\qquad 第一天晴天,第二天:晴天(70\%),阴天(20\%),下雨(10\%)第一天晴天,第二天:晴天(70%),阴天(20%),下雨(10%)
第一天阴天,第二天:晴天(40%),阴天(40%),下雨(20%)\color{#FFA5FF} \qquad\qquad 第一天阴天,第二天:晴天(40\%),阴天(40\%),下雨(20\%)第一天阴天,第二天:晴天(40%),阴天(40%),下雨(20%)
第一天下雨,第二天:晴天(20%),阴天(40%),下雨(40%)\color{#FFA5FF} \qquad\qquad 第一天下雨,第二天:晴天(20\%),阴天(40\%),下雨(40\%)第一天下雨,第二天:晴天(20%),阴天(40%),下雨(40%)
(1).今天是晴天、阴天、下雨的概率分别为(0.5,0.5,0),计算明天各天气状态的概率\color{#FFA5FF} \qquad (1).今天是晴天、阴天、下雨的概率分别为(0.5, 0.5, 0),计算明天各天气状态的概率(1).今天是晴天、阴天、下雨的概率分别为(0.5,0.5,0),计算明天各天气状态的概率
(2).今天是晴天,计算后天各天气状态的概率\color{#FFA5FF} \qquad (2).今天是晴天,计算后天各天气状态的概率(2).今天是晴天,计算后天各天气状态的概率

解:\color{#FF8080} \qquad \textbf{解:}解:
状态转移矩阵P=(0.70.20.10.40.40.20.20.40.4)\color{#FF8080} \qquad\qquad 状态转移矩阵P = \begin{pmatrix} 0.7 & 0.2 & 0.1\\ 0.4 & 0.4 & 0.2\\ 0.2 & 0.4 & 0.4\\ \end{pmatrix}状态转移矩阵P=⎝⎛​0.70.40.2​0.20.40.4​0.10.20.4​⎠⎞​

(1).V0=(0.50.50)\color{#FF8080} \qquad\qquad(1).V_0 = \begin{pmatrix} 0.5& 0.5& 0 \end{pmatrix}(1).V0​=(0.5​0.5​0​)
V1=V0P=(0.50.50)(0.70.20.10.40.40.20.20.40.4)=(0.550.30.15)\color{#FF8080} \qquad\qquad\quad\;\; V_1 = V_0 P = \begin{pmatrix} 0.5 & 0.5 & 0 \end{pmatrix} \begin{pmatrix} 0.7 & 0.2 & 0.1\\ 0.4 & 0.4 & 0.2\\ 0.2 & 0.4 & 0.4\\ \end{pmatrix} = \begin{pmatrix} 0.55 & 0.3 & 0.15 \end{pmatrix}V1​=V0​P=(0.5​0.5​0​)⎝⎛​0.70.40.2​0.20.40.4​0.10.20.4​⎠⎞​=(0.55​0.3​0.15​)

(2).V0=(100)\color{#FF8080} \qquad\qquad(2).V_0 = \begin{pmatrix} 1& 0& 0 \end{pmatrix}(2).V0​=(1​0​0​)
V2=V0P2=(100)(0.70.20.10.40.40.20.20.40.4)2=(0.590.260.15)\color{#FF8080} \qquad\qquad\quad\;\; V_2 = V_0 P^2 = \begin{pmatrix} 1 & 0 & 0 \end{pmatrix} {\begin{pmatrix} 0.7 & 0.2 & 0.1\\ 0.4 & 0.4 & 0.2\\ 0.2 & 0.4 & 0.4\\ \end{pmatrix}}^2 = \begin{pmatrix} 0.59 & 0.26 & 0.15 \end{pmatrix}V2​=V0​P2=(1​0​0​)⎝⎛​0.70.40.2​0.20.40.4​0.10.20.4​⎠⎞​2=(0.59​0.26​0.15​)

从上面的题例中,我们可以看到,一个马尓可夫链可以预测多次状态转移的结果。\color{#00A000} 从上面的题例中,我们可以看到,一个马尓可夫链可以预测多次状态转移的结果。从上面的题例中,我们可以看到,一个马尓可夫链可以预测多次状态转移的结果。
但是随着转移次数的增加,某些状态的概率可能会越来越小,因此我们需要加一些约束。\color{#00A000} 但是随着转移次数的增加,某些状态的概率可能会越来越小,因此我们需要加一些约束。但是随着转移次数的增加,某些状态的概率可能会越来越小,因此我们需要加一些约束。

3、收敛和平稳条件

马尔可夫连收敛和平稳的前提条件如下:\color{#6666FF} 马尔可夫连收敛和平稳的前提条件如下:马尔可夫连收敛和平稳的前提条件如下:
①.状态有限\color{#6666FF} \qquad ①.状态有限①.状态有限
②.状态间转移概率固定\color{#6666FF} \qquad ②.状态间转移概率固定②.状态间转移概率固定
③.从任意状态可转移到任意状态\color{#6666FF} \qquad ③.从任意状态可转移到任意状态③.从任意状态可转移到任意状态
④.不能是简单的循环\color{#6666FF} \qquad ④.不能是简单的循环④.不能是简单的循环
例如:(x,y,z)三种状态,x能100%转移到y,y又能100%转移到x\color{#FFA5FF} \qquad\quad\; 例如:(x,y,z)三种状态,x能100\%转移到y,y又能100\%转移到x例如:(x,y,z)三种状态,x能100%转移到y,y又能100%转移到x

三、马尓可夫奖励过程

马尔可夫过程描述的是状态间的转移关系\color{#6666FF} \textbf{马尔可夫过程}描述的是状态间的转移关系马尔可夫过程描述的是状态间的转移关系

在各个状态的转移过程中赋予不同的奖励值,就得到了马尔可夫奖励过程\color{#6666FF} 在各个状态的转移过程中赋予不同的奖励值,就得到了\textbf{马尔可夫奖励过程}在各个状态的转移过程中赋予不同的奖励值,就得到了马尔可夫奖励过程

马尔可夫奖励过程可以用一个四元组(S,P,R,γ)表示\color{#6666FF} \textbf{马尔可夫奖励过程}可以用一个四元组(S, P, R, \gamma)表示马尔可夫奖励过程可以用一个四元组(S,P,R,γ)表示
其中\color{#6666FF} 其中其中
S——状态集合\color{#6666FF} \qquad S——状态集合S——状态集合
P——状态转移矩阵P(St+1∣St)\color{#6666FF} \qquad P——状态转移矩阵 \qquad P(S_{t+1} | S_t)P——状态转移矩阵P(St+1​∣St​)
R——奖励函数R(S)=E(Rt+1∣St)\color{#6666FF} \qquad R——奖励函数 \qquad\qquad R(S) = E(R_{t+1} | S_t)R——奖励函数R(S)=E(Rt+1​∣St​)
eg:在之前的天气示例中,不同的天气会给人不同的心情状态(奖励)\color{#FFA5FF} \qquad\qquad eg: 在之前的天气示例中,不同的天气会给人不同的心情状态(奖励)eg:在之前的天气示例中,不同的天气会给人不同的心情状态(奖励)
{晴天+2阴天+0下雨−1\color{#FFA5FF} \qquad\qquad\qquad \begin{cases} 晴天 & +2 \\ 阴天 & +0 \\ 下雨 & -1 \\ \end{cases}⎩⎪⎨⎪⎧​晴天阴天下雨​+2+0−1​
γ——衰减因子γ∈[0,1]\color{#6666FF} \qquad \;\gamma——衰减因子 \qquad\qquad \gamma \in [0, 1]γ——衰减因子γ∈[0,1]
理解:\color{#00A000} \qquad\qquad 理解:理解:
举个例子:\color{#FFA5FF} \qquad\qquad\qquad 举个例子:举个例子:
“2天后得到100元”和“35天后得到100元”,我们往往会认为他们的价值是不同的\color{#FFA5FF} \qquad\qquad\qquad\qquad “2天后得到100元”和“35天后得到100元”,我们往往会认为他们的价值是不同的“2天后得到100元”和“35天后得到100元”,我们往往会认为他们的价值是不同的
“2天后得到100元”的奖励值可能是γ2R\color{#FFA5FF} \qquad\qquad\qquad\qquad “2天后得到100元”的奖励值可能是\gamma^2 R“2天后得到100元”的奖励值可能是γ2R
而“35天后得到100元”的奖励值可能是γ35R\color{#FFA5FF} \qquad\qquad\qquad\qquad 而“35天后得到100元”的奖励值可能是\gamma^{35} R而“35天后得到100元”的奖励值可能是γ35R
往往越是未来的奖励,它们的价值就越低\color{#00A000} \qquad\qquad\qquad 往往越是未来的奖励,它们的价值就越低往往越是未来的奖励,它们的价值就越低
γ值设置越大,衰减越慢,表示一个人更在乎未来的奖励\color{#AA66FF} \qquad\qquad \gamma值设置越大,衰减越慢,表示一个人更在乎未来的奖励γ值设置越大,衰减越慢,表示一个人更在乎未来的奖励
γ值设置越小,衰减越快,表示一个人更在乎眼前的奖励\color{#AA66FF} \qquad\qquad \gamma值设置越小,衰减越快,表示一个人更在乎眼前的奖励γ值设置越小,衰减越快,表示一个人更在乎眼前的奖励

四、马尓可夫决策过程与强化学习

1、马尓可夫决策过程

马尔可夫决策过程相比马尔可夫奖励过程多了一个动作A,它可以用一个五元组(S,A,P,R,γ)表示\color{#6666FF} \textbf{马尔可夫决策过程}相比\textbf{马尔可夫奖励过程}多了一个动作A,它可以用一个五元组(S, A, P, R, \gamma)表示马尔可夫决策过程相比马尔可夫奖励过程多了一个动作A,它可以用一个五元组(S,A,P,R,γ)表示
马尔可夫奖励过程可以用一个四元组(S,P,R,γ)表示\color{#6666FF} \textbf{马尔可夫奖励过程}可以用一个四元组(S, P, R, \gamma)表示马尔可夫奖励过程可以用一个四元组(S,P,R,γ)表示
其中\color{#6666FF} 其中其中
S——状态集合\color{#6666FF} \qquad S——状态集合S——状态集合
A——动作集合(决策过程集合)\color{#6666FF} \qquad A——动作集合(决策过程集合)A——动作集合(决策过程集合)
P——状态转移矩阵P(St+1∣St,At)\color{#6666FF} \qquad P——状态转移矩阵 \qquad P(S_{t+1} | S_t, A_t)P——状态转移矩阵P(St+1​∣St​,At​)
R——奖励函数R(S)=E(Rt+1∣St,At)\color{#6666FF} \qquad R——奖励函数 \qquad\qquad R(S) = E(R_{t+1} | S_t, A_t)R——奖励函数R(S)=E(Rt+1​∣St​,At​)
γ——衰减因子γ∈[0,1]\color{#6666FF} \qquad \;\gamma——衰减因子 \qquad\qquad \gamma \in [0, 1]γ——衰减因子γ∈[0,1]

马尔可夫决策过程是强化学习的基本过程\color{#AA66FF} \textbf{马尔可夫决策过程}是\textbf{强化学习}的基本过程马尔可夫决策过程是强化学习的基本过程

2、强化学习

一个强化学习的过程如下图所示,其实就是一个典型的马尓可夫链\color{#6666FF} 一个强化学习的过程如下图所示,其实就是一个典型的马尓可夫链一个强化学习的过程如下图所示,其实就是一个典型的马尓可夫链

强化学习的原理:\color{#6666FF} 强化学习的原理:强化学习的原理:
最大化期望回报π(At∣St),相应的结果就是找到从状态空间S映射到动作空间A的最优策略\color{#6666FF} \qquad 最大化期望回报\pi(A_t | S_t),相应的结果就是找到从状态空间S映射到动作空间A的最优策略最大化期望回报π(At​∣St​),相应的结果就是找到从状态空间S映射到动作空间A的最优策略

示例3:\color{#FFA5FF} \textbf{示例3}:示例3:


  可以设置
     遇到-100
     遇到+100

  随着不断的训练,可以优化模型
  让模型找到最短的直接到达终点的路径
  (最短是因为有衰减因子γ存在)

人工智能必备数学知识· 学习笔记 ·002【马尓可夫链,马尓可夫链奖励过程,马尔可夫决策过程】相关推荐

  1. 人工智能必备数学知识· 学习笔记 ·001【线性回归,最小二乘法梯度下降法】

    注:笔记 来自课程 人工智能必备数学知识 Tips①:只是记录从这个课程学到的东西,不是推广.没有安利 Tips②:本笔记主要目的是为了方便自己遗忘查阅,或过于冗长.或有所缺省.或杂乱无章,见谅 Ti ...

  2. Acwing数学知识——学习笔记

    ACwing数学知识听课笔记 文章目录 质数 试除法求素数 分解质因数 板子 质数筛 朴素筛法--每一个数都把自己的倍数全部筛除 埃氏筛法-把所有质数的倍数全部删除(用这个就行了) 约数 试除法求约数 ...

  3. MATLAB马尔科夫决策过程遗传,科学网—【RL系列】马尔可夫决策过程与动态编程笔记 - 管金昱的博文...

    推荐阅读顺序: Reinforcement Learning: An Introduction (Drfit) 本篇 马尔可夫决策过程 马尔可夫决策(MDP)过程为强化学习(RL)提供了理论基础,而动 ...

  4. 强化学习--马尔可夫决策过程学习笔记

    本文学习内容参照视频 1.强化学习 基本概念:强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺 ...

  5. 马尔可夫决策过程-强化学习学习笔记(二)

    概念引入 强化学习的通俗理解 马尔可夫的通俗介绍 简介 马尔可夫决策过程 (Markov Decision Processes, MDPs)是对强化学习问题的数学描述. 马尔可夫决策过程(Markov ...

  6. 【学习笔记】传说中的马尔可夫决策过程(MDP)和贝尔曼方程(Bellman Equation)

    最近读了几篇paper,都着重涉及到了强化学习,都点到了马尔可夫决策过程(Markov Decision Process) 和贝尔曼方程或者叫贝尔曼等式(Bellman Equation),捧着似懂非 ...

  7. 什么是强化学习(马尔可夫决策过程)

    文章目录 什么是强化学习(马尔可夫决策过程) 1. 强化学习(概述) 2. 马尔可夫决策过程 2.1 马尔可夫假设 2.2 马尔可夫决策过程 2.3 状态值函数(state-value functio ...

  8. [强化学习-3] Devil 课程第二章解析+ 学生马尔可夫决策过程代码

    马尔可夫决策过程(MDP) 一:介绍 马尔可夫决策过程是用来形式化地描述强化学习中的环境 其中环境是完全可以观测的 值得注意的是,大部分强化学习问题都可以看作 MDP 问题. 简单地理解,MDP是用来 ...

  9. 论文学习「MDP」:马尔可夫决策过程原理与代码实现

    最近在学习 RL ,不得不先接触一下" 马尔可夫决策过程 ",这里找到了 David Silver 的课程: UCL Course on RL (http://www0.cs.uc ...

最新文章

  1. group by 查找订单的最新状态 join
  2. 【通俗理解线性代数】 -- 特殊的矩阵
  3. 条形压电陶瓷执行器件和高压驱动器
  4. 分布式队列编程:模型、实战
  5. Nginx之location配置
  6. java struct 简单案列_spring与struts简单整合案例
  7. Python Windows文件操作
  8. The following IP can be used to access Google website
  9. 直播APP系统源码,直播系统源码 直播系统源码
  10. 当面试官说“你还有什么问题想问的”,你该如何回答?
  11. 请输入一个年份和月份判断该月份的天数,注:闰年2月29天、平年2月28天。
  12. 整理PC端微信文件夹
  13. 把m个球放到n个盒子里,有多少种方法 球盒问题,8种情况
  14. 语音通信64K的由来
  15. 2021年1~11月语音合成和语音识别论文月报
  16. 用c语言求五位回文数,C语言求回文数(详解版)
  17. 武汉疫情 - 新型冠状病毒信息整理
  18. 【软件测试】一个真正的测试面试过程,我比面试官还狡猾......
  19. 获取键盘鼠标操作的函数(GetAsyncKeyState ())
  20. IBM究竟是一家怎样的公司

热门文章

  1. java quartz xml_java 使用quartz 定时xml 配置 与注解 以及注意事项
  2. python stack使用_python inspect.stack() 的简单使用
  3. main run方法没用_多线程:解决Runnable接口无start()方法的问题
  4. java hashset char_java集合之HashSet
  5. 大楼通信综合布线系统_建筑智能化,智能大楼防雷系统设计在综合布线中的重要性...
  6. 攻防世界 php2,CTF-攻防世界-PHP2
  7. ROS入门 工程结构
  8. pytorch学习笔记(四):线性回归从零开始实现
  9. 实验3.1 定义一个CPU类,观察构造函数和析构函数的调用顺序
  10. ~~朴素版prim算法