强化学习笔记-马尔可夫决策过程
前言
本文首先介绍了三个基本概念:马尔可夫性、马尔可夫过程和马尔可夫决策过程。接着引入贝尔曼方程,给出了值函数、状态行为函数、最优值函数、最优状态行为函数的推导公式以及它们之间的关系。
解释马尔可夫性、马尔可夫过程和马尔可夫决策过程。
马尔可夫性:当前状态可以决定未来,则认为该状态具有马尔可夫性。即如果某一状态信息蕴含了所有相关的历史信息,只要当前状态可知,所有的历史信息都不再需要。
可以用下面的状态转移概率公式来描述马尔可夫性:
可见状态St包含的信息等价于所有历史状态S1 , S2 , ……St包含的信息,状态St具有马尔可夫性。
例如,围棋未来的走法只和当前棋面有关,知道历史棋面信息对于当前该怎么走没有多大的帮助,则围棋的棋面是马尔可夫的。再如,直升机下一个时刻的位置信息也仅和当前时刻的位置和速度相关,因此直升机的位置也具有马尔可夫性。
马尔可夫过程:凡是具有马尔可夫性的随机过程都叫马尔可夫过程,又叫马尔可夫链。它是一个无记忆的随机过程,可以用一个元组<S,P>表示,其中S是有限数量的状态集,P是状态转移概率矩阵。
马尔可夫决策过程:马尔可夫决策过程(Markov Decision Process,MDP)是针对具有马尔可夫性的随机过程序贯地作出决策。即下一时间步状态s‘仅与当前当前状态s和动作a有关,而此刻之前的状态或动作不对其有任何影响。
过程:根据每个时间步观察到的状态s,从可用的行动集合中选用一个行动a,环境在a的作用下,转换至新状态s’。决策者根据新观察到的状态s‘,再做出新的决策,采取行为a’,依次反复地进行。
MDP五元组M=<S,A,P,R,γ>中,各个字母代表什么含义。
一个马尔可夫决策过程由一个五元组构成:M=<S,A,P,R,γ>。
(1)S代表环境的状态集合,指的是智能体所能获得的对决策有用的信息。A代表智能体的动作集合,它是智能体在当前强化学习任务中可以选择的动作集。
(2)A表示智能体的动作集合,是智能体在当前强化学习任务中可以选择的动作的动作集。
(3)PaSS’表示在当前状态s下(s∈S),经过动作a作用后(a∈A),会转移到的其他状态s’(s‘∈S)的概率。具体数学表达式如下:
某些时候,P与动作无关,可以写成:
(4)R是回报函数,表示在当前状态s(s∈S),采取动作a(a∈A)后,获得的回报,具有的数学表达式如下:
(5)γ是衰减系数,也叫折扣因子,γ∈[0,1]。使用折扣因子是为了在计算当前状态的累积回报时,将未来时刻的立即回报也考虑进来。这种做法符合人类的认知习惯,人类在追求眼前利益的同时,也会考虑具有不确定性的远期利益。
对于一个马尔可夫决策过程,奖赏值数量有限,请给出状态转移函数和回报函数。
状态转移函数:PaSS’表示在当前状态s下(s∈S),经过动作a作用后(a∈A),会转移到的其他状态s’(s‘∈S)的概率。具体数学表达式如下:
某些时候,P与动作无关,可以写成:
回报函数:R是回报函数,表示在当前状态s(s∈S),采取动作a(a∈A)后,获得的回报,具有的数学表达式如下:
扑克和围棋均属于MDP问题,两种游戏之间有什么本质区别?
对于扑克,博弈各方不知道其他博弈者的牌具体是什么,属于不完全信息博弈。
而对于围棋,博弈双方的所有信息都体现在棋盘上,属于完全信息博弈。
请写出贝尔曼期望方程和贝尔曼最优方程。
贝尔曼期望方程:
通过方程可以看出值函数由两部分组成,一是该状态的即时奖励期望,另一个是下一时刻状态的价值期望,可以根据下一时刻状态的概率分布得到其期望。
贝尔曼最优方程:
贝尔曼最优方程表达的是当前最优值函数(或最优行为值函数)和它后继最优值函数(或最优行为值函数)的关系,以及最优值函数和最优行为值函数之间的关系。
贝尔曼最优性方程是一个递归方程,可由动态规划(dynamic programming,DP)算法求解,通过求解该方程可以找到最优值函数和最优策略。
贝尔曼最优性方程是非线性的,没有固定的解决方案,只能通过一些迭代方法来解决,如价值迭代、策略迭代、Q学习、Sarsa等。
强化学习的目标是什么?什么是最优策略和最优值函数?
强化学习的目标是:找到最优策略Π,使得该策略下的累积回报期望最大。
最优策略:如果策略Π在所有状态下的期望回报都比策略 Π‘ 大,那么就说策略Π比Π’好。
最优值函数:所有策略中最优策略对应的值函数就是最优值函数。
最优值函数和最优策略为什么等价?
每个策略对应着一个状态值函数,最优策略自然对应着最优状态值函数。
参考资料:
https://zhuanlan.zhihu.com/p/108484403
https://zhuanlan.zhihu.com/p/54728513
《强化学习》 邹伟 鬲玲 刘昱杓 著
强化学习笔记-马尔可夫决策过程相关推荐
- 强化学习学习笔记——马尔可夫决策过程(二)
强化学习学习笔记--马尔可夫决策过程(二) 马尔科夫奖励过程(Markov Reword Process,MRP) 爱学习的马尔科夫蛙 状态值函数(State-Value Function) 马尔科夫 ...
- 【githubshare】深度学习蘑菇书,覆盖了强化学习、马尔可夫决策过程、策略梯度、模仿学习
GitHub 上的深度学习技术书籍:<蘑菇书 EasyRL>,覆盖了强化学习.马尔可夫决策过程.策略梯度.模仿学习等多个知识点. GitHub:github.com/datawhalech ...
- 【强化学习】《动手学强化学习》马尔可夫决策过程
[强化学习]<动手学强化学习>马尔可夫决策过程 一.随机过程.马尔可夫过程.马尔可夫奖励过程 二.马尔可夫决策过程 三.蒙特卡洛方法 四.最优策略与贝尔曼最优方程 一.随机过程.马尔可夫过 ...
- 强化学习之——马尔可夫决策过程原理
强化学习之--马尔可夫决策过程原理 1.1 MDP:策略与环境模型 我们以蛇棋为模型引入--蛇棋的关键问题在于:哪些因素决定了蛇棋最终获得分数的多少? 两个因素 选择什么样的手法投掷(也就是投3以内的 ...
- 什么是强化学习(马尔可夫决策过程)
文章目录 什么是强化学习(马尔可夫决策过程) 1. 强化学习(概述) 2. 马尔可夫决策过程 2.1 马尔可夫假设 2.2 马尔可夫决策过程 2.3 状态值函数(state-value functio ...
- 强化学习之马尔可夫决策过程—机器学习公开课第十五讲
本篇笔记对应的是公开课的第十五讲,主要内容包括 马尔可夫决策过程MDP(Markov Decision Process).价值函数(Value Function).价值迭代(Value Iterati ...
- mdp框架_强化学习-MDP(马尔可夫决策过程)算法原理
1. 前言 前面的强化学习基础知识介绍了强化学习中的一些基本元素和整体概念.今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程). 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框 ...
- 强化学习_02_DataWhale马尔可夫决策过程习题
习题 1-1 为什么在马尔可夫奖励过程中需要有折扣因子(discount factor)? 马尔可夫过程是带环的,需要避免无穷的奖励 我们没办法完美模拟环境,对未来的预估不一定准确.折扣因子可以将这个 ...
- 【深度强化学习】马尔可夫决策过程(Markov Decision Process, MDP)
1. Markov Process 我们一步一步来讲解 Markov Decision Process.按顺序,从 Markov Process 到 Markov Reward Process,再到 ...
最新文章
- 使用c#实现tcp的连接和发送接收数据
- 关于.NET技术体系的思维导图
- Laravel安装因PHP版本不对的bug
- java多态可以传匿名对象吗_Java复习笔记2--匿名类和多态
- 一个列表包揽所有你需要的Windows应用
- java mysql 版本查询_如何查看数据库版本
- 百度押注AI有了大回报,李彦宏首次披露Apollo如何赚钱
- 最大似然估计、MAP、贝叶斯估计
- 拓端tecdat|R语言可视化渐近正态性、收敛性:大数定律、中心极限定理、经验累积分布函数
- hive外部表改为内部表_Hive基础之创建表
- 【遗传算法】求解TSP问题
- amos调节变量怎么画_AMOS结构方程教程,调节效应分析操作与结果的详细解读 ——【杏花开生物医药统计】...
- SPDY, WebSocket, WebDAV概念
- Mex HDU - 4747(递推, 思维)
- 华为大数据客户端安装步骤
- Ajax破解的常见思路
- 标点符号的英文读写搜集(二)中英文标点符号的读法用法大全
- 【Elasticsearch】15 ES文档的基本操作 aggregations 【执行聚合操作】
- CentOS 7.0全自动安装光盘制作详解
- 一次内存泄露排查小结