mdp框架_强化学习:MDP(Markov Decision Process)
0.强化学习(reinforcement learning),特点是引入奖励机制。【强化学习属于机器学习框架中的什么部分?】
1.引出MDP的思路
=>Random variable
=>Stchastic Process
=>Markov chain/Process
=>Markov Reward Process
=>Markov Decision Process
2.随机变量(Random variable)
强化学习是引入了概率的一种算法,随机变量是研究对象,比如随机变量S1。
【随机变量常用大写字母表示,随机变量的具体取值常用小写字母表示,P(S=s)表示变量S取s值的概率】
关于随机变量有几个问题需要回答:
这个随机变量是服从于哪种概率分布?
这个概率分布对应的概率密度函数什么?
这个随机变量是离散分布还是连续分布?
是一维随机变量还是多维随机变量?
不同的随机变量之间是什么关系?
以下针对这几个问题尝试进行回答。
概率分布(prob dist)是指用于表述随机变量取值的概率规律。随机变量的概率分布指的是随机变量的可能取值及取得对应值的概率。
概率分布有几种类型,最常见的是高斯分布(即正态分布)【此外还有0-1分布等等】。若随机变量X服从于期望为u,协方差为Σ的高斯分布,则写作X~N(u,Σ)
每种分布对应的有一个概率密度函数(probability density function:PDF),高斯分布的概率密度函数如下:
其中,u是期望,σ2是协方差。【均值和方差是X为一维变量时期望和协方差的描述方式】。
随机变量离散分布含义是X的取值是离散的。随机变量连续分布含义是X的取值是连续的。
X={x1,x2,x3,...}是一组由一维随机变量组成的集合;
Y={y1,y2,y3,...}是一组由高维随机变量组成的集合;
期望和方差/协方差都是表示一组变量的数字特征。
X和Y期望和方差/协方差公式如下:
不同的随机变量之间的关系,可以根据不同模型的假设进行分析。比如Naive Bayes中,假设在Y被观测的前提下,x1,x2...xN之间两两条件独立。比如在HMM中就有观测独立假设和一阶齐次Markov假设。观测独立假设中X(t+1)只和Z(t+1)有关(也就是在Z(t+1)被观测的情况下,X(t+1)与其他随机变量条件独立)。一阶齐次Markov假设中Z(t+1)只和Z(t)有关(也就是说在Z(t)被观测的情况下,Z(t+1)与其他随机变量条件独立)。HMM中的Markov假设是”一阶“齐次Markov假设,如果是”二阶“Markov假设的话,Z(t+1)只和Z(t),Z(t-1)有关(也就是说在Z(t),Z(t-1)被观测的情况下,Z(t+1)与其他随机变量条件独立)。
3.随机过程(Stchastic Process)
变量之间关系复杂,没有明显的可循规律。
4.马尔可夫链/马尔可夫过程(Markov chain/Process)
马尔可夫过程(Markov chain)是一个具有Markov性质的特殊的随机过程(stochastic process)。
一阶马尔可夫假设:已知st的情况下,st+1与s1,s2...st-1均无关。(即st+1只与st有关)。
5.马尔科夫奖励过程(Markov Reward Process)
其中 St是t时刻的状态变量,Rt+1是对应t时刻的Reward。
6.马尔可夫决策过程(Markov Decision Process)
其中 St是t时刻的状态变量,At是Action,Rt+1是对应t时刻的Reward。
问题:如何与隐马尔可夫结合?
隐马尔可夫是为了对概率进行分布求解,从而引入隐变量的概念,将s1作为隐变量,x1作为观测变量。
参考资料:
1.https://www.bilibili.com/video/BV1RA411q7wt?from=search&seid=4107546504069376636,作者:shuhuai008
mdp框架_强化学习:MDP(Markov Decision Process)相关推荐
- mdp框架_强化学习-MDP(马尔可夫决策过程)算法原理
1. 前言 前面的强化学习基础知识介绍了强化学习中的一些基本元素和整体概念.今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程). 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框 ...
- mdp框架_强化学习中q learning和MDP的区别是什么?
MDP通常是指一种用转移概率描述连续不确定概率过程的数学框架,是强化学习中最基础的概念,很多强化学习的算法都是在把问题抽象为一个MDP之后再想办法求解的. 而q-learning是求解强化学习问题的算 ...
- 【深度强化学习】马尔可夫决策过程(Markov Decision Process, MDP)
1. Markov Process 我们一步一步来讲解 Markov Decision Process.按顺序,从 Markov Process 到 Markov Reward Process,再到 ...
- mdp框架_用于在线机器学习MDP的Python库
我试图在 Python中设计一个具有以下特征的迭代 markov decision process (MDP)代理: >可观察的状态 >我通过保留一些状态空间来处理潜在的'未知'状态 用于 ...
- 【机器学习】强化学习:马尔科夫决策过程(Markov decision process)
本章是强化学习的基础,主要讲的就是马尔科夫决策过程,以后的内容都是以这一节为基础的,所以对本节的相关概念的理解是很重要的. 这一节的概念比较多,也是后面章节的基础,一开始笔者也是一头雾水,只有多看几遍 ...
- 重拾强化学习的核心概念_强化学习的核心概念
重拾强化学习的核心概念 By Hannah Peterson and George Williams (gwilliams@gsitechnology.com) 汉娜·彼得森 ( Hannah Pet ...
- 强化学习之基础入门_强化学习基础
强化学习之基础入门 Reinforcement learning is probably one of the most relatable scientific approaches that re ...
- 马尔可夫决策过程(Markov Decision Process)学习笔记
Markov Decision Process学习笔记 马尔可夫决策过程(Markov Decision Process)学习笔记 1. 基本的概率定义 2. 如何理解状态SSS和动作AAA 3. 策 ...
- 马尔可夫决策过程(Markov Decision Process, MDP)
马尔可夫决策过程(Markov Decision Processes,MDPs) MDPs 简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Rewa ...
最新文章
- ABP框架展示异常信息
- java中char是几个字节_Java中char占用几个字节
- 国际化困境(第一篇)
- sor迭代法matlab实例,Jacobi G-S SOR迭代法在matlab中例子.pdf
- 【数据清洗】yolo标注补全 生成空的标注txt文件
- SpringCloud(Gateway网关跨域)
- c++ 与 java_Java与C++比较
- PHP移动互联网开发笔记(3)——运算符
- 存储优化 - 删除重复记录只保留单条
- 【深入理解JVM】运行时数据区域:java虚拟机栈
- 《.Net 软件设计新思维》作者讲述成书的背后故事
- twitter 授权过程
- MATLAB到底有多厉害?
- 常威来了(变量和常量)简单易懂
- 银行卡资费转帐汇款取款_收费标准参考_中行_建行_工行_农行_招行_兴业等
- 企业二维码故障报修的过程演示
- mysql时间戳里取小时
- Java 实现OCR 识别图像文字(手写中文)----tess4j
- 第三个页面:构建新闻详情页面
- 我与python约个会:31.企业级开发进阶3.1:发送电子邮件
热门文章
- 如何基于Restful ABAP Programming模型开发并部署一个支持增删改查的Fiori应用
- My lead media_src relative handling for Attachment download in GWaaS environment
- the code place where the binding is converted to final value displayed in ui
- 利用ABAP调试器脚本修改数据库表的值
- 走进rxjs的世界 - 万物皆流 - Everything is a stream
- 我去德国出差后学习的一些德语
- 为什么SAP UI5框架在应用整个生命周期只调用onBeforeRendering一次
- 中leetcode提示未登录_分享一款将 LeetCode 中 AC 的题目转化为 MarkDown 表格的插件...
- shell中用grep查找并且不输出_shell中grep命令详解
- python汉诺塔问题_Python汉诺塔问题