浅谈强化学习二之马尔卡夫决策过程与动态规划

书接上文，目前普遍认为强化学习的算法分为基于值函数和基于策略搜索以及其他强化学习算法。

先说强化学习的基础，提及强化学习，就要先认知马尔可夫。确认过眼神，大家都是被公式折磨的人，这里就不讲公式了，只是说一下自己的理解，作为大纲方便大家去理解学习，更具体的需要看书去系统学习。

1）马尔可夫性是指系统的下一个状态 $S_{t+1}$ 仅与当前状态 $S_{t}$ 有关，与之前状态无关。

2）马尔可夫过程：假设S是有限的状态集合，P是状态转移矩阵。马尔可夫过程就是指各状态之间相互转换的概率。

3）马尔可夫决策过程：就是指状态转移过程中的决策，这里不单单有转移概率，而且有回报函数R，和折扣引子 $\gamma$ 。

强化学习的目标是找到一个决策序列使得累计回报最大，也就是广义的序贯决策问题，马尔可夫决策是序贯问题的重要解决途径，可分为基于模型的动态规划方法和无模型的强化学习方法。这两者都包含策略迭代算法，值迭代算法和策略搜索算法。

动态规划问题的核心是找到一个最优值函数，一个连续的系列动作称之为策略 $\pi$ ，值函数就是对策略的评价，所有状态-行为值函数的总和即是最终的评价。

1）策略迭代包括策略评估和策略改善：

策略评估算法的输入是需要评估的策略的一些参数：状态转移矩阵，回报函数，折扣因子。最终输出为值函数，在不断迭代过程中，当前状态的值函数可以通过之前状态的值函数得到，而迭代结束的标志为2次迭代结果相同，即值函数不再发生改变。

策略改善的目的就是改变策略，使得模型可以学习到更多的策略。

将上述2个算法合并就是策略迭代算法，其输入为状态转移矩阵，回报函数，折扣因子，初始化值函数，初始化策略。输出为最优策略。在不断迭代过程中，不断去改善策略，并对其进行评价，当无法继续进行策略改善时，停止迭代。

2）值函数迭代：其输入为状态转移矩阵，回报函数，折扣因子，初始化值函数，初始化策略。输出为最优策略。在不断迭代过程中促使值函数达到最大，迭代停止的依据也是2次迭代结果相同，即值函数不再发生改变。

以上2中算法都可能陷入局部最优，毕竟都有贪婪寻优的过程。

3）策略搜索：简单地说就是更改策略，评价策略，使得所得回报最大。这种就近似于暴力搜索了，然而当迭代次数足够大时，往往都能接近全局最优，一般不会陷入局部最优。吹一波XJBS算法，具体是什么，这是一个梗，自行百度。

以上就是我理解的动态规划方法去解决序贯问题的一些看法，虽然我也不喜欢抠公式，但数学是所有理工科的立足之本，需要彻底理解，还是要去钻公式吧。

浅谈强化学习二之马尔卡夫决策过程与动态规划相关推荐

强化学习课程笔记（二）——马尔科夫决策过程和动态规划寻找最优策略
参考材料 1.强化学习入门课程(英文)https://www.bilibili.com/video/av37295048 2.课程对应知乎讲解https://zhuanlan.zhihu.com/re ...
【强化学习入门】马尔科夫决策过程
本文介绍了马尔可夫决策过程,首先给出了马尔可夫决策过程的定义形式 ,其核心是在时序上的各种状态下如何选择最优决策得到最大回报的决策序列,通过贝尔曼方程得到累积回报函数:然后介绍两种基本的求解最优决策的 ...
强化学习：2 马尔科夫决策过程
总结无数的学者通过几十年的努力,提出了一套可以解决大部分强化学习问题的框架,这个框架就是马尔科夫决策过程. 马尔科夫性 ----> 马尔科夫过程 -> 马尔科夫决策过程马尔科夫性描述的 ...
强化学习（二）马尔科夫决策过程(MDP)
在强化学习(一)模型基础中,我们讲到了强化学习模型的8个基本要素.但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策 ...
[强化学习一]隐马尔可夫基本概念
文章目录隐马尔可夫模型 1.隐马尔可夫模型的基本概念 1.1 隐马尔可夫模型的三个基本问题 2.概率计算方法 2.1 直接计算法 2.2 前向算法 2.3 后向算法(略) 隐马尔可夫模型隐马尔可夫 ...
【强化学习】MOVE37-Introduction（导论）/马尔科夫链/马尔科夫决策过程
写在前面的话:从今日起,我会边跟着硅谷大牛Siraj的MOVE 37系列课程学习Reinforcement Learning(强化学习算法),边更新这个系列.课程包含视频和文字,课堂笔记会按视频为单位 ...
强化学习（一）---马尔科夫决策过程
目录先大致了解工智能,机器学习,深度学习之间的联系与区别主学习网址莫烦python网址 [David Silver强化学习公开课中文讲解及实践](https://zhuanlan.zhihu.c ...
干货｜浅谈强化学习的方法及学习路线
作者:Angel_Kitty 来源:http://www.cnblogs.com/ECJTUACM-873284962/ 一.介绍目前,对于全球科学家而言,"如何去学习一种新技能" ...
浅谈强化学习的方法及学习路线
介绍目前,对于全球科学家而言,"如何去学习一种新技能"成为了一个最基本的研究问题.为什么要解决这个问题的初衷是显而易见的,如果我们理解了这个问题,那么我们可以使人类做一些我们以前 ...

浅谈强化学习二之马尔卡夫决策过程与动态规划

浅谈强化学习二之马尔卡夫决策过程与动态规划相关推荐

最新文章

热门文章