书接上文,目前普遍认为强化学习的算法分为基于值函数和基于策略搜索以及其他强化学习算法。

先说强化学习的基础,提及强化学习,就要先认知马尔可夫。确认过眼神,大家都是被公式折磨的人,这里就不讲公式了,只是说一下自己的理解,作为大纲方便大家去理解学习,更具体的需要看书去系统学习。

1)马尔可夫性是指系统的下一个状态仅与当前状态有关,与之前状态无关。

2)马尔可夫过程:假设S是有限的状态集合,P是状态转移矩阵。马尔可夫过程就是指各状态之间相互转换的概率。

3)马尔可夫决策过程:就是指状态转移过程中的决策,这里不单单有转移概率,而且有回报函数R,和折扣引子

强化学习的目标是找到一个决策序列使得累计回报最大,也就是广义的序贯决策问题,马尔可夫决策是序贯问题的重要解决途径,可分为基于模型的动态规划方法和无模型的强化学习方法。这两者都包含策略迭代算法,值迭代算法和策略搜索算法。

动态规划问题的核心是找到一个最优值函数,一个连续的系列动作称之为策略,值函数就是对策略的评价,所有状态-行为值函数的总和即是最终的评价。

1)策略迭代包括策略评估和策略改善:

策略评估算法的输入是需要评估的策略的一些参数:状态转移矩阵,回报函数,折扣因子。最终输出为值函数,在不断迭代过程中,当前状态的值函数可以通过之前状态的值函数得到,而迭代结束的标志为2次迭代结果相同,即值函数不再发生改变。

策略改善的目的就是改变策略,使得模型可以学习到更多的策略。

将上述2个算法合并就是策略迭代算法,其输入为状态转移矩阵,回报函数,折扣因子,初始化值函数,初始化策略。输出为最优策略。在不断迭代过程中,不断去改善策略,并对其进行评价,当无法继续进行策略改善时,停止迭代。

2)值函数迭代:其输入为状态转移矩阵,回报函数,折扣因子,初始化值函数,初始化策略。输出为最优策略。在不断迭代过程中促使值函数达到最大,迭代停止的依据也是2次迭代结果相同,即值函数不再发生改变。

以上2中算法都可能陷入局部最优,毕竟都有贪婪寻优的过程。

3)策略搜索:简单地说就是更改策略,评价策略,使得所得回报最大。这种就近似于暴力搜索了,然而当迭代次数足够大时,往往都能接近全局最优,一般不会陷入局部最优。吹一波XJBS算法,具体是什么,这是一个梗,自行百度。

以上就是我理解的动态规划方法去解决序贯问题的一些看法,虽然我也不喜欢抠公式,但数学是所有理工科的立足之本,需要彻底理解,还是要去钻公式吧。

浅谈强化学习二之马尔卡夫决策过程与动态规划相关推荐

  1. 强化学习课程笔记(二)——马尔科夫决策过程和动态规划寻找最优策略

    参考材料 1.强化学习入门课程(英文)https://www.bilibili.com/video/av37295048 2.课程对应知乎讲解https://zhuanlan.zhihu.com/re ...

  2. 【强化学习入门】马尔科夫决策过程

    本文介绍了马尔可夫决策过程,首先给出了马尔可夫决策过程的定义形式 ,其核心是在时序上的各种状态下如何选择最优决策得到最大回报的决策序列,通过贝尔曼方程得到累积回报函数:然后介绍两种基本的求解最优决策的 ...

  3. 强化学习:2 马尔科夫决策过程

    总结 无数的学者通过几十年的努力,提出了一套可以解决大部分强化学习问题的框架,这个框架就是马尔科夫决策过程. 马尔科夫性 ----> 马尔科夫过程 -> 马尔科夫决策过程 马尔科夫性描述的 ...

  4. 强化学习(二)马尔科夫决策过程(MDP)

    在强化学习(一)模型基础中,我们讲到了强化学习模型的8个基本要素.但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策 ...

  5. [强化学习一]隐马尔可夫基本概念

    文章目录 隐马尔可夫模型 1.隐马尔可夫模型的基本概念 1.1 隐马尔可夫模型的三个基本问题 2.概率计算方法 2.1 直接计算法 2.2 前向算法 2.3 后向算法(略) 隐马尔可夫模型 隐马尔可夫 ...

  6. 【强化学习】MOVE37-Introduction(导论)/马尔科夫链/马尔科夫决策过程

    写在前面的话:从今日起,我会边跟着硅谷大牛Siraj的MOVE 37系列课程学习Reinforcement Learning(强化学习算法),边更新这个系列.课程包含视频和文字,课堂笔记会按视频为单位 ...

  7. 强化学习(一)---马尔科夫决策过程

    目录 先大致了解工智能,机器学习,深度学习之间的联系与区别 主学习网址 莫烦python网址 [David Silver强化学习公开课中文讲解及实践](https://zhuanlan.zhihu.c ...

  8. 干货|浅谈强化学习的方法及学习路线

    作者:Angel_Kitty 来源:http://www.cnblogs.com/ECJTUACM-873284962/ 一.介绍 目前,对于全球科学家而言,"如何去学习一种新技能" ...

  9. 浅谈强化学习的方法及学习路线

    介绍 目前,对于全球科学家而言,"如何去学习一种新技能"成为了一个最基本的研究问题.为什么要解决这个问题的初衷是显而易见的,如果我们理解了这个问题,那么我们可以使人类做一些我们以前 ...

最新文章

  1. mysql 控制函数库_数据库开发——MySQL——函数与流程控制
  2. 如何matlab导入邻接矩阵,“excel如何做矩阵“matlab中读取excle中的邻接矩阵
  3. ​基于BCI的现代神经反馈有助于认知增强
  4. UA MATH566 统计理论10 Bootstrap简介
  5. 文巾解题 45. 跳跃游戏 II
  6. 谷歌浏览器出现方格xp系统_win10系统谷歌浏览器扩展程序打不开的解决方案
  7. 一文带你学会 UML 统一建模语言
  8. #pragma once 与 #ifndef比较分析
  9. 这个热图上面的树是根据系统发育关系画的吗?
  10. linux添加定时器防抖,linux驱动2.3按键中断-定时器防抖
  11. 计算机网络之网络层:11、移动IP
  12. 【读书笔记】C#高级编程 第九章 字符串和正则表达式
  13. android 设置系统屏幕亮度
  14. IC卡读写器c#源代码
  15. 谁是应用软件商店急需的外援
  16. MATLAB DBSCAB简介
  17. Linux 创建用户角色并添加ssh登录权限
  18. 高级计量经济学及stata应用 陈强 2021年5月1-5日 社会科学 经济学 管理学 金融 医学等各个领域
  19. 上门洗车小程序/APP功能介绍
  20. 超详细分解c 语言——实现扫雷游戏(详解)

热门文章

  1. 期货开户客户经理一对一专业服务指导
  2. 寻找全排列的下一个数
  3. Google Adsense西联汇款邮政储蓄收款流程
  4. 阿里云物联网平台python_基于阿里云物联网平台,我们这样实现简易出入监控
  5. 基于 LSTM 的分布式能源发电预测(Matlab代码实现)
  6. 你以为 CSS 只是个简单的布局?
  7. n*m的格子中正方形个数和长方形个数
  8. JAVA 九大排序算法
  9. 基于ssm的奥博羽毛球俱乐部管理系统-计算机毕业设计
  10. 考研学姐经验:英语92分学姐的考研备考经验分享