目录

一.动态规划

1.1核心思想

1.2异步动态规划

二.策略评估与改进

2.1有模型学习与无模型学习

2.2策略评估

2.2.1输入

2.2.2输出

2.2.3迭代过程

2.3策略改进

2.3.1输入

2.3.2输出

2.3.3迭代过程

2.4策略迭代


一.动态规划

1.1核心思想

        动态规划,英文名Dynamic Programming,简称DP。其核心思想为:

1.分解原问题为若干子问题,通过求解子问题,得到原问题的解。

2.分解得到的多个子问题省去重复问题的计算过程。

1.2异步动态规划

        异步动态规划英文被称为Asynchronous Dynamic Programming,能够高效完成强化学习任务,只更新一部分状态值


二.策略评估与改进

2.1有模型学习与无模型学习

        有模型学习也被称为Model-Based学习,在这里,“模型”是指在一个环境中各种状态之间的转换概率分布无模型学习被称为Model-Free,常见的是结合神经网络的深度强化学习。

2.2策略评估

2.2.1输入

在有模型学习中,策略评估的输入为动力系统e与策略π

2.2.2输出

在有模型学习中,策略评估的输出为状态价值函数v的估计值。

2.2.3迭代过程

当t取0,1,2,3...时,对于集合S中的s,一步一步更新下式:

其中,的值为

直到满足或者t达到最大迭代次数。

2.3策略改进

2.3.1输入

在有模型学习中,策略改进的输入为动力系统e与策略π以及其状态价值函数

2.3.2输出

在有模型学习中,策略改进的输出为改进的策略π'以及策略π是否等于π'。

2.3.3迭代过程

策略改进的原理是对于给定的策略,结合该策略的价值函数可以改进得到一个改进的策略。

主要内容如下:对于两个策略π和π',如果满足如下不等式:

则π≤π’

具体过程为:

对于S集合中的每个状态s,执行如下过程:

为每个集合A中的a,计算动作价值函数并找到使最大的动作a,即

直到π=π’,说明策略最优。

2.4策略迭代

策略迭代应用了策略评估与策略改进,不断迭代进而求解最优策略

强化学习 动态规划 策略评估 策略改进 策略迭代 有模型 无模型相关推荐

  1. 《强化学习周刊》第25期:DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...

    No.25 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  2. 蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛策略评估

    蒙特卡洛方法求解强化学习任务--基于离轨策略的蒙特卡洛策略评估 目录 基于离轨策略的蒙特卡洛策略评估 基于普通重要性采样的离轨策略方法 基于普通重要性采样的离轨策略方法总结 基于加权重要性采样的离轨策 ...

  3. 强化学习:7基于直接策略搜索的强化学习⽅法 之 策略梯度

    这是强化学习第三篇基于直接策略搜索的强化学习⽅法下的基于策略梯度.

  4. python实现迭代计算_带你读《强化学习:原理与Python实现》之三:有模型数值迭代-阿里云开发者社区...

    第3章 有模型数值迭代 在实际问题中,直接求解Bellman期望方程和Bellman最优方程往往有困难.其中的一大困难在于直接求解Bellman方程需要极多的计算资源.本章在假设动力系统完全已知的情况 ...

  5. 强化学习-动态规划_强化学习-第4部分

    强化学习-动态规划 有关深层学习的FAU讲义 (FAU LECTURE NOTES ON DEEP LEARNING) These are the lecture notes for FAU's Yo ...

  6. 强化学习-动态规划_强化学习-第5部分

    强化学习-动态规划 有关深层学习的FAU讲义 (FAU LECTURE NOTES ON DEEP LEARNING) These are the lecture notes for FAU's Yo ...

  7. 初探强化学习(6)到底TMD什么是model-based和model-free(基于模型的强化学习和基于模型的强化学习 TMD的到底是什么)

    0 如何定义无模型和有模型 Model-based和Model-free方法对比 Model-based: 一旦model学好后,就是采用On-Policy的算法: 一旦model学好后,就不需要与真 ...

  8. 强化学习 / 动态规划:策略改进(Policy Improvement)使策略更优的数学证明

    前言: Sutton第二版<强化学习>中,第4章第2节"策略改进"介绍了基于贪心算法的策略改进.为什么以(只考虑一个后续状态来选择当前动作的)贪心算法进行更新的策略一定 ...

  9. 强化学习(三):策略评估与优化

    本文章收录在黑鲸智能系统知识库-黑鲸智能系统知识库成立于2021年,致力于建立一个完整的智能系统知识库体系.我们的工作:收集和整理世界范围内的学习资源,系统地建立一个内容全面.结构合理的知识库. 作者 ...

最新文章

  1. 记录PCLVisualizer问题
  2. “程序员数学不行,干啥都不行!”高级开发:90%都是瞎努力!
  3. win下打包成tar.gz
  4. php角色权限安全,php – 安全的chmod权限?
  5. idea vue项目通过@跳转 vue设置完@映射路径之后在IDEA中无法跳转
  6. jinfo命令 Java Configuration Info
  7. TCP/IP详解学习笔记(1)
  8. 对于最小割的进一步理解
  9. Java 并发编程 --- ThreadPoolExecutor(五)
  10. mysql 获取select结果_php如何操作mysql获取select 结果
  11. 竞价广告系统-广告网络
  12. 炼丹手册——梯度弥散和爆炸
  13. Fiddler内置命令
  14. 类模版的static成员
  15. 网络基础知识(黑马教程笔记)-4-http请求与响应的处理
  16. IP地址的分类,五分类编制CIDR以及子网的划分和子网掩码
  17. java 进度条时间设置_java进度条时间显示怎么实现?
  18. c语言 节日,农历阳历之间转换和节气节日查询C语言编程
  19. matlab 最优资产组合,基于MATLAB的最优投资组合问题.pdf
  20. 2017-4-18 CCCC决赛总结

热门文章

  1. STM32 HAL库 看门狗
  2. 便携式双路CAN总线分析仪 CAN卡 USB卡 LCUSB-132B的功能介绍
  3. java的易错点_java中易错点
  4. 全息中的Eyebox和FOV
  5. upload-labs通关学习笔记
  6. 基于文本语义的智能问答系统以及数据格式应用
  7. Google Earth Engine(GEE)——基于Landsat的1985-2020年美国西部地区土地分类数据集
  8. k-vim安装及The ycmd server SHUT DOWN (restart with ‘:YcmRestartServer‘)这种错误的解决方法
  9. 青海向南部高寒牧区派出多支“支医团队”
  10. java api 帮助文档 chm 1.5 1.6 中文版英文版.