一.动态规划

1.1核心思想

1.2异步动态规划

二.策略评估与改进

2.1有模型学习与无模型学习

2.2策略评估

2.2.1输入

2.2.2输出

2.2.3迭代过程

2.3策略改进

2.3.1输入

2.3.2输出

2.3.3迭代过程

2.4策略迭代

一.动态规划

1.1核心思想

动态规划，英文名Dynamic Programming，简称DP。其核心思想为：

1.分解原问题为若干子问题，通过求解子问题，得到原问题的解。

2.分解得到的多个子问题省去重复问题的计算过程。

1.2异步动态规划

异步动态规划英文被称为Asynchronous Dynamic Programming，能够高效完成强化学习任务，只更新一部分状态值。

二.策略评估与改进

2.1有模型学习与无模型学习

有模型学习也被称为Model-Based学习，在这里，“模型”是指在一个环境中各种状态之间的转换概率分布。无模型学习被称为Model-Free，常见的是结合神经网络的深度强化学习。

2.2策略评估

2.2.1输入

在有模型学习中，策略评估的输入为动力系统e与策略π。

2.2.2输出

在有模型学习中，策略评估的输出为状态价值函数v的估计值。

2.2.3迭代过程

当t取0，1，2，3...时,对于集合S中的s，一步一步更新下式：

$v_{t+1}\left ( s \right )=\sum_{a}^{}\Pi\left ( a|s \right )q_{t}\left ( s,a \right )$

其中， $q_{t}\left ( s,a \right )$ 的值为 $r(s,a)+\gamma \sum_{s'}^{}e(s'|s,a)v_{t}(s')$

直到满足 $|v_{t+1}\left ( s \right )-v_{t}\left ( s \right )|<\vartheta _{max}$ 或者t达到最大迭代次数。

2.3策略改进

2.3.1输入

在有模型学习中，策略改进的输入为动力系统e与策略π以及其状态价值函数 $v_{\pi }$ 。

2.3.2输出

在有模型学习中，策略改进的输出为改进的策略π'以及策略π是否等于π'。

2.3.3迭代过程

策略改进的原理是对于给定的策略，结合该策略的价值函数可以改进得到一个改进的策略。

主要内容如下：对于两个策略π和π'，如果满足如下不等式：

$v_{\pi }(s)\leqslant v_{\pi '}(s)$

则π≤π’

具体过程为：

对于S集合中的每个状态s，执行如下过程：

为每个集合A中的a，计算动作价值函数 $q_{\pi }(s,a)=r(s,a)+\gamma \sum_{s'}^{}e(s'|s,a)v_{\pi }(s')$ 并找到使 $q_{\pi }(s,a)$ 最大的动作a，即 $\pi '(s)=argmax_{a}q(s,a)$ 。

直到π=π’，说明策略最优。

2.4策略迭代

策略迭代应用了策略评估与策略改进，不断迭代进而求解最优策略：

强化学习动态规划策略评估策略改进策略迭代有模型无模型相关推荐

《强化学习周刊》第25期：DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...
No.25 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
蒙特卡洛方法求解强化学习任务——基于离轨策略的蒙特卡洛策略评估
蒙特卡洛方法求解强化学习任务--基于离轨策略的蒙特卡洛策略评估目录基于离轨策略的蒙特卡洛策略评估基于普通重要性采样的离轨策略方法基于普通重要性采样的离轨策略方法总结基于加权重要性采样的离轨策 ...
强化学习：7基于直接策略搜索的强化学习⽅法之策略梯度
这是强化学习第三篇基于直接策略搜索的强化学习⽅法下的基于策略梯度.
python实现迭代计算_带你读《强化学习：原理与Python实现》之三：有模型数值迭代-阿里云开发者社区...
第3章有模型数值迭代在实际问题中,直接求解Bellman期望方程和Bellman最优方程往往有困难.其中的一大困难在于直接求解Bellman方程需要极多的计算资源.本章在假设动力系统完全已知的情况 ...
强化学习-动态规划_强化学习-第4部分
强化学习-动态规划有关深层学习的FAU讲义 (FAU LECTURE NOTES ON DEEP LEARNING) These are the lecture notes for FAU's Yo ...
强化学习-动态规划_强化学习-第5部分
强化学习-动态规划有关深层学习的FAU讲义 (FAU LECTURE NOTES ON DEEP LEARNING) These are the lecture notes for FAU's Yo ...
初探强化学习(6)到底TMD什么是model-based和model-free(基于模型的强化学习和基于模型的强化学习 TMD的到底是什么)
0 如何定义无模型和有模型 Model-based和Model-free方法对比 Model-based: 一旦model学好后,就是采用On-Policy的算法: 一旦model学好后,就不需要与真 ...
强化学习 / 动态规划：策略改进（Policy Improvement）使策略更优的数学证明
前言: Sutton第二版<强化学习>中,第4章第2节"策略改进"介绍了基于贪心算法的策略改进.为什么以(只考虑一个后续状态来选择当前动作的)贪心算法进行更新的策略一定 ...
强化学习（三）：策略评估与优化
本文章收录在黑鲸智能系统知识库-黑鲸智能系统知识库成立于2021年,致力于建立一个完整的智能系统知识库体系.我们的工作:收集和整理世界范围内的学习资源,系统地建立一个内容全面.结构合理的知识库. 作者 ...

强化学习动态规划策略评估策略改进策略迭代有模型无模型

一.动态规划

1.1核心思想

1.2异步动态规划

二.策略评估与改进

2.1有模型学习与无模型学习