参考图书：
Deep Reinforcement Learning
Fundamentals, Research and Applications

https://link.springer.com/book/10.1007/978-981-15-4095-0 countryChanged=true&utm_medium=affiliate&utm_source=commission_junction_authors&utm_campaign=CONR_BOOKS_ECOM_GL_PHSS_ALWYS_DEEPLINK&utm_content=deeplink&utm_term=PID100163099&CJEVENT=07cf86ee9a9611ec82b5e5460a180513

(Deep Learning) Yoshua Bengio & Ian GoodFellow

1.前言

On-policy methods attempt to evaluate or improve the policy that is used to make decisions, whereas off-policy methods evaluate or improve a policy different from that used to generate the data.

如果理解不了，可以简单记忆。

在线策略（On-Policy）方法和离线策略（Off-Policy）方法依据策略学习的方式对强化学习算法进行划分。在线策略方法试图评估并提升和环境交互生成数据的策略，而离线策略方法评估和提升的策略与生成数据的策略是不同的。这表明在线策略方法要求智能体与环境交互的策略和要提升的策略必须是相同的。而离线策略方法不需要遵循这个约束，它可以利用其他智能体与环境交互得到的数据来提升自己的策略。常见的在线策略方法是 Sarsa，它根据当前策略选择一个动作并执行，然后使用环境反馈的数据更新当前策略。因此， Sarsa 与环境交互的策略和更新的策略是同一个策略。

先附上三个on-policy和off-policy算法表

想必这个问题应该困扰了很多深度学习新手和老司机。

有一种简单介绍方式

On-policy: The agent learned and the agent interacting with the environment is the same. 行为策略和目标策略一样

Off-policy: The agent learned and the agent interacting with the environment is different.行为策略和目标策略不一样

具体怎么理解呢，将在正文中展开

2.正文

话不多说，继续送上三种DRL中三种经典算法。

强化学习中on policy和off policy的区别-深度理解相关推荐

深度强化学习中的好奇心
本文为 AI 研习社编译的技术博客,原标题 : Curiosity in Deep Reinforcement Learning 作者 | Michael Klear 翻译 | 凝决2018 校对 | ...
强化学习中的脉冲神经网络
简介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...
最新综述 | 强化学习中从仿真器到现实环境的迁移
©PaperWeekly 原创 · 作者|李文浩学校|华东师范大学博士生研究方向|强化学习最近 survey 了一下 sim2real 领域最近的相关工作,先整理个第一版(共有七篇论文)的总结. ...
《强化学习与最优控制》学习笔记（三）：强化学习中值空间近似和策略空间近似概述
写在前面的前一章链接: <强化学习与最优控制>学习笔记(二):强化学习与最优控制的一些术语对比这章主要是对应书中第二章前面的值空间近似和策略空间近似的简要介绍部分. 在本书的第一章就指 ...
强化学习中的基础概念和术语——spinning up文档翻译
Key Concepts and Terminology 以下内容翻译自open ai 的spinning up文档,同时加入了一些自己的理解.原始内容来自spinningup 文章目录 Key Co ...
初探强化学习(10)强化学习中的一些术语（non-stationray，sample efficiency，planning和Learnin，Reward，off-policy和on-policy ）
1. 关于stationray 参考博客. Stationary or not 根据环境是否稳定.可以将强化学习问题分为stationary.non-stationary. 1.1 stationar ...
《强化学习周刊》第26期：UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
（深入理解）强化学习中Model-based和Model-free的区别是什么
文章目录 RL的形式化 RL求解算法 model-based:知己知彼,百战百胜 Model-free:两耳不闻窗外事,一心只读圣贤书总结 RL的形式化首先我们定义强化学习中的马尔可夫决策过程MD ...
labview叠加白噪声_强化学习中Ornstein-Uhlenbeck噪声是鸡肋吗？
欢迎转载,转载请注明出处--知乎专栏"机器学习与控制论". 读过DDPG论文[1]的同学几乎都会有一个问题,论文中使用Ornstein-Uhlenbeck噪声用于探索,比较难理解, ...
八千字长文深度解读，迁移学习在强化学习中的应用及最新进展
点击我爱计算机视觉标星,更快获取CVML新技术本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 机器之心原创作者:Luo Sainan 编辑:H4O 迁移学习通 ...

强化学习中on policy和off policy的区别-深度理解

目录

1.前言

2.正文

强化学习中on policy和off policy的区别-深度理解相关推荐

最新文章

热门文章