（深入理解）强化学习中on policy和off policy的区别

前言

这两个东西区别我个人感觉还挺玄学的。看到有很多说法，但是却感觉说的不是一个东西。

就比如有人总是喜欢把off policy分为行为策略和目标策略，说什么行为策略用来探索，目标策略用来学习。但是这个明显是DQN的特征（没学过DQN的有点吃亏哈）

所以，甚至官方描述也是用这样的：

On-policy: The agent learned and the agent interacting with the environment is the same. 行为策略和目标策略一样

Off-policy: The agent learned and the agent interacting with the environment is different.行为策略和目标策略不一样

正文

但是个人却感觉并不是这样的，把DQN划分为这两个策略确实有些道理（行为策略产生数据，放到回放记忆区，目标策略随机在里面抽取批数据来学习，学了一会之后，反过来又影响了行为策略，然后又产生数据，。。。。可以发现，不一定是走一步，学一步，而是走一批，学一批，后者显然是离线学习嘛）

但是DQN的基础Q-learning根本就是走一步学一步啊，压根没有也没有必要分什么行为策略，目标策略吧。同样，SARSA算法也是走一步学一步。他们的区别是学习的方式不同。

总结

也就是说按照上面那种说法，只能区分SARSA算法（on policy）和DQN（off policy）。无法区分SARSA算法（on policy）和Q-learning算法（off policy）。

正文

对于on policy和off policy的区别，我看到了下面这个说法。我觉得这个说法可以区别SARSA算法（on policy）和Q-learning算法（off policy）以及SARSA算法（on policy）和DQN（off policy）。

如下：

这个我觉得解释得会有道理一些。所以根本区别就还是学习方式的不一样，按照这个理解超好理解。反而划分什么行为策略，目标策略有点蛋疼。照你这么划分，我还可以创建一个深度sarsa算法呢，同样可以做到探索一批数据再来学习（无非每一个训练数据比DQN多知道一个量：下一个状态采取的动作a′a'a′罢了）。

PS:本文建议反复阅读，或许会有更深的理解。

（深入理解）强化学习中on policy和off policy的区别相关推荐

一个简单的例子让你理解强化学习是什么，和有监督学习的区别又是什么
一个简单的小例子: 对于一个正在学走路的小屁孩,他一不小心摔倒了,如果他一摔倒就哭,那妈妈就会打他小屁屁,如果他摔倒了会自己爬起来,那妈妈很高兴,就奖励他喝一口奶.这样小屁孩就学会了摔倒了要自己爬起来 ...
强化学习中的episode如何理解和翻译？
1. episode的感性理解强化学习中,episode是个重要的术语.那么episode应该如何理解呢? An episode is one complete play of the agent ...
（深入理解）强化学习中Model-based和Model-free的区别是什么
文章目录 RL的形式化 RL求解算法 model-based:知己知彼,百战百胜 Model-free:两耳不闻窗外事,一心只读圣贤书总结 RL的形式化首先我们定义强化学习中的马尔可夫决策过程MD ...
【机器学习】带你轻松理解什么是强化学习中的状态动作函数？
系列文章目录第十八章 Python 机器学习入门之强化学习目录系列文章目录前言一.状态动作函数的定义二.直观理解三.将状态动作函数与回报和策略联系起来总结前言强化学习中的状态动作函 ...
最新综述 | 强化学习中从仿真器到现实环境的迁移
©PaperWeekly 原创 · 作者|李文浩学校|华东师范大学博士生研究方向|强化学习最近 survey 了一下 sim2real 领域最近的相关工作,先整理个第一版(共有七篇论文)的总结. ...
强化学习中的基础概念和术语——spinning up文档翻译
Key Concepts and Terminology 以下内容翻译自open ai 的spinning up文档,同时加入了一些自己的理解.原始内容来自spinningup 文章目录 Key Co ...
初探强化学习(10)强化学习中的一些术语（non-stationray，sample efficiency，planning和Learnin，Reward，off-policy和on-policy ）
1. 关于stationray 参考博客. Stationary or not 根据环境是否稳定.可以将强化学习问题分为stationary.non-stationary. 1.1 stationar ...
《强化学习周刊》第26期：UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
强化学习中的脉冲神经网络
简介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...
labview叠加白噪声_强化学习中Ornstein-Uhlenbeck噪声是鸡肋吗？
欢迎转载,转载请注明出处--知乎专栏"机器学习与控制论". 读过DDPG论文[1]的同学几乎都会有一个问题,论文中使用Ornstein-Uhlenbeck噪声用于探索,比较难理解, ...

（深入理解）强化学习中on policy和off policy的区别

（深入理解）强化学习中on policy和off policy的区别相关推荐

最新文章

热门文章