前言


这两个东西区别我个人感觉还挺玄学的。看到有很多说法,但是却感觉说的不是一个东西。

就比如有人总是喜欢把off policy分为行为策略和目标策略,说什么行为策略用来探索,目标策略用来学习。但是这个明显是DQN的特征(没学过DQN的有点吃亏哈)

所以,甚至官方描述也是用这样的:

On-policy: The agent learned and the agent interacting with the environment is the same. 行为策略和目标策略一样

Off-policy: The agent learned and the agent interacting with the environment is different.行为策略和目标策略不一样


正文


但是个人却感觉并不是这样的, 把DQN划分为这两个策略确实有些道理(行为策略产生数据,放到回放记忆区,目标策略随机在里面抽取批数据来学习,学了一会之后,反过来又影响了行为策略,然后又产生数据,。。。。可以发现,不一定是走一步,学一步,而是走一批,学一批,后者显然是离线学习嘛)

但是DQN的基础Q-learning根本就是走一步学一步啊,压根没有也没有必要分什么行为策略,目标策略吧。同样,SARSA算法也是走一步学一步。他们的区别是学习的方式不同。


总结


也就是说按照上面那种说法,只能区分SARSA算法(on policy)和DQN(off policy)。无法区分SARSA算法(on policy)和Q-learning算法(off policy)。


正文


对于on policy和off policy的区别,我看到了下面这个说法。我觉得这个说法可以区别SARSA算法(on policy)和Q-learning算法(off policy)以及SARSA算法(on policy)和DQN(off policy)。

如下:

这个我觉得解释得会有道理一些。所以根本区别就还是学习方式的不一样,按照这个理解超好理解。反而划分什么行为策略,目标策略有点蛋疼。照你这么划分,我还可以创建一个深度sarsa算法呢,同样可以做到探索一批数据再来学习(无非每一个训练数据比DQN多知道一个量:下一个状态采取的动作a′a'a′罢了)。

PS:本文建议反复阅读,或许会有更深的理解。

(深入理解)强化学习中on policy和off policy的区别相关推荐

  1. 一个简单的例子让你理解强化学习是什么,和有监督学习的区别又是什么

    一个简单的小例子: 对于一个正在学走路的小屁孩,他一不小心摔倒了,如果他一摔倒就哭,那妈妈就会打他小屁屁,如果他摔倒了会自己爬起来,那妈妈很高兴,就奖励他喝一口奶.这样小屁孩就学会了摔倒了要自己爬起来 ...

  2. 强化学习中的episode如何理解和翻译?

    1. episode的感性理解 强化学习中,episode是个重要的术语.那么episode应该如何理解呢? An episode is one complete play of the agent ...

  3. (深入理解)强化学习中Model-based和Model-free的区别是什么

    文章目录 RL的形式化 RL求解算法 model-based:知己知彼,百战百胜 Model-free:两耳不闻窗外事,一心只读圣贤书 总结 RL的形式化 首先我们定义强化学习中的马尔可夫决策过程MD ...

  4. 【机器学习】带你轻松理解什么是强化学习中的状态动作函数 ?

    系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一.状态动作函数的定义 二.直观理解 三.将状态动作函数与回报和策略联系起来 总结 前言 强化学习中的状态动作函 ...

  5. 最新综述 | 强化学习中从仿真器到现实环境的迁移

    ©PaperWeekly 原创 · 作者|李文浩 学校|华东师范大学博士生 研究方向|强化学习 最近 survey 了一下 sim2real 领域最近的相关工作,先整理个第一版(共有七篇论文)的总结. ...

  6. 强化学习中的基础概念和术语——spinning up文档翻译

    Key Concepts and Terminology 以下内容翻译自open ai 的spinning up文档,同时加入了一些自己的理解.原始内容来自spinningup 文章目录 Key Co ...

  7. 初探强化学习(10)强化学习中的一些术语(non-stationray,sample efficiency,planning和Learnin,Reward,off-policy和on-policy )

    1. 关于stationray 参考博客. Stationary or not 根据环境是否稳定.可以将强化学习问题分为stationary.non-stationary. 1.1 stationar ...

  8. 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...

    No.26 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  9. 强化学习中的脉冲神经网络

    简 介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...

  10. labview叠加白噪声_强化学习中Ornstein-Uhlenbeck噪声是鸡肋吗?

    欢迎转载,转载请注明出处--知乎专栏"机器学习与控制论". 读过DDPG论文[1]的同学几乎都会有一个问题,论文中使用Ornstein-Uhlenbeck噪声用于探索,比较难理解, ...

最新文章

  1. Powershell管理系列(二十五)PowerShell操作之获取AD账号及邮箱信息
  2. 原本挂起的线程继续执行
  3. c++堆栈溢出怎么解决_栈溢出基础
  4. Python 在线免费批量美颜,妈妈再也不用担心我 P 图两小时啦
  5. Redis集群方案应该怎么做?都有哪些方案?
  6. Kubernetes学习总结(1)——Kubernetes入门简介
  7. 手把手打造开源新监控利器check_mk
  8. [转载] python 短网址_使用Python生成url短链接的方法
  9. code forces 1176 D. Recover it!
  10. GPS定位基本原理解析
  11. LeetCode第 252 场周赛 之5187. 收集足够苹果的最小花园周长
  12. 抓住七月的尾巴,出门放松一下
  13. GIS应用技巧之景观格局分析(四)
  14. 学会阅读源码后,我觉得自己better了
  15. 升级iOS 15后iPhone无法连接App Store怎么办?
  16. 麦克风声源定位原理_一种利用麦克风阵列进行声源定位的方法与流程
  17. 软件开发职业是青春饭
  18. Jenkins之构建触发器(Build Triggers)
  19. Docker 容器操作 1
  20. 商战计划商业逻辑和商业模式

热门文章

  1. 豆瓣评分8.6,这本书启发无数开发者
  2. 他是20世纪最伟大的发明家之一,却因竞争对手迫害,郁郁而终
  3. 基于 TensorFlow 在手机端实现文档检测
  4. TensorFLow能够识别的图像文件,可以通过numpy
  5. TensorFlow练习20: 使用深度学习破解字符验证码
  6. 新书介绍 | 图算法指南,A Guide to Graph Algorithms
  7. 直播预告 | 对话杨立昆:人,机器与未来
  8. 独家 | 使用TensorFlow 2创建自定义损失函数
  9. 实力坑队友! CTO 写出低级 Bug,致公司 70 GB 数据遭泄露!
  10. 傅里叶变换才是本质?谷歌这项研究GPU上快7倍、TPU上快2倍