强化学习中on policy和off policy的区别-深度理解
参考图书:
Deep Reinforcement Learning
Fundamentals, Research and Applications
https://link.springer.com/book/10.1007/978-981-15-4095-0 countryChanged=true&utm_medium=affiliate&utm_source=commission_junction_authors&utm_campaign=CONR_BOOKS_ECOM_GL_PHSS_ALWYS_DEEPLINK&utm_content=deeplink&utm_term=PID100163099&CJEVENT=07cf86ee9a9611ec82b5e5460a180513
(Deep Learning) Yoshua Bengio & Ian GoodFellow
目录
- 1.前言
- 2.正文
1.前言
On-policy methods attempt to evaluate or improve the policy that is used to make decisions, whereas off-policy methods evaluate or improve a policy different from that used to generate the data.
如果理解不了,可以简单记忆。
在线策略(On-Policy)方法和离线策略(Off-Policy)方法依据策略学习的方式对强化学习算法进行划分。在线策略方法试图评估并提升和环境交互生成数据的策略,而离线策略方法评估和提升的策略与生成数据的策略是不同的。这表明在线策略方法要求智能体与环境交互的策略和要提升的策略必须是相同的。而离线策略方法不需要遵循这个约束,它可以利用其他智能体与环境交互得到的数据来提升自己的策略。常见的在线策略方法是 Sarsa,它根据当前策略选择一个动作并执行,然后使用环境反馈的数据更新当前策略。因此, Sarsa 与环境交互的策略和更新的策略是同一个策略。
先附上三个on-policy和off-policy算法表
想必这个问题应该困扰了很多深度学习新手和老司机。
有一种简单介绍方式
On-policy: The agent learned and the agent interacting with the environment is the same. 行为策略和目标策略一样
Off-policy: The agent learned and the agent interacting with the environment is different.行为策略和目标策略不一样
具体怎么理解呢,将在正文中展开
2.正文
话不多说,继续送上三种DRL中三种经典算法。
强化学习中on policy和off policy的区别-深度理解相关推荐
- 深度强化学习中的好奇心
本文为 AI 研习社编译的技术博客,原标题 : Curiosity in Deep Reinforcement Learning 作者 | Michael Klear 翻译 | 凝决2018 校对 | ...
- 强化学习中的脉冲神经网络
简 介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...
- 最新综述 | 强化学习中从仿真器到现实环境的迁移
©PaperWeekly 原创 · 作者|李文浩 学校|华东师范大学博士生 研究方向|强化学习 最近 survey 了一下 sim2real 领域最近的相关工作,先整理个第一版(共有七篇论文)的总结. ...
- 《强化学习与最优控制》学习笔记(三):强化学习中值空间近似和策略空间近似概述
写在前面的 前一章链接: <强化学习与最优控制>学习笔记(二):强化学习与最优控制的一些术语对比 这章主要是对应书中第二章前面的值空间近似和策略空间近似的简要介绍部分. 在本书的第一章就指 ...
- 强化学习中的基础概念和术语——spinning up文档翻译
Key Concepts and Terminology 以下内容翻译自open ai 的spinning up文档,同时加入了一些自己的理解.原始内容来自spinningup 文章目录 Key Co ...
- 初探强化学习(10)强化学习中的一些术语(non-stationray,sample efficiency,planning和Learnin,Reward,off-policy和on-policy )
1. 关于stationray 参考博客. Stationary or not 根据环境是否稳定.可以将强化学习问题分为stationary.non-stationary. 1.1 stationar ...
- 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
- (深入理解)强化学习中Model-based和Model-free的区别是什么
文章目录 RL的形式化 RL求解算法 model-based:知己知彼,百战百胜 Model-free:两耳不闻窗外事,一心只读圣贤书 总结 RL的形式化 首先我们定义强化学习中的马尔可夫决策过程MD ...
- labview叠加白噪声_强化学习中Ornstein-Uhlenbeck噪声是鸡肋吗?
欢迎转载,转载请注明出处--知乎专栏"机器学习与控制论". 读过DDPG论文[1]的同学几乎都会有一个问题,论文中使用Ornstein-Uhlenbeck噪声用于探索,比较难理解, ...
- 八千字长文深度解读,迁移学习在强化学习中的应用及最新进展
点击我爱计算机视觉标星,更快获取CVML新技术 本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 机器之心原创 作者:Luo Sainan 编辑:H4O 迁移学习通 ...
最新文章
- Js时间格式[转载]
- mysql 分表原理_MYSQL 分表原理(转)
- Jupyter Notebook插入图片的4种方法
- 复杂知识库问答最新综述:方法、挑战与解决方案
- leetcode-125-验证回文串
- 水晶易表调用C#的WebService,返回数据集合
- 【clickhouse】Clickhouse 查询之 Array JOIN
- 实验六:流类库与I/O
- 完美C++(第5版)(双色)
- 华三 h3c路由协议BGP对等体组、反射器、路由选路综合实验
- linux常用命令详解(二)
- vs2010开发android教程,用Visual Studio 2010开发Android应用
- 有哪些写项目策划书注意事项
- cmake编译时中途报错:undefined reference to ‘xxx‘.未定义引用
- 【周志华机器学习】线性模型
- uniapp 微信小程序配置全局主题色、实现动态修改主题色
- 来看看今日的软件分享
- intellij背景护眼色调节
- Java应用通过wsdl文件调用webservice
- 解决asp.net FileUpload控件无法获取完整路径的问题 - 无序修改浏览器参数
热门文章
- 【CSS】CSS 层叠样式表 ① ( 简介 | CSS 引入方式 - 内联样式 | 内联样式语法 | 内联样式缺点 )
- 农业物联网技术种香菇,种植成本更低
- Uni-App - 模板语法 - 数据绑定
- html怎么让爱心闪动,css画爱心并实现“爱心跳动”
- opencv漫水填充法。
- 绝地求闪退be服务器未运行,绝地求生闪退英文弹窗怎么回事?弹BE启动器白框解决办法...
- 设置IE默认文档模式
- 如何通过JS动态给li标签添加点击事件并跳转
- matlab中主次坐标,【基本工具】S02E20 坐标轴与主次刻度用法详解
- 并查集详解:UF——UF_Tree——UF_Tree_Weighted逐步优化