1. episode的感性理解

强化学习中,episode是个重要的术语。那么episode应该如何理解呢?
An episode is one complete play of the agent interacting with the environment in the general RL setting. Episodic tasks in RL means that the game of trying to solve the task ends at a terminal stage or after some amount of time.
看完上面的解释,应该理解一个episode为是一轮或一个回合,即智能体从开始执行任务,到某个终止阶段,例如结束了任务(成功或失败),或经过了一定时间等等。
两个episode的例子:
(1) 机械手从开始位置到终点目标位置(成功完成任务的一轮过程);
(2) 游戏中智能体被敌人击毙而结束任务(任务失败的一轮过程)
感性理解了episode后,再从强化学习的角度来看episode: 它是智能体从开始执行任务,根据每个时刻的状态和对应的策略,依次选取一系列动作,直至任务终止的一个完整过程,就是一个episode。

2. episode的翻译

episode翻译成汉语确实难以找到一个准确的翻译,有的中文学术论文将episode翻译成了“情节”。不过“情节似乎不太能清晰的表达出episode的过程属性。因此,”这里“an episode”可以理解成“一个回合”,(尽管写论文中可用“情节”),大多数场合都是合适的。

强化学习中的episode如何理解和翻译?相关推荐

  1. 深度强化学习中的episode、epoch、batch-size、iteration

    深度强化学习中的episode.epoch.batch-size.iteration batch_size iteration epoch episode batch_size 即批大小,如果把全部数 ...

  2. (深入理解)强化学习中Model-based和Model-free的区别是什么

    文章目录 RL的形式化 RL求解算法 model-based:知己知彼,百战百胜 Model-free:两耳不闻窗外事,一心只读圣贤书 总结 RL的形式化 首先我们定义强化学习中的马尔可夫决策过程MD ...

  3. 【机器学习】带你轻松理解什么是强化学习中的状态动作函数 ?

    系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一.状态动作函数的定义 二.直观理解 三.将状态动作函数与回报和策略联系起来 总结 前言 强化学习中的状态动作函 ...

  4. 初探强化学习(10)强化学习中的一些术语(non-stationray,sample efficiency,planning和Learnin,Reward,off-policy和on-policy )

    1. 关于stationray 参考博客. Stationary or not 根据环境是否稳定.可以将强化学习问题分为stationary.non-stationary. 1.1 stationar ...

  5. 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...

    No.26 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  6. 强化学习中的脉冲神经网络

    简 介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...

  7. labview叠加白噪声_强化学习中Ornstein-Uhlenbeck噪声是鸡肋吗?

    欢迎转载,转载请注明出处--知乎专栏"机器学习与控制论". 读过DDPG论文[1]的同学几乎都会有一个问题,论文中使用Ornstein-Uhlenbeck噪声用于探索,比较难理解, ...

  8. 最新综述 | 强化学习中从仿真器到现实环境的迁移

    ©PaperWeekly 原创 · 作者|李文浩 学校|华东师范大学博士生 研究方向|强化学习 最近 survey 了一下 sim2real 领域最近的相关工作,先整理个第一版(共有七篇论文)的总结. ...

  9. 强化学习中的基础概念和术语——spinning up文档翻译

    Key Concepts and Terminology 以下内容翻译自open ai 的spinning up文档,同时加入了一些自己的理解.原始内容来自spinningup 文章目录 Key Co ...

最新文章

  1. java操作elasticsearch实现query String
  2. 在Ubuntu中自动运行KMS服务
  3. java面向对象编程集合边框_java 面向对象编程-- 第15章 集合框架
  4. Java并发源码之ReentrantLock
  5. python 绘制分布直方图_统计学中常见的4种抽样分布及其分布曲线(Python绘制)...
  6. JS针对图片加载及404处理
  7. redis压缩列表ziplist的连锁扩容
  8. Javascript:模拟ztree侧边栏的回收
  9. 小天使幼儿园管理系统 免费
  10. 偏微分方程数值解法pdf_天生一对,硬核微分方程与深度学习的联姻之路
  11. 多旋翼无人机动力系统发展历程
  12. SAN海量存储解决方案
  13. python123第三单元测试卷_第三单元测试卷(带答案)
  14. [附源码]计算机毕业设计JAVA濒危物种科普系统
  15. 小米首页二级菜单栏实现原理
  16. linux运行docker容器,添加映射端口
  17. 一寸照纯红色底图片_一寸照纯红色底图片
  18. 安全健康的使用计算机就要注意,长时间使用电脑应该注意健康
  19. android hid 编程,Android Bluetooth HID完成详解,androidhid
  20. 如何在win10系统找到开机时漂亮的壁纸

热门文章

  1. 分析方法,单细胞测序之细胞互作
  2. 计算机仿真如何汇款,计算机仿真投稿常见问题.doc
  3. 技术人员要拿百万年薪,必须要经历这9个段位
  4. 无限流量服务器印设备,[转载]人人影视获得数据银行无限空间无限流量外链服务支持...
  5. IT专业人员的背景调查
  6. 全屏9999朵玫瑰表白源码 易语言
  7. 关于sc delete命令行无效问题的解决办法
  8. 海尔linux系统密码,海尔路由器密码忘记了怎么办?
  9. 地球大气延伸超越月球轨道!探索系外水星球的新希望
  10. 什么是aws,云计算?怎么学?