RL智能体的类型

  1. 基于价值的智能体,基于策略的智能体,演员-评论员智能体

策略:随机性策略+确定性策略,是一个函数,用于把输入的状态变成动作。
价值函数:价值函数的值是对未来奖励的预测,用于评估状态的好坏。
模型:基于策略的强化学习+基于价值的强化学习(第10页)

如果我们采取基于策略的强化学习(policy-based RL)方法,当学习好了这个环境后,在每一个状态,我们都会得到一个最佳的动作。如图 1.17 所示,比如我们现在在起点位置,我们知道最佳动作是往右走;在第二格的时候,得到的最佳动作是往上走;第三格是往右走… 通过最佳的策略,我们可以最快地到达终点。

如果换成基于价值的强化学习(value-based RL)方法,利用价值函数作为导向,我们就会得到另外一种表征,每一个状态会返回一个价值。如图 1.18 所示,比如我们在起点位置的时候,价值是 -16,因为我们最快可以 16 步到达终点。因为每走一步会减 1,所以这里的价值是 -16。当我们快接近终点的时候,
这个数字变得越来越大。在拐角的时候,比如现在在第二格,价值是 -15,智能体会看上、下两格,它看到上面格子的价值变大了,变成-14 了,下面格子的价值是 -16,那么智能体就会采取一个往上走的动
作。所以通过学习的价值的不同,我们可以抽取出现在最佳的策略。

基于策略的强化学习算法:policy gradient
基于价值的强化学习算法:Q-learning、Sarsa

  1. 有模型强化学习智能体(model-based)、免模型(model-free)强化学习智能体

强化学习任务表示为四元组 < S, A, P, R >,即状态集合、动作集合、状态转移函数和奖励函数。如果这个四元组中所有元素均已知,且状态集合和动作集合在有限步数内是有限集,则智能体可以对真实环境进行建模,就可以采用有模型强化学习;通常情况下,状态转移函数和奖励函数很难估计,这时就需要采用免模型强化学习,免模型强化学习没有对真实环境进行建模,智能体只能在真实环境中通过一定的策略来执行动作。

有模型强化学习相比免模型强化学习仅仅多出一个步骤,即对真实环境进行建模。免模型强化学习通常属于数据驱动型方法,需要大量的采样来估计状态、动作及奖励函数,从而优化动作策略,有模型的深度强化学习可以在一定程度上缓解训练数据匮乏的问题,大部分深度强化学习方法都采用了免模型强化学习。

关键词

探索(exploration):在当前的情况下,继续尝试新的动作。其有可能得到更高的奖励,也有可能一无
所有。
开发(exploitation):在当前的情况下,继续尝试已知的可以获得最大奖励的过程,即选择重复执行
当前动作。

强化学习的基本结构:本质上是智能体与环境的交互。具体地,当智能体在环境中得到当前时刻状态后,其会基于此状态输出一个动作,这个动作会在环境中被执行并输出下一个状态和当前这个动作得到的奖励。智能体在环境里存在的目标是最大化期望累积奖励。

状态&观测:状态是对环境的完整描述,不会隐藏环境信息。观测是对状态的部分描述,可能会遗漏一些信息。在深度强化学习中,我们几乎总是用同一个实值向量、矩阵或者更高阶的张量来表示状态和观测。

easyRL蘑菇书阅读笔记(一)相关推荐

  1. 红宝书阅读笔记(持续更新)

    今天是2021年8月15日 ,在自学的同时开始阅读前端相关的书籍,愿不断在学习中进步. 这一本是<JavaScript高级程序设计>(第四版),也俗称红宝书,第四版中加入了ES6. 下一本 ...

  2. 红宝书阅读笔记——缓冲区对象

    前面的顶点数组使得几何图元的显示方便了很多,但是如果每次都要向OPENGL发送一大块数据,而这数据其实并没有修改过,那么这传输就是冗余的.所以这里添加了缓冲区对象,将顶点数组存储在服务器端的缓冲区对象 ...

  3. 红宝书阅读笔记——OPENGL渲染管线

    之前读的时候一直觉得红宝书是很艰涩难懂的,不如NEHE的教程简单. 后来才发觉是自己没基础,几番折腾之后也只能用OPENGL做些简单的东西.半年没写,连glBegin都给忘了. 图形学的大作业要求写个 ...

  4. 写给大家看的设计书阅读笔记1——设计的四大基本原则

    设计的四大基本原则概述 有一些基本的设计原则,每一个优秀的设计中都应用了这些原则.我们在观察评价一个设计作品时,也要从这几条基本原则去考虑. 亲密性 Proximity 彼此相关的项应当靠近,归组在一 ...

  5. 强化学习蘑菇书学习笔记04

    第六章 DQN基本概念 关键词 DQN(Deep Q-Network): 基于深度学习的Q-learning算法,其结合了 Value Function Approximation(价值函数近似)与神 ...

  6. <Redis开发与运维>一书阅读笔记记录

    文章目录 前言 第1章:初始redis 盛赞redis redis特性 redis使用场景 第2章:API的理解和使用 预备知识 全局命令 数据结构和内部编码 单线程架构 字符串 命令 内部编码 典型 ...

  7. 犀牛书阅读笔记(第二章)

    词法结构 字符集:由Unicode字符集编写的,该字符集为ASCII和Latin-1的超集 大小写:js区分大小写,但html不区分 空格与换行:程序中标识之间的空格会被忽略,换行符也会被忽略 格式控 ...

  8. “蘑菇书“配套在线课程上线

    新内容,新玩法,免费学,飞桨AI Studio伴你0基础玩转AI~解锁丰厚礼品和证书!报名即有机会获赠"蘑菇书"! 近年来,计算机逐渐开始具有类似于人类的思维感知.学习.决策能力, ...

  9. 大话数据结构及JAVA数据结构阅读笔记

    目录 一.大话数据结构随书阅读笔记 第一章 数据结构概述 第二章  算法概述 第三章 线性表 第四章 栈与队列 第五章 串 第六章 树 第七章 图 第八章 查找 第九章 排序 二.大话数据结构思维导图 ...

最新文章

  1. 【C/S语言】.net平台
  2. iOS-UIWebView添加头部和尾部
  3. php for循环执行函数,自执行函数用for结束后面不能访问循环变量
  4. 吐槽: 移动端缓存策略
  5. 10分钟看懂, Java NIO 底层原理
  6. HttpServletRequest看这篇文章就够了
  7. C++项目參考解答:求Fibonacci数列
  8. Jmeter笔记(2)插件下载与安装
  9. 梁兴珍 java_数据结构与算法_Java语言
  10. 架构为什么要以领域为核心
  11. 视频擦除方向研究(生成技术的一类)
  12. 物联网通信技术,那些你不知道的事
  13. 微服务架构实战:Swagger规范RESTful API
  14. Python之网络编程学习笔记
  15. 电机与拖动基础--第一章
  16. android短视频列表自动播放,手把手教你实现视频列表滚动自动播放-短视频列表滚动播放实战...
  17. 一些提供代理服务器IP列表的链接
  18. w ndoWs10开机时间长,如何解决Win10正式版开机慢且开机黑屏时间长问题【图文教程】...
  19. Ubuntu系统上编译和安装perl和cpan模块
  20. C# 学习笔记:委托(5):可变性

热门文章

  1. 金融数据分析与挖掘具体实现方法 -1
  2. 深圳外包及不考虑公司名单
  3. ElasticSearch.net NEST批量创建修改删除索引完整示例
  4. matlab中circle函数_MATLAB如何用自带函数画圆
  5. 基于一道ctf 引发的 TP链分析
  6. 微信小程序仿抖音,微视上下滑动整屏切换视频带关注,收藏
  7. WordPress更新方法,防止 WP 官网 429 导致更新失败
  8. node.js 腾讯镜像站_史上最强Sx05RE游戏整合镜像发布!FBA4ARM永久闭源并停止发布!...
  9. 音量计算机的网红音乐,网红音乐10首抖音网红歌,抖音网红歌曲100首BGM精选
  10. 沈其荣院士团队解密根际有益菌VOCs消减土壤青枯菌生物障碍的生存-致病权衡机制...