RL智能体的类型

基于价值的智能体，基于策略的智能体，演员-评论员智能体

策略：随机性策略+确定性策略，是一个函数，用于把输入的状态变成动作。
价值函数：价值函数的值是对未来奖励的预测，用于评估状态的好坏。
模型：基于策略的强化学习+基于价值的强化学习（第10页）

如果我们采取基于策略的强化学习（policy-based RL）方法，当学习好了这个环境后，在每一个状态，我们都会得到一个最佳的动作。如图 1.17 所示，比如我们现在在起点位置，我们知道最佳动作是往右走；在第二格的时候，得到的最佳动作是往上走；第三格是往右走… 通过最佳的策略，我们可以最快地到达终点。

如果换成基于价值的强化学习（value-based RL）方法，利用价值函数作为导向，我们就会得到另外一种表征，每一个状态会返回一个价值。如图 1.18 所示，比如我们在起点位置的时候，价值是 -16，因为我们最快可以 16 步到达终点。因为每走一步会减 1，所以这里的价值是 -16。当我们快接近终点的时候，
这个数字变得越来越大。在拐角的时候，比如现在在第二格，价值是 -15，智能体会看上、下两格，它看到上面格子的价值变大了，变成-14 了，下面格子的价值是 -16，那么智能体就会采取一个往上走的动
作。所以通过学习的价值的不同，我们可以抽取出现在最佳的策略。

基于策略的强化学习算法：policy gradient
基于价值的强化学习算法：Q-learning、Sarsa

有模型强化学习智能体（model-based）、免模型(model-free)强化学习智能体

强化学习任务表示为四元组 < S, A, P, R >，即状态集合、动作集合、状态转移函数和奖励函数。如果这个四元组中所有元素均已知，且状态集合和动作集合在有限步数内是有限集，则智能体可以对真实环境进行建模，就可以采用有模型强化学习；通常情况下，状态转移函数和奖励函数很难估计，这时就需要采用免模型强化学习，免模型强化学习没有对真实环境进行建模，智能体只能在真实环境中通过一定的策略来执行动作。

有模型强化学习相比免模型强化学习仅仅多出一个步骤，即对真实环境进行建模。免模型强化学习通常属于数据驱动型方法，需要大量的采样来估计状态、动作及奖励函数，从而优化动作策略，有模型的深度强化学习可以在一定程度上缓解训练数据匮乏的问题，大部分深度强化学习方法都采用了免模型强化学习。

关键词

探索（exploration）：在当前的情况下，继续尝试新的动作。其有可能得到更高的奖励，也有可能一无
所有。
开发（exploitation）：在当前的情况下，继续尝试已知的可以获得最大奖励的过程，即选择重复执行
当前动作。

强化学习的基本结构：本质上是智能体与环境的交互。具体地，当智能体在环境中得到当前时刻状态后，其会基于此状态输出一个动作，这个动作会在环境中被执行并输出下一个状态和当前这个动作得到的奖励。智能体在环境里存在的目标是最大化期望累积奖励。

状态&观测：状态是对环境的完整描述，不会隐藏环境信息。观测是对状态的部分描述，可能会遗漏一些信息。在深度强化学习中，我们几乎总是用同一个实值向量、矩阵或者更高阶的张量来表示状态和观测。

easyRL蘑菇书阅读笔记（一）相关推荐

红宝书阅读笔记（持续更新）
今天是2021年8月15日 ,在自学的同时开始阅读前端相关的书籍,愿不断在学习中进步. 这一本是<JavaScript高级程序设计>(第四版),也俗称红宝书,第四版中加入了ES6. 下一本 ...
红宝书阅读笔记——缓冲区对象
前面的顶点数组使得几何图元的显示方便了很多,但是如果每次都要向OPENGL发送一大块数据,而这数据其实并没有修改过,那么这传输就是冗余的.所以这里添加了缓冲区对象,将顶点数组存储在服务器端的缓冲区对象 ...
红宝书阅读笔记——OPENGL渲染管线
之前读的时候一直觉得红宝书是很艰涩难懂的,不如NEHE的教程简单. 后来才发觉是自己没基础,几番折腾之后也只能用OPENGL做些简单的东西.半年没写,连glBegin都给忘了. 图形学的大作业要求写个 ...
写给大家看的设计书阅读笔记1——设计的四大基本原则
设计的四大基本原则概述有一些基本的设计原则,每一个优秀的设计中都应用了这些原则.我们在观察评价一个设计作品时,也要从这几条基本原则去考虑. 亲密性 Proximity 彼此相关的项应当靠近,归组在一 ...
强化学习蘑菇书学习笔记04
第六章 DQN基本概念关键词 DQN(Deep Q-Network): 基于深度学习的Q-learning算法,其结合了 Value Function Approximation(价值函数近似)与神 ...
＜Redis开发与运维＞一书阅读笔记记录
文章目录前言第1章:初始redis 盛赞redis redis特性 redis使用场景第2章:API的理解和使用预备知识全局命令数据结构和内部编码单线程架构字符串命令内部编码典型 ...
犀牛书阅读笔记（第二章）
词法结构字符集:由Unicode字符集编写的,该字符集为ASCII和Latin-1的超集大小写:js区分大小写,但html不区分空格与换行:程序中标识之间的空格会被忽略,换行符也会被忽略格式控 ...
“蘑菇书“配套在线课程上线
新内容,新玩法,免费学,飞桨AI Studio伴你0基础玩转AI~解锁丰厚礼品和证书!报名即有机会获赠"蘑菇书"! 近年来,计算机逐渐开始具有类似于人类的思维感知.学习.决策能力, ...
大话数据结构及JAVA数据结构阅读笔记
目录一.大话数据结构随书阅读笔记第一章数据结构概述第二章算法概述第三章线性表第四章栈与队列第五章串第六章树第七章图第八章查找第九章排序二.大话数据结构思维导图 ...

easyRL蘑菇书阅读笔记（一）

RL智能体的类型

关键词

easyRL蘑菇书阅读笔记（一）相关推荐

最新文章

热门文章