蘑菇书第一章绪论习题

强化学习的基本结构是什么？

强化学习本质上是智能体和环境的交互过程。具体来说，就是智能体根据所观测到的环境的状态输出一个动作或者决策作用在环境上，同时环境会输出下一个状态和奖励。智能体就是想要获得最大化的收益。

强化学习相对于监督学习为什么训练过程会更加困难？

由于强化学习的样本都是与时间有关联的，不是独立同分布的。强化学习没有一个好的监督者，它需要通过环境输出的奖励来判断动作的好坏。强化学习是奖励是延迟的。

强化学习的基本特征有哪些？

强化学习通过试错探索来了解环境，训练出最佳的策略。强化学习与时间的关联是非常重要的，他输入的数据都是与时间有关系的。强化学习只能得到延迟的奖励。强化学习中得每一个动作都会改变环境得状态

近几年强化学习发展迅速的原因有哪些？

由于硬件设备的发展，各行各业的人才投入到强化学习中，为其发展提供了许多经验积累。深度学习的发展，使得强化学习的细节方面得以简化。

状态和观测有什么关系？

状态是环境一个完整的描述，而观测是智能体所能够感知到的部分，他一般只能描述环境的一部分状态。可能遗漏一些信息

一个强化学习智能体由什么组成？

强化学习的智能体由策略函数、价值函数、模型三个部分构成。其中智能体通过策略函数在动作空间中选取最佳动作。价值函数表示当前状态的好坏，对当前状态进行评估。模型表示智能体对环境的理解。

根据强化学习智能体的不同，我们可以将其分为哪几类？

根据智能体是基于策略还是基于价值的，可以分为基于价值函数的强化学习和基于策略函数的强化学习。其中基于策略的强化学习直接对策略进行优化。根据是否能够理解环境分为有模型强化学习和免模型强化学习。

基于策略迭代和基于价值迭代的强化学习方法有什么区别？

基于策略迭代的强化学习方法，智能体会制定一套动作策略，即确定在给定状态下需要采取何种动作，并根据该策略进行操作。强化学习算法直接对策略进行优化，使得制定的策略能够获得最大的奖励；可以应用于行为集合规模庞大或是动作连续的场景。基于价值迭代的强化学习方法，智能体不需要制定显式的策略，它维护一个价值表格或价值函数，并通过这个价值表格或价值函数来选取价值最大的动作。基于价值迭代的方法只能应用在离散的环境下。

有模型学习和免模型学习有什么区别？

针对是否需要对真实环境建模，强化学习可以分为有模型学习和免模型学习。有模型学习是指根据环境中的经验，构建一个虚拟世界，同时在真实环境和虚拟世界中学习；免模型学习是指不对环境进行建模，直接与真实环境进行交互来学习到最优策略。免模型学习需要大量的采样来估计状态、动作及奖励函数，从而优化动作策略。免模型学习的泛化性要优于有模型学习，原因是有模型学习需要对真实环境进行建模，并且虚拟世界与真实环境之间可能还有差异，这限制了有模型学习算法的泛化性。

如何通俗理解强化学习？

强化学习其实就是通过不断地试错，探索出最好的决策，然后使智能体得到最大的奖励。由于我们并不能控制每一状态的奖励和环境，因此我们只能去控制决策。

强化学习第一章思维导图

蘑菇书第一章绪论习题相关推荐

西瓜书第一章课后习题答案
第1章绪论 1.1 略 1.2 参考链接:西瓜书第一章习题 - 简书 (jianshu.com) 首先明确基本合取式有多少种,设西瓜的三个不同属性的特征分别为(A1,A2),(B1,B2,B3),( ...
数据结构——第一章绪论习题
目录写在前面知识点导图严蔚敏版习题王曙燕版习题写在前面该习题答案非标准答案,正确不保证,如有错误望指正. 知识点导图严蔚敏版习题一.单项选择题(部分) 2.与数据元素本身的形式.内容. ...
【数据结构】第一章绪论习题加答案
一.选择题 1.从逻辑上可以吧数据结构分成(D) A.内部结构和外部结构 B.动态结构和静态结构 C.紧凑结构和非紧凑结构 D.线性结构和非线性结构 2.下面的程序的时间复杂度是(B) x=0: y= ...
数据结构python吕云翔_《数据结构》吕云翔编著第1章绪论习题解答
数据结构第一章绪论习题一. [单选题] 1. ( A )是数据的基本单位. A.数据元素 B.数据对象 C.数据项 D.数据结构 2. ( C )是数据的不可分割的最小单位. A.数据元素 B.数据 ...
西瓜书读书笔记整理（二）—— 第一章绪论
第一章绪论第一章绪论 1.1 引言 1. 什么是机器学习 2. 机器学习的主要内容 3. 模型与模式 1.2 基本术语 1. 数据集 / 训练集 / 验证集 / 测试集 2. 示例 / 样本 3 ...
小吴的《机器学习周志华》学习笔记第一章绪论
小吴的<机器学习周志华>学习笔记第一章绪论近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包).因此,最近开始系统学习Machine Le ...
《机器人学导论--Join J.Craig》第一章绪论
<机器人学导论–Join J.Craig>第一章绪论 1.1 背景 1. 机器人取代人:人工成本原来越高,工业机器人的成本越来越低,且无需人工那些福利.待遇等,属于一本万利.随着工业机器 ...
机器学习周志华第一章课后习题
机器学习周志华第一章课后习题 1.1 1.2 1.3 1.4 1.5 1.1 在下面这张图片中若只包含编号为1和4的两个样例,试给出相应的版本空间. 书上实例: 1.表 1.1 对应的假设空间如下 ...
机器学习-周志华-学习记录-第一章绪论
文章目录绪论一.什么是机器学习二.基本术语三.假设空间四.归纳偏好总结参考链接绪论为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书.同时也为了能够养成博客记录的习 ...

蘑菇书第一章绪论习题

蘑菇书第一章绪论习题相关推荐

最新文章

热门文章

蘑菇书 第一章绪论 习题

蘑菇书 第一章绪论 习题相关推荐

最新文章

热门文章

蘑菇书第一章绪论习题

蘑菇书第一章绪论习题相关推荐