• 强化学习的基本结构是什么?

强化学习本质上是智能体和环境的交互过程。具体来说,就是智能体根据所观测到的环境的状态输出一个动作或者决策作用在环境上,同时环境会输出下一个状态和奖励。智能体就是想要获得最大化的收益。

  • 强化学习相对于监督学习为什么训练过程会更加困难?

由于强化学习的样本都是与时间有关联的,不是独立同分布的。强化学习没有一个好的监督者,它需要通过环境输出的奖励来判断动作的好坏。强化学习是奖励是延迟的。

  • 强化学习的基本特征有哪些?

强化学习通过试错探索来了解环境,训练出最佳的策略。强化学习与时间的关联是非常重要的,他输入的数据都是与时间有关系的。强化学习只能得到延迟的奖励。强化学习中得每一个动作都会改变环境得状态

  • 近几年强化学习发展迅速的原因有哪些?

由于硬件设备的发展,各行各业的人才投入到强化学习中,为其发展提供了许多经验积累。深度学习的发展,使得强化学习的细节方面得以简化。

  • 状态和观测有什么关系?

状态是环境一个完整的描述,而观测是智能体所能够感知到的部分,他一般只能描述环境的一部分状态。可能遗漏一些信息

  • 一个强化学习智能体由什么组成?

强化学习的智能体由策略函数、价值函数、模型三个部分构成。其中智能体通过策略函数在动作空间中选取最佳动作。价值函数表示当前状态的好坏,对当前状态进行评估。模型表示智能体对环境的理解。

  • 根据强化学习智能体的不同,我们可以将其分为哪几类?

根据智能体是基于策略还是基于价值的,可以分为基于价值函数的强化学习和基于策略函数的强化学习。其中基于策略的强化学习直接对策略进行优化。根据是否能够理解环境分为有模型强化学习和免模型强化学习。

  • 基于策略迭代和基于价值迭代的强化学习方法有什么区别?

基于策略迭代的强化学习方法,智能体会制定一套动作策略,即确定在给定状态下需要采取何种动作,并根据该策略进行操作。强化学习算法直接对策略进行优化,使得制定的策略能够获得最大的奖励;可以应用于行为集合规模庞 大或是动作连续的场景 。基于价值迭代的强化学习方法,智能体不需要制定显式的策略,它维护一个价值表格或价值函数,并通过 这个价值表格或价值函数来选取价值最大的动作。基于价值迭代的方法只能应用在离散的环境下。

  • 有模型学习和免模型学习有什么区别?

针对是否需要对真实环境建模,强化学习可以分为有模型学习和免模型学习。有模型学习是指根据环境中的经验,构建一个虚拟世界,同时在真实环境和虚拟世界中学习;免模型学习是指不对环境进行建模, 直接与真实环境进行交互来学习到最优策略。免模型学习需要大量的采样来估计状态、动作及奖励函数,从而优化动作策略。免模型学习的泛化性要优于有模型学习,原因是有模型学习需要对真实环境进行建模,并且虚拟世界与真实环境之间可能还有差异,这限制了有模型学习算法的泛化性。

  • 如何通俗理解强化学习?

强化学习其实就是通过不断地试错,探索出最好的决策,然后使智能体得到最大的奖励。由于我们并不能控制每一状态的奖励和环境,因此我们只能去控制决策。

强化学习第一章思维导图

蘑菇书 第一章绪论 习题相关推荐

  1. 西瓜书第一章课后习题答案

    第1章 绪论 1.1 略 1.2 参考链接:西瓜书第一章习题 - 简书 (jianshu.com) 首先明确基本合取式有多少种,设西瓜的三个不同属性的特征分别为(A1,A2),(B1,B2,B3),( ...

  2. 数据结构——第一章 绪论习题

    目录 写在前面 知识点导图 严蔚敏版习题 王曙燕版习题 写在前面 该习题答案非标准答案,正确不保证,如有错误望指正. 知识点导图 严蔚敏版习题 一.单项选择题(部分) 2.与数据元素本身的形式.内容. ...

  3. 【数据结构】第一章绪论习题加答案

    一.选择题 1.从逻辑上可以吧数据结构分成(D) A.内部结构和外部结构 B.动态结构和静态结构 C.紧凑结构和非紧凑结构 D.线性结构和非线性结构 2.下面的程序的时间复杂度是(B) x=0: y= ...

  4. 数据结构python吕云翔_《数据结构》吕云翔编著第1章绪论习题解答

    数据结构第一章绪论习题 一. [单选题] 1. ( A )是数据的基本单位. A.数据元素 B.数据对象 C.数据项 D.数据结构 2. ( C )是数据的不可分割的最小单位. A.数据元素 B.数据 ...

  5. 西瓜书读书笔记整理(二)—— 第一章 绪论

    第一章 绪论 第一章 绪论 1.1 引言 1. 什么是机器学习 2. 机器学习的主要内容 3. 模型与模式 1.2 基本术语 1. 数据集 / 训练集 / 验证集 / 测试集 2. 示例 / 样本 3 ...

  6. 小吴的《机器学习 周志华》学习笔记 第一章 绪论

    小吴的<机器学习 周志华>学习笔记 第一章 绪论 近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包).因此,最近开始系统学习Machine Le ...

  7. 《机器人学导论--Join J.Craig》第一章 绪论

    <机器人学导论–Join J.Craig>第一章 绪论 1.1 背景 1. 机器人取代人:人工成本原来越高,工业机器人的成本越来越低,且无需人工那些福利.待遇等,属于一本万利.随着工业机器 ...

  8. 机器学习 周志华 第一章课后习题

    机器学习 周志华 第一章课后习题 1.1 1.2 1.3 1.4 1.5 1.1 在下面这张图片中若只包含编号为1和4的两个样例,试给出相应的版本空间. 书上实例: 1.表 1.1 对应的假设空间如下 ...

  9. 机器学习-周志华-学习记录-第一章绪论

    文章目录 绪论 一.什么是机器学习 二.基本术语 三.假设空间 四.归纳偏好 总结 参考链接 绪论 为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书.同时也为了能够养成博客记录的习 ...

最新文章

  1. 浅析建设企业网站的三大基本类型
  2. ASP.NET中application对象的用法(面试题)
  3. gbdt 算法比随机森林容易_用Python实现随机森林算法
  4. BestCoder-Round#33
  5. 树莓派命令连接wifi_树莓派连接无线网wifi配置方法
  6. Linux磁盘管理——df、du、磁盘分区、格式化、挂载、LVM
  7. 【Leetocde | 10 】54. 螺旋矩阵
  8. 云原生时代来袭 下一代云数据库技术将走向何方?
  9. python中的不可变类型和可变类型
  10. JSP电子病历管理系统
  11. 如何制作bt种子文件
  12. LoRa网关市场现状及未来发展趋势
  13. Codeforces1194C
  14. Rancher Labs获2500万美元C轮融资
  15. el-upload上传图片,限制上传数量,超过最大数量则不展示上传组件,可点击删除
  16. public static void main解释
  17. 最常被遗忘的 Web 性能优化:浏览器缓存
  18. Android M App Permissions
  19. 合服 两个服务器都有什么作用,阴阳师合服是什么意思?合服合区问题汇总详解[多图]...
  20. 双绞线与PCB差分信号布线

热门文章

  1. 学习资料怎么打印,能用手机直接打印学习资料
  2. 和菲利普•科特勒的《营销管理》一样,这些都是比较好的市场营销书籍
  3. 基于SpringBoot的影视/短视频网站系统
  4. 二叉树的层次遍历 II - LeetCode
  5. 不仅老赖处处受限,连老赖的家人都要处处受限
  6. AC敏捷控制器及准入控制技术对比
  7. 利用光盘安装linux系统
  8. 月均播放超2.8亿,vlog会是品牌B站推广新风口吗?
  9. php支付宝聚合支付源码,ThinkPHP5.1聚合支付源码
  10. 微信小程序简单好看的表格器