第17课：强化学习的模型训练

在之前的课程中，我们为大家介绍的机器学习实例大部分都属于监督学习或者无监督学习。例如图像的分类和目标检测属于监督学习，而词嵌入课程中的 word2vec 和 GloVe 都属于无监督学习。在本次课程中，我们将为大家介绍另一种机器学习的方式——强化学习（Reinforcement Learning）。本节课核心内容包括：

强化学习简介
强化学习的实现方式与基本原理
基于 RL4J 的 CartPole 问题建模

强化学习也可以称为反馈激励学习或者评价学习，是相对于监督学习和非监督学习更契合人类行为的一种训练学习方式，下面我们将从强化学习的基本原理、实现方式及结合 RL4J 框架给出 CartPole 问题解决方案，从三个方面介绍强化学习的相关知识，并以此作为入门强化学习的案例供大家参考。其中 RL4J 是在 ND4J 基础上构建的深度强化学习开源框架，并隶属于 Deeplearning4j 生态圈，支持 Deep Q-Learning 等多种深度强化学习的方式。下面我们首先介绍强化学习的相关内容。

17.1 强化学习简介

强化学习是区别于监督和非监督学习的另一种机器学习方式。强化学习的主要特点在于其具备根据环境的变化而做出连续决策的能力。从这个意义上讲，强化学习是更加符合人类等智能体学习规律的一种方式，原因在于，智能体的学习方式大多需要经过多次的逻辑推演和决策才能够达到某一具体目标，典型的例子有智能自动控制系统、博弈游戏等。无人车的自动控制系统会根据道路环境的实际状态来做出加速、制动等动作，围棋游戏则需要根据双方的棋局态势做出有利于我方的落子方案。虽然从宏观上讲，强化学习和监督学习一样是要完成对某一目标的学习，但强化学习需要智能体在完成阶段性目标的基础上不断累积才能达成最终目标，就像下棋的每一步都有着暂时的目的及长远的布局两个目标，而不可能仅仅凭借一两步棋

第17课：强化学习的模型训练相关推荐

让AI学习如何玩游戏 OpenAI打造强化学习通用模型
过度学习是许多AI模型的问题,要开发出通用型AI,就必须解决这道难题,OpenAI近日释出一个特别的训练环境CoinRun,该平台藉由游戏设计,能够提供指针,让程序将过去学习到的经验,转移到全新环境中 ...
微信看一看强化学习推荐模型的知识蒸馏探索之路丨CIKM 2021
猜你喜欢 0.[免费下载]2021年11月热门报告盘点&下载1.如何搭建一套个性化推荐系统?2.从零开始搭建创业公司后台技术栈3.全民K歌推荐系统算法.架构及后台实现4.微博推荐算法实践与机器 ...
MATLAB强化学习实战(一) 强化学习智能体训练总览
强化学习智能体训练总览简介训练算法情节管理器保存候选智能体并行计算 GPU加速验证训练后的策略环境验证简介创建环境和强化学习智能体后,您可以使用训练功能在环境中训练智能体. 要配置您 ...
MATLAB强化学习实战(十三) 使用强化学习智能体训练Biped机器人行走
使用强化学习智能体训练Biped机器人行走两足机器人模型创建环境接口选择和创建训练智能体 DDPG Agent TD3 Agent 指定训练选项和训练智能体仿真训练过的智能体比较智能体性能 ...
【深度学习】模型训练过程可视化思路（可视化工具TensorBoard）
[深度学习]模型训练过程可视化思路(可视化工具TensorBoard) 文章目录 1 TensorBoard的工作原理 2 TensorFlow中生成log文件 3 启动TensorBoard,读取l ...
深度学习中模型训练效果不好的原因以及防止过拟合的方法
深度学习中模型训练效果不好的原因 1. 是否选择合适的损失函数 2. 是否选择了合适的Mini-batch size 3. 是否选择了合适的激活函数 4. 是否选择了合适的学习率 5. 优化算法是否使 ...
第14课：Spark 分布式模型训练及调优（实战）
上节课已经为大家介绍了 Apache Spark 项目的基本情况,以及分布式深度神经网络的解决方案.这节课我们将给出一个 Deeplearning4j+Spark 的建模实例,包括从配置 Maven ...
【17】强化学习 17章前沿技术
文章目录名词离轨策略折扣过程折扣系数价值函数广义策略迭代(4.6节)或者"行动器一评判器"算法正文 17.1 广义价值函数和辅助任务 1.广义价值函数是什么? 2.辅 ...
如何提高强化学习算法模型的泛化能力?
深度强化学习实验室官网:http://www.neurondance.com/ 来源:https://zhuanlan.zhihu.com/p/328287119 作者:网易伏羲实验室编辑:Dee ...

第17课：强化学习的模型训练

17.1 强化学习简介

第17课：强化学习的模型训练相关推荐

最新文章

热门文章