Q-learning 简介

Q-learning是一个无模型强化学习算法。Q-learning的目标是学习一个策略，它告诉agent在什么情况下应该采取什么行动。它不需要环境的模型(因此就有了“无模型”的含义)，并且它可以处理随机转换和奖励的问题，而不需要适应。

对于任何有限马尔可夫决策过程(FMDP)， Q-learning发现一个策略是最优的，从这个意义上说，它从当前状态开始，在所有连续的步骤中最大化总回报的期望值。Q-learning可以为任意给定的FMDP，给定无限的探索时间和部分随机的策略确定最优的行动选择策略。“Q”将返回用于提供强化的奖励的函数命名为，并且可以说是表示在给定状态下所采取行动的“质量”。

强化学习

强化学习包括一个代理、一组状态一组每个状态的操作。通过执行一个操作，代理从一个状态转换到另一个状态。在特定的状态下执行一个动作会为代理提供一个奖励(一个数值分数)。

代理人的目标是使其总(未来)报酬最大化。它通过在实现当前状态的奖励基础上增加未来状态可获得的最大奖励，从而通过潜在的未来奖励有效地影响当前的行为。这个潜在的奖励是从当前状态开始的所有未来步骤的奖励的期望值的加权和。

计算公式

强化学习——Q-learning算法相关推荐

初学者的强化学习q learning和sarsa
Reinforcement learning is a fast-moving field. Many companies are realizing the potential of RL. Rec ...
python强化学习之Q-learning算法
强化学习是什么? 简单来说就是通过感知周围环境而行动,以取得最大化收益的一个过程. 其中Q-learning算法的感知状态为离散,无规律. 华丽的分割线------------------------ ...
强化学习（二）：Q learning 算法
强化学习(一):基础知识强化学习(二):Q learning算法 Q learning 算法是一种value-based的强化学习算法,Q是quality的缩写,Q函数 Q(state,action ...
强化学习q学习求最值_通过Q学习更深入地学习强化学习
强化学习q学习求最值 by Thomas Simonini 通过托马斯·西蒙尼(Thomas Simonini) 通过Q学习更深入地学习强化学习 (Diving deeper into Reinfor ...
强化学习q学习求最值_Q学习简介：强化学习
强化学习q学习求最值 by ADL 通过ADL Q学习简介:强化学习 (An introduction to Q-Learning: reinforcement learning) This arti ...
强化学习 (Reinforcement Learning)
强化学习: 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能 ...
强化学习 Reinforcement Learning（三）——是时候用 PARL 框架玩会儿 DOOM 了！！！（下）
强化学习 Reinforcement Learning(三)-- 是时候用 PARL 框架玩会儿 DOOM 了!!!(下) 本文目录强化学习 Reinforcement Learning(三)-- ...
深度强化学习-Double DQN算法原理与代码
深度强化学习-Double DQN算法原理与代码引言 1 DDQN算法简介 2 DDQN算法原理 3 DDQN算法伪代码 4 仿真验证引言 Double Deep Q Network(DDQN)是 ...
强化学习(Reinforcement Learning)入门学习--01
强化学习(Reinforcement Learning)入门学习–01 定义 Reinforcement learning (RL) is an area of machine learning in ...
【强化学习】Q-Learning算法详解以及Python实现【80行代码】
强化学习在文章正式开始前,请不要被强化学习的tag给吓到了,这也是我之前所遇到的一个困扰.觉得这个东西看上去很高级,需要一个完整的时间段,做详细的学习.相反,强化学习的很多算法是很符合直观思维的. ...

强化学习——Q-learning算法

Q-learning 简介

强化学习

计算公式

强化学习——Q-learning算法相关推荐

最新文章

热门文章