强化学习基本概念及与监督学习的区别

强化学习 研究的是智能体agent与环境之间交互的任务，也就是让agent像人类一样通过试错，不断地学习在不同的环境下做出最优的动作，而不是有监督地直接告诉agent在什么环境下应该做出什么动作。在这里我们需要引入回报（reward）这个概念，回报是执行一个动作或一系列动作后得到的奖励，比如在游戏超级玛丽中，向上跳可以获得一个金币，也就是回报值为1，而不跳时回报就是0。回报又分为立即回报和长期回报，立即回报指的是执行当前动作后能立刻获得的奖励，但很多时候我们执行一个动作后并不能立即得到回报，而是在游戏结束时才能返回一个回报值，这就是长期回报。强化学习唯一的准则就是学习通过一序列的最优动作，获得最大的长期回报。比较有挑战性的是，任一状态下做出的动作不仅影响当前状态的立即回报，而且也会影响到下一个状态，因此也就会影响整个执行过程的回报。

强化学习 是一个连续决策的过程，传统的机器学习中的有监督学习是给定标签但有时候，并不知道标签是什么，即一开始不知道什么是“好”的结果，所以RL不是给定标签，而是给一个回报函数，这个回报函数决定当前状态得到什么样的结果（“好”还是“坏”），其数学实质是一个马尔可夫决策过程。最终的目的是决策过程中回报函数期望最优。

这个过程有点像有监督学习，只是标签不是预先准备好的，而是通过一个过程来回的调整并给出标签，这个过程就是强化学习。

强化学习和监督学习的区别主要有以下两点：

强化学习是试错学习(Trail-and-error)，由于没有直接的指导信息，智能体要以不断与环境进行交互，通过试错的方式来获得最佳策略。
延迟回报，强化学习的指导信息很少，而且往往是在事后（最后一个状态）才给出的，这就导致了一个问题，就是获得正回报或者负回报以后，如何将回报分配给前面的状态。

大家加油！

强化学习基本概念及与监督学习的区别相关推荐

【机器学习】强化学习的概念及马尔科夫决策
系列文章目录第十八章 Python 机器学习入门之强化学习目录系列文章目录前言一.什么是强化学习? 二.强化学习算法的示例:火星探测器三.强化学习的回报及折扣因子四. 强化学习中的策略 ...
强化学习——基础概念
强化学习--基础概念一.强化学习问题的提出奖励 Reward 环境 Environment 状态 State 二.智能体 Agent 策略 Policy 价值函数 Value function 模 ...
强化学习的概念及学习过程
强化学习的概念强化学习主要由智能体(agent)和环境(environment)两部分组成.智能体代表具有行为能力的物体,环境指智能体执行动作时所处的场景.其目标是寻找一个最优策略,使智能体在运动过 ...
深度强化学习——基本概念(1)
一.基本概念 1.状态.动作.智能体可以认为状态就是第一张图的环境,虽然状态和observation还是有区别智能体Agent是马里奥,动作Action就是上下左右的运动 2.策略函数(poli ...
【强化学习】从强化学习基础概念开始
在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...
B站最强--强化学习基本概念入门（全）
概率论概念随机变量概念:一个取决于未知事件的变量, 使用大写X来表示随机变量如在抛硬币之前我是不知道硬币结果是什么,但是我知道事件的概率使用小写x来表示观测值,只是表示一个数,没有随机性,如下 ...
强化学习基础概念02——基本术语一
目录术语 State 状态 : Action 动作: Agent 代理: Policy策略: Reward奖励: Return 折扣回报: return Ut的随机性术语 State 状态 ...
多智能体强化学习基本概念
Multi-Agent Reinforcement Learning:Concepts and Challenges 1. Multi-Agent Settings 1.1. Fully cooper ...
强化学习基础概念03——价值函数
目录 value function 价值函数 action value function,动作价值函数Qπ. 问题一: 问题二: 问题三: 问题四:(optimal action value func ...

强化学习基本概念及与监督学习的区别

强化学习基本概念及与监督学习的区别相关推荐

最新文章

热门文章