强化学习的概念及学习过程

强化学习的概念
强化学习主要由智能体（agent）和环境（environment）两部分组成。智能体代表具有行为能力的物体，环境指智能体执行动作时所处的场景。其目标是寻找一个最优策略，使智能体在运动过程中获得的累积奖励最大。

通俗的说：
强化学习算法通过不断的与用户进行交互，先推送少量的类似信息给用户，看用户的反馈，然后根据用户的反馈再推送相关的内容，并在后序交互过程中继续根据用户的反馈不断维护和更新上述内容。

学习过程
强化学习可以用四元组<S,A,P,R>表示，其中S为状态集合、A为动作集合、P为状态转移函数、R为奖励函数，其计算流程如下：

（1）在时刻 t t t，智能体所处状态为 s t ∈ S s_t \in S st∈S,此时需要一定的策略policy从动作集合中选择一个动作 a t ∈ A a_t \in A at∈A。动作的连续性和集合的大小会直接影响到后面的结果；

（2）在完成动作 a t a_t at后，环境会给出一个强化信号 r t r_t rt（奖励或者惩罚），经典的强化信号计算方法为:

G t G_t Gt= r t + r t + 1 + . . . + γ n r t + n r_t+r_{t+1}+...+\gamma^nr_{t+n} rt+rt+1+...+γnrt+n

其中 G t G_t Gt为奖励的回报， γ \gamma γ是衰减因子 0 ≤ γ ≤ 1 0\leq \gamma \leq 1 0≤γ≤1, n n n是奖励的积累步骤，可以取到无限大。当 γ = 0 \gamma=0 γ=0时，回报只考虑当下的奖励，当 γ = 1 \gamma=1 γ=1时，回报会考虑整个过程的影响；

（3）动作 a t a_t at同时会改变环境。从当前状态 s t s_t st转移到下一状态 s t + 1 s_{t+1} st+1，在此之后，智能体根据 t + 1 t+1 t+1时刻的状态 s t + 1 s_{t+1} st+1选择下一个动作，进入下一个时间点的迭代。

强化学习的概念及学习过程相关推荐

强化学习——基础概念
强化学习--基础概念一.强化学习问题的提出奖励 Reward 环境 Environment 状态 State 二.智能体 Agent 策略 Policy 价值函数 Value function 模 ...
【机器学习】强化学习的概念及马尔科夫决策
系列文章目录第十八章 Python 机器学习入门之强化学习目录系列文章目录前言一.什么是强化学习? 二.强化学习算法的示例:火星探测器三.强化学习的回报及折扣因子四. 强化学习中的策略 ...
深度强化学习——基本概念(1)
一.基本概念 1.状态.动作.智能体可以认为状态就是第一张图的环境,虽然状态和observation还是有区别智能体Agent是马里奥,动作Action就是上下左右的运动 2.策略函数(poli ...
【强化学习】从强化学习基础概念开始
在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...
B站最强--强化学习基本概念入门（全）
概率论概念随机变量概念:一个取决于未知事件的变量, 使用大写X来表示随机变量如在抛硬币之前我是不知道硬币结果是什么,但是我知道事件的概率使用小写x来表示观测值,只是表示一个数,没有随机性,如下 ...
强化学习基本概念及与监督学习的区别
强化学习研究的是智能体agent与环境之间交互的任务,也就是让agent像人类一样通过试错,不断地学习在不同的环境下做出最优的动作,而不是有监督地直接告诉agent在什么环境下应该做出什么动作.在这 ...
强化学习基础概念02——基本术语一
目录术语 State 状态 : Action 动作: Agent 代理: Policy策略: Reward奖励: Return 折扣回报: return Ut的随机性术语 State 状态 ...
多智能体强化学习基本概念
Multi-Agent Reinforcement Learning:Concepts and Challenges 1. Multi-Agent Settings 1.1. Fully cooper ...
强化学习基础概念03——价值函数
目录 value function 价值函数 action value function,动作价值函数Qπ. 问题一: 问题二: 问题三: 问题四:(optimal action value func ...

强化学习的概念及学习过程

强化学习的概念及学习过程相关推荐

最新文章

热门文章