强化学习基础1.1 | 智能体与环境交互过程

强化学习的过程是agent与环境不断交互的过程，从环境得到反馈，然后来改变自己的行动。

智能体首先接受环境的状态S0

智能体在S0的环境下采取行动A0

环境收到智能体的行动后从S0 变化到S1

环境对智能体的行为做出回报reward（可正可负，表示奖励或惩罚），R1

智能体收到奖励后对环境采取行动A1

环境状态接收到动作A1后由状态S1变化到S2，并且给予奖励R2
智能体与环境交互的过程为
状态S0 采取A0
得到R1 》状态S1 采取A1
得到R2 》状态S2 采取A2
得到R3 》状态S3 采取A3
得到R4…持续下去

目标为最大化期望累计奖励reward也就是将所有到达目标的reward的期望加起来的最大值。

如果需要定义一个强化学习问题，需要指定状态、动作和奖励并制定环境规则。

强化学习基础1.1 | 智能体与环境交互过程相关推荐

多智能体强化学习_基于多智能体强化学习主宰星际争霸游戏
大家好,今天我们来介绍基于多智能体强化学习主宰星际争霸游戏这篇论文 Grandmaster level in StarCraft II using multi-agent reinforcement ...
论文 | 导航 | 2022年亚利桑那州立大学硕士论文《图神经网络与优势Actor-Critic强化学习算法用于多智能体导航》
原创 Manaswini A 图科学实验室Graph Science Lab 2022-06-11 08:00 发表于台湾图神经网络 (GNN) 是一种神经网络架构,它对由对象及其关系组成的数据进行 ...
强化学习基础篇（五）：Dyna-Q 算法
强化学习基础篇(五):Dyna-Q 算法 (Dynamic Programming) 1. 简介 2. Dyna-Q 3. Dyna-Q 代码实践 4. 小结文章转于伯禹学习平台-动手学强化学习 ...
【datawhale202207】强化学习：强化学习基础
结论速递强化学习是由两部分组成的:智能体和环境.在强化学习过程中,智能体与环境一直在交互.智能体在环境中获取某个状态后,它会利用该状态输出一个动作 (action),这个动作也称为决策(decisi ...
强化学习——基础概念
强化学习--基础概念一.强化学习问题的提出奖励 Reward 环境 Environment 状态 State 二.智能体 Agent 策略 Policy 价值函数 Value function 模 ...
深度强化学习-强化学习基础（二）
基本概念: 强化学习对于初学者来说会有专业名词,先对其进行解释. 状态(state):状态是环境中的一个位置信息,状态是做决策的唯一依据. 状态空间(state space):所有可能存在状态的集合, ...
“弱肉强食，月半者为王” | OpenDILab推出多智能体博弈环境Go-Bigger
关注公众号,发现CV技术之美多智能体对抗作为决策AI中重要的部分,也是强化学习领域的难题之一. 为丰富多智能体对抗环境,OpenDILab(开源决策智能平台)开源了一款趣味多智能体对抗竞技游戏环境- ...
强化学习笔记2：序列决策(Sequential Decision Making)过程
1 Agent and Environment 强化学习研究的问题是 agent 跟环境交互,上图左边画的是一个 agent,agent 一直在跟环境进行交互. 这个 agent 把它输出的动作给环境 ...
【强化学习】从强化学习基础概念开始
在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...

强化学习基础1.1 | 智能体与环境交互过程

强化学习基础1.1 | 智能体与环境交互过程相关推荐

最新文章

热门文章