强化学习的过程是agent与环境不断交互的过程,从环境得到反馈,然后来改变自己的行动。

智能体首先接受环境的状态S0

智能体在S0的环境下采取行动A0

环境收到智能体的行动后从S0 变化到S1

环境对智能体的行为做出回报reward(可正可负,表示奖励或惩罚),R1

智能体收到奖励后对环境采取行动A1

环境状态接收到动作A1后由状态S1变化到S2,并且给予奖励R2
智能体与环境交互的过程为
状态S0 采取A0
得到R1 》状态S1 采取A1
得到R2 》状态S2 采取A2
得到R3 》状态S3 采取A3
得到R4…持续下去

目标为最大化期望累计奖励reward也就是将所有到达目标的reward的期望加起来的最大值。

如果需要定义一个强化学习问题,需要指定状态、动作和奖励并制定环境规则。

强化学习基础1.1 | 智能体与环境交互过程相关推荐

  1. 多智能体强化学习_基于多智能体强化学习主宰星际争霸游戏

    大家好,今天我们来介绍基于多智能体强化学习主宰星际争霸游戏这篇论文 Grandmaster level in StarCraft II using multi-agent reinforcement ...

  2. 论文 | 导航 | 2022年亚利桑那州立大学硕士论文《图神经网络与优势Actor-Critic强化学习算法用于多智能体导航》

    原创 Manaswini A 图科学实验室Graph Science Lab 2022-06-11 08:00 发表于台湾 图神经网络 (GNN) 是一种神经网络架构,它对由对象及其关系组成的数据进行 ...

  3. 强化学习基础篇(五):Dyna-Q 算法

    强化学习基础篇(五):Dyna-Q 算法 (Dynamic Programming) 1. 简介 2. Dyna-Q 3. Dyna-Q 代码实践 4. 小结 文章转于 伯禹学习平台-动手学强化学习 ...

  4. 【datawhale202207】强化学习:强化学习基础

    结论速递 强化学习是由两部分组成的:智能体和环境.在强化学习过程中,智能体与环境一直在交互.智能体在环境中获取某个状态后,它会利用该状态输出一个动作 (action),这个动作也称为决策(decisi ...

  5. 强化学习——基础概念

    强化学习--基础概念 一.强化学习问题的提出 奖励 Reward 环境 Environment 状态 State 二.智能体 Agent 策略 Policy 价值函数 Value function 模 ...

  6. 深度强化学习-强化学习基础(二)

    基本概念: 强化学习对于初学者来说会有专业名词,先对其进行解释. 状态(state):状态是环境中的一个位置信息,状态是做决策的唯一依据. 状态空间(state space):所有可能存在状态的集合, ...

  7. “弱肉强食,月半者为王” | OpenDILab推出多智能体博弈环境Go-Bigger

    关注公众号,发现CV技术之美 多智能体对抗作为决策AI中重要的部分,也是强化学习领域的难题之一. 为丰富多智能体对抗环境,OpenDILab(开源决策智能平台)开源了一款趣味多智能体对抗竞技游戏环境- ...

  8. 强化学习笔记2:序列决策(Sequential Decision Making)过程

    1 Agent and Environment 强化学习研究的问题是 agent 跟环境交互,上图左边画的是一个 agent,agent 一直在跟环境进行交互. 这个 agent 把它输出的动作给环境 ...

  9. 【强化学习】从强化学习基础概念开始

    在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...

最新文章

  1. H5 画布解决跨域问题,画布保存为图片显示在页面上
  2. cross_val_score,cross_val_predict,cross_validate理解
  3. 关于优酷SDK之setOnADPlayListener
  4. 一起学 Java(四) File、Try 、序列化、MySQL、Socket
  5. ppt怎么加注解文字_向PPT2013演示文稿中添加批注将反馈和想法添加到演示文稿...
  6. java io操作压缩文件_Java操作zip-压缩和解压文件
  7. 闲说HeartBeat心跳包和TCP协议的KeepAlive机制
  8. postgres数据库常见报错
  9. 天下无贼中经典的句子
  10. c++ primer plus 复合类型之字符串、string、结构体、共用体、指针
  11. 如何下载spring源码?
  12. 助学贷款系统导入预申请时问题解决办法汇总
  13. windows脱壳复习
  14. 多线程服务器的常用编程模型
  15. Visual Tracking via Adaptive Structural Local Sparse Appearance Model
  16. Go语言查缺补漏ing Day1
  17. 【山科OJ】Problem A: 社交网络的好友推荐
  18. python if语句单行_单行的'if'/'for'语句是否使用Python样式好? - python
  19. 纯前端实现—网页钟表设计
  20. 数据挖掘基础:独立性检验

热门文章

  1. 高考日语2021成绩查询,高考日语:山东省2021高考日语听力成绩公布,满分真多!...
  2. Halcon--OCR识别
  3. Windows 搭建 Laravel 的 Homestead 开发环境
  4. python读取文件路径格式_Python学习笔记读写文件之文件与文件路径
  5. 通过MailServer和Foxmail搭建本地邮件服务器及实现本地邮箱账号收发邮件
  6. 天书夜读笔记——内存分页机制
  7. 精心为你准备的20道Mysql面试题,打包带走
  8. 0114 vi和vim
  9. 英语学习单词篇(7)
  10. 图像边缘检测-Canny,Sobel等算子