强化学习的概念
强化学习主要由智能体(agent)和环境(environment)两部分组成。智能体代表具有行为能力的物体,环境指智能体执行动作时所处的场景。其目标是寻找一个最优策略,使智能体在运动过程中获得的累积奖励最大。

通俗的说:
强化学习算法通过不断的与用户进行交互,先推送少量的类似信息给用户,看用户的反馈,然后根据用户的反馈再推送相关的内容,并在后序交互过程中继续根据用户的反馈不断维护和更新上述内容。

学习过程
强化学习可以用四元组<S,A,P,R>表示,其中S为状态集合、A为动作集合、P为状态转移函数、R为奖励函数,其计算流程如下:

(1)在时刻 t t t,智能体所处状态为 s t ∈ S s_t \in S st​∈S,此时需要一定的策略policy从动作集合中选择一个动作 a t ∈ A a_t \in A at​∈A。动作的连续性和集合的大小会直接影响到后面的结果;

(2)在完成动作 a t a_t at​后,环境会给出一个强化信号 r t r_t rt​(奖励或者惩罚),经典的强化信号计算方法为:

G t G_t Gt​= r t + r t + 1 + . . . + γ n r t + n r_t+r_{t+1}+...+\gamma^nr_{t+n} rt​+rt+1​+...+γnrt+n​

其中 G t G_t Gt​为奖励的回报, γ \gamma γ是衰减因子 0 ≤ γ ≤ 1 0\leq \gamma \leq 1 0≤γ≤1, n n n是奖励的积累步骤,可以取到无限大。当 γ = 0 \gamma=0 γ=0时,回报只考虑当下的奖励,当 γ = 1 \gamma=1 γ=1时,回报会考虑整个过程的影响;

(3)动作 a t a_t at​同时会改变环境。从当前状态 s t s_t st​转移到下一状态 s t + 1 s_{t+1} st+1​,在此之后,智能体根据 t + 1 t+1 t+1时刻的状态 s t + 1 s_{t+1} st+1​选择下一个动作,进入下一个时间点的迭代。

强化学习的概念及学习过程相关推荐

  1. 强化学习——基础概念

    强化学习--基础概念 一.强化学习问题的提出 奖励 Reward 环境 Environment 状态 State 二.智能体 Agent 策略 Policy 价值函数 Value function 模 ...

  2. 【机器学习】强化学习的概念及马尔科夫决策

    系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一.什么是强化学习? 二.强化学习算法的示例:火星探测器 三.强化学习的回报及折扣因子 四. 强化学习中的策略 ...

  3. 深度强化学习——基本概念(1)

    一.基本概念 1.状态.动作.智能体  可以认为状态就是第一张图的环境,虽然状态和observation还是有区别 智能体Agent是马里奥,动作Action就是上下左右的运动 2.策略函数(poli ...

  4. 【强化学习】从强化学习基础概念开始

    在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...

  5. B站最强--强化学习基本概念入门(全)

    概率论概念 随机变量 概念:一个取决于未知事件的变量, 使用大写X来表示随机变量 如在抛硬币之前我是不知道硬币结果是什么,但是我知道事件的概率 使用小写x来表示观测值,只是表示一个数,没有随机性,如下 ...

  6. 强化学习基本概念及与监督学习的区别

    强化学习 研究的是智能体agent与环境之间交互的任务,也就是让agent像人类一样通过试错,不断地学习在不同的环境下做出最优的动作,而不是有监督地直接告诉agent在什么环境下应该做出什么动作.在这 ...

  7. 强化学习基础概念02——基本术语一

    目录 术语 State 状态   : Action  动作: Agent 代理: Policy策略: Reward奖励: Return 折扣回报: return Ut的随机性 术语 State 状态 ...

  8. 多智能体强化学习基本概念

    Multi-Agent Reinforcement Learning:Concepts and Challenges 1. Multi-Agent Settings 1.1. Fully cooper ...

  9. 强化学习基础概念03——价值函数

    目录 value function 价值函数 action value function,动作价值函数Qπ. 问题一: 问题二: 问题三: 问题四:(optimal action value func ...

最新文章

  1. html用颜色区分不同区间数据_最新数据可视化指南
  2. 关于JQuery简单介绍
  3. CoreData并发操作模式简介
  4. 现代软件工程 期中/期末总结博客作业
  5. HUE WorkFlow Schedule 调用Hive参数传递,外部参数传递,时间参数传递
  6. 让我们探索Cycle.js和Model-View-Intent的好处
  7. 【Arduino】开发入门教程【六】数据类型转换函数
  8. 因为某种原因阻止文本引擎初始化_网络营销外包——网络营销外包专员如何做好网站锚文本优化?...
  9. 通信协议:HTTP、TCP、UDP
  10. 入门系列之使用fail2ban防御SSH服务器的暴力破解攻击 1
  11. linux关闭rpcbind服务,rpcbind服务 关闭
  12. 孙玄:微服务架构何去何从?
  13. python卸载pip重新安装_pip的卸载、重装、升级(from pip19.3 to pip20.1)
  14. java毕业实习日志_java毕业实习日记.doc
  15. 七个习惯之七:不断更新
  16. Carryon 数数字(x^n ≡1 mod(x-1))
  17. python图书销售系统
  18. Windows Sockets概述
  19. Java 身份证验证(IdCardVerification)
  20. HeadFirst设计模式之迭代器模式

热门文章

  1. 2022北林计科学生保研历程
  2. xp打开网页显示服务器错误怎么办,winxp系统IE浏览器出现Internet无法打开站点错误提示怎么办...
  3. 有水量服务器水温还是不稳定,我的热水器水量忽大忽小
  4. 【NLP】情绪分析与酒店评论
  5. ChatGPT使用案例之图像生成
  6. Python_封装案例(士兵突击)
  7. C# 連接mysql,連接后顯示多個線程池
  8. AE入门教程及素材资料链接
  9. 数据库原理题型 - 选择题
  10. windows如何切换到administrtor用户