强化学习 研究的是智能体agent与环境之间交互的任务,也就是让agent像人类一样通过试错,不断地学习在不同的环境下做出最优的动作,而不是有监督地直接告诉agent在什么环境下应该做出什么动作。在这里我们需要引入回报(reward)这个概念,回报是执行一个动作或一系列动作后得到的奖励,比如在游戏超级玛丽中,向上跳可以获得一个金币,也就是回报值为1,而不跳时回报就是0。回报又分为立即回报和长期回报,立即回报指的是执行当前动作后能立刻获得的奖励,但很多时候我们执行一个动作后并不能立即得到回报,而是在游戏结束时才能返回一个回报值,这就是长期回报。强化学习唯一的准则就是学习通过一序列的最优动作,获得最大的长期回报。比较有挑战性的是,任一状态下做出的动作不仅影响当前状态的立即回报,而且也会影响到下一个状态,因此也就会影响整个执行过程的回报。

强化学习 是一个连续决策的过程,传统的机器学习中的有监督学习是给定标签但有时候,并不知道标签是什么,即一开始不知道什么是“好”的结果,所以RL不是给定标签,而是给一个回报函数,这个回报函数决定当前状态得到什么样的结果(“好”还是“坏”),其数学实质是一个马尔可夫决策过程。最终的目的是决策过程中回报函数期望最优。

这个过程有点像有监督学习,只是标签不是预先准备好的,而是通过一个过程来回的调整并给出标签,这个过程就是强化学习。


强化学习和监督学习的区别主要有以下两点:

  1. 强化学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。
  2. 延迟回报,强化学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。

大家加油!

强化学习基本概念及与监督学习的区别相关推荐

  1. 【机器学习】强化学习的概念及马尔科夫决策

    系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一.什么是强化学习? 二.强化学习算法的示例:火星探测器 三.强化学习的回报及折扣因子 四. 强化学习中的策略 ...

  2. 强化学习——基础概念

    强化学习--基础概念 一.强化学习问题的提出 奖励 Reward 环境 Environment 状态 State 二.智能体 Agent 策略 Policy 价值函数 Value function 模 ...

  3. 强化学习的概念及学习过程

    强化学习的概念 强化学习主要由智能体(agent)和环境(environment)两部分组成.智能体代表具有行为能力的物体,环境指智能体执行动作时所处的场景.其目标是寻找一个最优策略,使智能体在运动过 ...

  4. 深度强化学习——基本概念(1)

    一.基本概念 1.状态.动作.智能体  可以认为状态就是第一张图的环境,虽然状态和observation还是有区别 智能体Agent是马里奥,动作Action就是上下左右的运动 2.策略函数(poli ...

  5. 【强化学习】从强化学习基础概念开始

    在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...

  6. B站最强--强化学习基本概念入门(全)

    概率论概念 随机变量 概念:一个取决于未知事件的变量, 使用大写X来表示随机变量 如在抛硬币之前我是不知道硬币结果是什么,但是我知道事件的概率 使用小写x来表示观测值,只是表示一个数,没有随机性,如下 ...

  7. 强化学习基础概念02——基本术语一

    目录 术语 State 状态   : Action  动作: Agent 代理: Policy策略: Reward奖励: Return 折扣回报: return Ut的随机性 术语 State 状态 ...

  8. 多智能体强化学习基本概念

    Multi-Agent Reinforcement Learning:Concepts and Challenges 1. Multi-Agent Settings 1.1. Fully cooper ...

  9. 强化学习基础概念03——价值函数

    目录 value function 价值函数 action value function,动作价值函数Qπ. 问题一: 问题二: 问题三: 问题四:(optimal action value func ...

最新文章

  1. 设置图片格式为php,php 将bmp图片转为jpg等其他任意格式的图片
  2. 2017-2018-2 20179216 《网络攻防与实践》 第四周总结
  3. 浅谈Android布局
  4. resteasy经验谈
  5. dev Gridcontrol控件属性部分
  6. 深入理解Golang之context
  7. 通过js引用外部脚本(嘿嘿,方便直接在浏览器上调试抓取代码)
  8. shell脚本学习总结02--数组
  9. codeforces 446A DZY Loves Sequences
  10. 多媒体计算机技术特性,多媒体计算机技术东师20春在线作业2资料
  11. 给惠普735g5 装Win10+Ubuntu 16.04双系统
  12. matlab 矩阵白化,主成分分析中如何对矩阵进行白化处理
  13. linux删除桌面图标
  14. 单位负反馈图_负反馈的魔力
  15. 上位机通信标准-OPC
  16. FLUENT中的常用边界条件
  17. 机器学习相关学习视频
  18. android 7.1内存泄漏,android - Android 7.1和7本机崩溃:libc.so tgkill + 12 - 堆栈内存溢出...
  19. 数据分析-数据分析报告
  20. Android Studio 中的maven仓库使用

热门文章

  1. 【微信小程序】network 中request请求不显示
  2. matlab蒙特卡洛方法求积分,matlab-蒙特卡洛法估计积分值
  3. 数据库Mysql——sql语句大全
  4. IP协议,ARP协议,RARP协议
  5. 小米iot业务_小米集团组织变革:新设三大部门推进“手机X AIOT”战略落地
  6. 计算机组成原理——单周期CPU
  7. 搜狗输入法打造二次元“虫娘颜文字”,让聊天更有料!
  8. 三大家族scroll、offset、client
  9. Linux查看IP以及修改IP地址
  10. GUI原理 - 色彩王国