强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习并不是某一种特定的算法,而是一类算法的统称。如果用来做对比的话,他跟监督学习,无监督学习 是类似的,是一种统称的学习方式。

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。

强化学习算法的思路非常简单,以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步「强化」这种策略,以期继续取得较好的结果。这种策略与日常生活中的各种「绩效奖励」非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。

强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

智能体(Agent):可以采取行动的智能个体;例如,可以完成投递的无人机,或者在视频游戏中朝目标行动的超级马里奥。强化学习算法就是一个智能体。而在现实生活中,那个智能体就是你。

行动(Action):一个行动(action)几乎是一目了然的,但是应该注意的是智能体是在从可能的行动列表中进行选择。在电子游戏中,这个行动列表可能包括向右奔跑或者向左奔跑,向高出处跳或者向低处跳,下蹲或者站住不动。在股市中,这个行动列表可能包括买入,卖出或者持有任何有价证券或者它们的变体。在处理空中飞行的无人机时,行动选项包含三维空间中的很多速度和加速度。

环境(Environment):指的就是智能体行走于其中的世界。这个环境将智能体当前的状态和行动作为输入,输出是智能体的奖励和下一步的状态。如果你是一个智能体,那么你所处的环境就是能够处理行动和决定你一系列行动的结果的物理规律和社会规则。

状态(State,S):一个状态就是智能体所处的具体即时状态;也就是说,一个具体的地方和时刻,这是一个具体的即时配置,它能够将智能体和其他重要的失事物关联起来,例如工具、敌人和或者奖励。它是由环境返回的当前形势。你是否曾在错误的时间出现在错误的地点?那无疑就是一个状态了。

奖励(Reward,R):奖励是我们衡量某个智能体的行动成败的反馈。例如,在视频游戏中,当马里奥碰到金币的时候,它就会赢得分数。面对任何既定的状态,智能体要以行动的形式向环境输出,然后环境会返回这个智能体的一个新状态(这个新状态会受到基于之前状态的行动的影响)和奖励(如果有任何奖励的话)。奖励可能是即时的,也可能是迟滞的。它们可以有效地评估该智能体的行动。

在许多复杂的领域,强化学习是实现高水平智能体的唯一可行方法。例如,在玩游戏时,人们很难提供对大量位置的准确和一致的评估——而若我们直接从示例中训练评估函数则这些信息是必须的——相反,在游戏中智能体可以在获胜或失败时被告知,并且可以使用这些信息来学习评估函数,使得该函数可以对任何给定位置的获胜概率进行合理准确的估计。

什么是强化学习呢,来涨波知识相关推荐

  1. 一文读懂AlphaGo背后的强化学习:它的背景知识与贝尔曼方程的原理

    作者 | Joshua Greaves 译者 | 刘畅,林椿眄 本文是强化学习名作--"Reinforcement Learning: an Introduction"一书中最为重 ...

  2. 深度揭秘强化学习技术与落地!智源大会「强化学习与决策智能」专题论坛

    决策智能是国家新一代人工智能的重要发展方向,强化学习是实现决策智能的核心技术之一.在强化学习中,智能体与环境进行不断的交互,基于环境的反馈学习如何选择一系列动作,以使长期累积的奖励和最大.近年来,该方 ...

  3. 「强化学习可解释性」最新2022综述

    来源:新智元 本文共10000字,建议阅读15分钟本文本文探索XRL的基础性问题,并对现有工作进行综述. 强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法. 然而, ...

  4. 强化学习最新作品:谷歌最新思想、MIT新书推荐、Sutton经典之作!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 强化学习一直是研究热点,对于小白来说,看书是最快入门的唯一途径.本期为大家精心准备 ...

  5. 强化学习中的脉冲神经网络

    简 介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...

  6. 【强化学习】MOVE37-Introduction(导论)/马尔科夫链/马尔科夫决策过程

    写在前面的话:从今日起,我会边跟着硅谷大牛Siraj的MOVE 37系列课程学习Reinforcement Learning(强化学习算法),边更新这个系列.课程包含视频和文字,课堂笔记会按视频为单位 ...

  7. 微信看一看强化学习推荐模型的知识蒸馏探索之路丨CIKM 2021

    猜你喜欢 0.[免费下载]2021年11月热门报告盘点&下载1.如何搭建一套个性化推荐系统?2.从零开始搭建创业公司后台技术栈3.全民K歌推荐系统算法.架构及后台实现4.微博推荐算法实践与机器 ...

  8. 亚马逊自动驾驶小车上线啦:才卖1700元,请叫它“强化学习玩具”

    晓查 发自 凹非寺  量子位 出品 | 公众号 QbitAI 原价399美元的自动驾驶小车,现在预订,只要249美元就能抱回家! 亚马逊的自动驾驶汽车DeepRacer上线啦,不过你并不能坐进去,它只 ...

  9. 通过 Q-learning 深入理解强化学习-附带代码实现

    本文将带你学习经典强化学习算法 Q-learning 的相关知识.在这篇文章中,你将学到:(1)Q-learning 的概念解释和算法详解:(2)通过 Numpy 实现 Q-learning. 故事案 ...

最新文章

  1. 【ACM】杭电OJ 2034
  2. openstack上传镜像失败_制作云window10镜像
  3. 近世代数--循环群--怎么判断是不是循环群?
  4. burp爆破线程设置多少_多线程到底需要设置多少个线程?
  5. 全球最伟大50名商业领袖,任正非和马云未入选,中国只有一人上榜
  6. gallery代码怎么运行_自学Python进阶-把代码变成程序、软件
  7. c++ enum 给定类型_C++ 枚举类型详解
  8. IE代理服务器出错导致浏览器无法上网
  9. python android开发_Android与Python爱之初体验
  10. 详解对密码执行散列和 salt 运算方法
  11. OA系统中的会议管理
  12. 浅谈腾讯云IM接入方式(java后端)
  13. html 引入 BootCDN 上的库
  14. openGL画五角星
  15. 请确保您已登录客户机操作系统。在客户机中装载虚拟CD驱动器,启动终端,使用tar解压...
  16. html如何制作电子邮件地址怎么写,如何制作html电子邮件?
  17. 虚拟打印机adobe PDF
  18. 5,10,15,20-四(3,5-二甲氧基苯基)卟啉((TdmPP)H2)/2-硝基-5,10,15,20-四(3,5-二甲氧基苯基)卟啉铜(NO2TdmPP)Cu)齐岳供应
  19. Mac OSX系统下安装和删除程序
  20. Mac下ImageMagick安装(libpng)

热门文章

  1. 华为手机设置页面黑色_华为手机简单设置一下,来电直接显示对方照片视频,个性又炫酷...
  2. 南邮 OJ 2001 水獭看动漫
  3. 【JDK配置】雀氏纸尿裤,天才第一步
  4. e480换高分屏_四世同堂,12年一轮回,再赏ThinkPad机型
  5. 概率论 —— 随机事件与概率
  6. 如何上联想官网查询服务器配置信息,联想服务器型号联想服务器如何鉴别!
  7. SGE:作业调度系统安装和使用简要说明
  8. android os x86下载,Android-x86 Lineage OS 14.1-r3下载(2019/10/23官方更新版)
  9. OpenCV 颜色检测| color detection
  10. C#获取http请求的JSON数据并解析