基本概念篇(一),强化学习基本要素
其实本来不想写这篇的,相信愿意往下看的童鞋,对强化学习本身应该有一定了解。但其实你看的多了就会发现,现有很多文章在细节方面还是有不少差异的。因此,这篇文章也是为了统一本博客的话语体系,为后面内容打基础。
首先请看下面这张图:
上图就是强化学习的最一般思路。其中Agent代表你实现的各种“牛叉”算法,Environment则代表Agent输出或作用的对象。其实这一思路,特别类似于我们人类或者自然界的动物等,通过与环境的交互,逐渐适应环境并学习到知识。当然,现有强化学习的算法从效率上来说,别说和人类相比,与动物相比低的也不是一星半点。这是因为现有的学习算法,大部分都是需要依靠海量的数据来投喂的。(当然,我的知识有限,如果已有更高效的学习方法,我会回来改正这段话的。)
下面,我们根据上图,正式引入强化学习的一些基本要素:
1. 环境状态 s s s:
即Environment所描述对象的情况。由于强化学习本身的设计,其状态可认为是离散的,或者简单来说,就是一步一步的。我们在这里给 s s s添加一个下标 t t t,表示为 s t s_t st,表示环境每一步的状态。当然,在强化学习中, s t s_t st具体的取值,取决于你的采样方式,更取决于你设计的算法本身的需求。
2. Agent的动作 a a a:
即Agent的输出,这个也是一步一步的,因此可表示为 a t a_t at。当然,这个取值也完全取决于你的需求与设计。在强化学习中, s s s与 a a a是成对出现的,即 s t → a t → s t + 1 → ⋯ s_t\rightarrow a_t\rightarrow s_{t+1}\rightarrow\cdots st→at→st+1→⋯。请大家务必记住这个序列,它是强化学习概念的基础,贯穿强化学习始终。
3. 环境奖励 r r r:
即Agent的动作带来的实时收益,这个收益本身也取决于环境的设计。一般情况下,这个收益每一步都有。但是,有时很难对每一步设计具体收益,所以有可能会在最后设计一个总收益,而其他步上都是0。收益的设计会极大的影响你的算法,后面我们会通过各种示例慢慢讨论。
以上三个是强化学习中最基本的要素。在具体的强化学习中,每一步都会产生一个组合: ( s t , a t , s t + 1 , r t + 1 ) \left(s_t,a_t,s_{t+1},r_{t+1}\right) (st,at,st+1,rt+1),即在状态 s t s_t st下,采用动作 a t a_t at,状态变为 s t + 1 s_{t+1} st+1,产生收益 r t + 1 r_{t+1} rt+1。这里描述的是强化学习的一步,请一定牢记这个组合。
后续的要素,都是为了更准确的描述强化学习过程,并为算法服务的。
4. 策略 π \pi π:
表示Agent根据环境状态 s s s,选择动作 a a a的条件概率,可表示为: π ( a ∣ s ) = P ( a t = a ∣ s t = s ) \pi\left(a\left|s\right.\right)=P\left(a_t=a\left|s_t=s\right.\right) π(a∣s)=P(at=a∣st=s)。强化学习的目标,其实也可以理解为求 π \pi π的过程。
5. 状态转移概率 P s s ′ a P_{ss'}^a Pss′a:
这个看公式也很容易理解,即当状态为 s s s时,如果执行了 a a a动作,则状态变为 s ′ s' s′的概率。环境的状态变化一般情况下都是一个随机事件,因此,我们这里用概率对这一随机事件进行描述。
6. 累积回报 G G G:
我们前面对强化学习每一步的收益,设定了环境奖励 r t + 1 r_{t+1} rt+1,但仅用这个描述是远远不够的。我们知道,大部分情况下,我们这一步对后续都是有影响的,那么怎么衡量这一影响呢,简单的想法就是把后续的收益也累加起来,这里就可以用 G G G来描述,则 G t = r t + 1 + γ r t + 2 + ⋯ = ∑ k = 0 ∞ γ k r t + k + 1 G_t=r_{t+1}+\gamma r_{t+2}+\cdots=\sum_{k=0}^\infty\gamma^kr_{t+k+1} Gt=rt+1+γrt+2+⋯=∑k=0∞γkrt+k+1。
7. 状态价值函数 v π ( s ) v_\pi\left(s\right) vπ(s):
我们可以认为,这个就是对前面的状态 s s s进行评估的。大家试想一下,无论是下棋,或者是游戏,如果进入某个场景中,有可能面临的就是必败的结果,那么我们搞强化学习,是不是要对状态进行评估,并依据评估值来让我们的Agent避免进入这一状态。所谓“君子不立危墙之下”,这里的危墙就是对状态的评估。在某一状态往后,Agent可采取的策略是一个随机变量组合,每种策略都会最终产生一个累积回报 G t G_t Gt,那么我们就将这些累积回报的均值表示为我们的状态价值,即 v π ( s ) = E π [ G t ∣ s t = s ] = E π [ ∑ k = 0 ∞ γ k r t + k + 1 ∣ s t = s ] v_\pi\left(s\right)=E_\pi\left[G_t\left|s_t=s\right.\right]=E_\pi\left[\sum_{k=0}^\infty\gamma^kr_{t+k+1}\left|s_t=s\right.\right] vπ(s)=Eπ[Gt∣st=s]=Eπ[∑k=0∞γkrt+k+1∣st=s]。
8. 状态-行为值函数 q π ( s , a ) q_\pi\left(s,a\right) qπ(s,a):
我们上面对状态本身价值进行了评估,但这个还是不够,我们其实更希望得到的是我们在这个状态下干什么,会产生什么样的结果,以及对后续的影响,这才是支持我们进行策略选择的基础。因此,这里引入状态-行为值函数对上述状态和行为对进行评估,具体可表示为: q π ( s , a ) = E π [ G t ∣ s t = s , a t = a ] = E π [ ∑ k = 0 ∞ γ k r t + k + 1 ∣ s t = s , a t = a ] q_\pi\left(s,a\right)=E_\pi\left[G_t\left|s_t=s,a_t=a\right.\right]=E_\pi\left[\sum_{k=0}^\infty\gamma^kr_{t+k+1}\left|s_t=s,a_t=a\right.\right] qπ(s,a)=Eπ[Gt∣st=s,at=a]=Eπ[∑k=0∞γkrt+k+1∣st=s,at=a]。同理,与前面价值函数不同,这个可以认为是对“君子不立危墙之下”这句话整个的评估。可能有童鞋要问,上面的式子为什么还是使用的均值,我理解虽然这一步 a t = a a_t=a at=a确定了,但后续的 a a a还是随机的,因此这里还是要使用均值来进行描述。
以上8个就是强化学习最基本的要素,有了这些,我们下面就可以尝试对强化学习的过程进行描述了。
基本概念篇(一),强化学习基本要素相关推荐
- 【人工智能】Rutgers大学熊辉教授:《易经》如何指导我们做人工智能;这里有一篇深度强化学习劝退文
导读 我们看这个世界主要有两种方式:一种方式是从上往下看世界:另外一种是东方人所擅长的<易经>方法看世界,也就是归纳法,从下往上看世界.<易经>追求三易,不易.变易和简易.大道 ...
- ICLR2020 || 106篇深度强化学习顶会论文汇总
深度强化学习实验室报道 转载自: EndtoEnd.ai 编辑:DeepRL [导读]今年的ICLR大会转到了线上举行,DeepMind和哈佛的研究人员投稿了一篇神经网络控制虚拟小白鼠模的论文十分亮眼 ...
- 【最新重磅整理】82篇AAAI2021强化学习领域论文接收列表
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室&AMiner 编 ...
- 【重磅最新】163篇ICML-2021强化学习领域论文整理汇总(2021.06.07)
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室 来源:整理自https: ...
- ICLR 2019论文投稿近1600篇,强化学习最热门
作者 | 非主流 出品 | AI科技大本营(公众号ID:rgznai100) ICLR 2019 的论文提交已经截止.根据官方消息,本届大会共收到近 1600 篇投稿,相比 ICLR 2018 的 9 ...
- 第九篇:强化学习Q-learning算法 通俗介绍
你好,我是郭震(zhenguo) 今天介绍强化学习第九篇:Q-learning算法 前面我们介绍强化学习基本概念,马尔科夫决策过程,策略迭代和值迭代,这些组成强化学习的基础. 从今天开始逐步介绍常用强 ...
- 必看!52篇深度强化学习收录论文汇总 | AAAI 2020
所有参与投票的 CSDN 用户都参加抽奖活动 群内公布奖项,还有更多福利赠送 来源 | 深度强化学习实验室(ID:Deep-RL) 作者 | DeepRL AAAI 2020 共收到的有效论文投稿超过 ...
- AAAI-2020 || 52篇深度强化学习accept论文汇总
深度强化学习实验室报道 来源:AAAI-2020 作者:DeepRL AAAI 2020 共收到的有效论文投稿超过 8800 篇,其中 7737 篇论文进入评审环节,最终收录数量为 1591 篇,收录 ...
- 【强化学习篇】--强化学习从初识到应用
一.前述 强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or ...
最新文章
- 【转】HashMap、TreeMap、Hashtable、HashSet和ConcurrentHashMap区别
- Java中导入错误的jar所引发的问题
- Linux学习之系统编程篇:使用信号量实现“生产者和消费者模型”
- 在安卓上,微信公众号无法分享到QQ的解决办法之一
- Django-视图层
- Bootstrap 表单的动作按钮
- CSS 制作下拉导航
- 【clickhouse】Application: DB::Exception: Duplicate interserver IO endpoint: DataPartsExchange
- 华为照片在哪个文件夹_华为手机卡顿的罪魁祸首找到了!1秒关闭,手机流畅如丝,多用5年...
- 解决hash冲突的三个方法
- 网络虚拟化基础协议之Geneve
- python常用的一些东西——sys、os等(转)
- 风吹雨PHP多应用授权系统【开源】
- 顶级摄影师的磨皮美白利器Portraiture,支持搭配微设证件大师使用
- 友宝:掘金生活物联网
- Go语言 有缓冲通道、协程池
- mmdetection学习系列(1)——SSD网络
- 房企高周转之殇:恶果显现 减配、质量问题、虚假销售
- python 滤波_[开发技巧]·Python极简实现滑动平均滤波(基于Numpy.convolve)
- Docker部署 IPsec VPN 服务器
热门文章
- Lidar based off-road negative obstacle detection and analysis(论文翻译)
- 易中天品汉代风云人物12:刘邦对手之谜
- Hexo博客配置SSL证书
- 科比球衣退役仪式和演讲6分钟全回顾(中文字幕)
- 网站服务器被黑后多久降权,网站降权了还可以恢复吗,多久能恢复
- 我的小情绪、小失落、小想念
- 36氪WISE 2017:融云斩获年度最具影响力奖
- 《Python语言程序设计》王恺 王志 李涛 机械工业出版社 第8章 多线程与多进程 课后习题答案【强烈推荐】
- 研究生、本科生Java开发、后台、软件工程师秋招春招经验
- Java Virtual Machine:Java语言的一个非常重要的特点就是与平台的无关性