探索与利用

在强化学习问题中,探索与利用是一对矛盾:探索尝试不同的行为继而收集更多的信息,利用则是做出当前信息下的最佳决定。探索可能会牺牲一些短期利益,通过搜集更多信息而获得较为长期准确的利益估计;利用则侧重于对根据已掌握的信息而做到短期利益最大化。探索不能无止境地进行,否则就牺牲了太多地短期利益进而导致整体利益受损;同时也不能太看重短期利益而忽视一些未探索地可能会带来巨大利益地行为。因此如何平衡探索和利用是强化学习领域地一个课题。
根据探索过程中使用的数据结构,可以将探索分为:依据状态行为空间的探索和参数化搜索。前者针对当前的每一个状态,以一定的算法尝试之前该状态下没有尝试过的行为;后者直接针对参数化的策略函数,表现为尝试不同的参数设置,进而得到具体的行为。
下面结合多臂赌博机实例一步步从理论角度推导得到一个有效的探索应该具备什么特征,随后介绍三类常用的探索方法。

多臂赌博机

多臂赌博机(如下图)是一种博弈类游戏工具,有多个拉杆,游戏时每当拉下一个拉杆后赌博机会随机给一定数额的奖励,游戏者一次只能拉下一个拉杆,每个拉杆的奖励分布时相互独立的,且前后两次拉杆之间的奖励也没有关系。

在这个场景中,赌博机相当于环境,个体拉下某一单臂赌博机的拉杆表示执行了一个特定的行为,赌博机会给出一个即时奖励R,随即该状态序结束。因此多臂赌博机中的一个完整状态序列就由一个行为和一个即时奖励构成,与状态无关。
多臂赌博机可看成是由行为空间和奖励组成的元组<A,R>,假如一个多臂赌博机有 m m m个拉杆,那么行为空间将由 m m m个具体行为组成,每一个行为对应拉下某一个拉杆。个体采取行为 a a a得到的即时奖励 r r r服从一个个体未知的概率分布:

在 t t t时刻,个体从行为空间 A A A中选择一个行为 a t ∈ a_t\in at​∈ A A A,随后环境产生一个即时奖励 r t ∼ r_t\sim rt​∼ R a t R^{a_t} Rat​。
个体可以持续多次的与多臂赌博机进行交互,那么个体每次选择怎样的行为才能最大化来自多臂赌博机的累积奖励( ∑ τ t \sum^t_\tau ∑τt​ r τ r_\tau rτ​)呢?
为了方便描述问题,定义行为价值 Q ( a ) Q(a) Q(a)为采取行为 a a a获得的奖励期望:
假设能够事先知道哪一个拉杆能够给出最大即时奖励,那可以每次只选择对应的那个拉杆。如果用 V ∗ V^* V∗表示这个最优价值, a ∗ a^* a∗表示能够带来最优价值的行为,那么:事实上不可能事先知道拉下哪个拉杆能带来最高奖励,因此每一次拉杆获得的即时奖励都与最优价值 V ∗ V^* V∗存在一定的差距,定义这个差距为后悔值:
没执行一次拉杆行为都会产生一个后悔值 l t l_t lt​,随着拉杆行为的持续进行,将所有的后悔值加起来,形成一个总后悔值:这样最大化累积奖励的问题就可以转化为最小化总后悔值了。同时对分析问题较为简单、直观。上式也可用另一种方式重写。令 N t ( a ) N_t(a) Nt​(a)为到 t t t时刻时已执行行为 a a a的次数, Δ a \Delta_a Δa​为最优价值 V ∗ V^* V∗与行为 a a a对应的价值之间的差,则总后悔值可以表示为:把总后悔值按行为分类统计可以看出,一个好的算法应该尽量减少执行那些价值差距较大的行为的次数。但个体无法知道这个差距具体有多少,可以使用蒙特卡罗评估来得到某行为的近似价值:理论上 V ∗ V^* V∗和 Q ( a ) Q(a) Q(a)由环境动力学确定,因而都是静态的,随着交互次数 t t t的增多,可以认为蒙特卡罗评估得到的行为近似价值( Q ^ t ( a ) \hat{Q}_t(a) Q^​t​(a))越来越接近真实的行为价值( Q ( a ) Q(a) Q(a))。下图为不同探索程度的贪婪策略总后悔值与交互次数的关系:从图中可以看出,对于完全贪婪的探索方法,其总后悔值是线性的,这是因为该探索方法的行为可能会锁死在一个不是最佳的行为上;对于 ϵ − \epsilon- ϵ−贪婪的探索方法,总后悔值也是呈线性增长,这是因为每一个时间步,该探索方法有一定的几率选择最优行为,但同样也有一个固定小的几率采取完全随机的行为,导致总后悔值也呈现与时间之间的线性关系。类似的 s o f t m a x softmax softmax探索方法与此类似。总体来说,如果一个算法永远存在探索或者从不探索,其总后悔值与时间的关系都是线性增长的。而对于衰减 ϵ − \epsilon- ϵ−贪婪方法,其总后悔值与时间是次线性增长的,随着时间的推移总后悔值的增加越来越少。下文将介绍常用的探索方法。

强化学习之探索与利用(一)相关推荐

  1. 强化学习的探索和利用

    一. 简述 在和环境不断交互的过程中,智能体在不同的状态下不停地探索,获取不同的动作的反馈.探索(Exploration)能够帮助智能体通过不断试验获得反馈,利用(Exploitation)是指利用已 ...

  2. 强化学习 之 探索与利用

    一.概念 Exploitation执行能够获得最优收益的策略 Exploration尝试更多可能的策略,不一定会是最优收益可能发现更好的策略 二.策略探索的原则 朴素方法贪心策略和 ϵ-greedy衰 ...

  3. 如何更高效地压缩时序数据?基于深度强化学习的探索

    简介: 随着移动互联网.IoT.5G 等的应用和普及,一步一步地我们走进了数字经济时代.随之而来的海量数据将是一种客观的存在,并发挥出越来越重要的作用.时序数据是海量数据中的一个重要组成部分,除了挖掘 ...

  4. 强化学习初探索——Q-table 举例,附可执行Python代码

    作为一个非专业初学爱好者,在看了一些强化学习教程之后决定从Q-table入门强化学习.我参考的资料很多,个人感觉下边这个链接https://mp.weixin.qq.com/s/34E1tEQMZua ...

  5. 强化学习之基于伪计数的探索算法

    ©作者|王治海 学校|中国科学技术大学硕士生 研究方向|强化学习与机器博弈 强化学习基于智能体与环境的交互,以最大化累积奖励为目标,学习状态到动作的映射(即策略).本文将主要围绕强化学习中的探索问题展 ...

  6. Transformer + RL:是强化学习魔高一尺,还是 Transformer 道高一丈? (1)

    引言:为什么 Transformer 在 RL 上不 work Transformer 最早发源于自然语言处理领域(NLP),以一个非常惊人的标题 "Attention is All You ...

  7. 干货!基于非递减分位数网络的值分布强化学习及其高效探索方法

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 尽管值分布强化学习在过去几年中得到了广泛的研究,但仍然存在两方面未能解决问题:一是如何保证估计出来的分位数函数的有效性,二是如何有效地利 ...

  8. 利用强化学习进行股票操作实战(四)

    本次实战代码仍是在之前基础上进行了一些修改.之前只在一支股票上进行训练,这次我将模型放在多支股票上训练,并在多支股票上进行了测试.对于多支股票的训练策略,没有参考过别人的训练方案(做这个的比较少).我 ...

  9. ACL2020 | 使用强化学习为机器翻译生成对抗样本

    2020-07-12 03:08:49 本文介绍的是 ACL 2020 论文<A Reinforced Generation of Adversarial Examples for Neural ...

最新文章

  1. java都界面相对布局_浏览器的重排和重绘
  2. 几个数判断大小_chemistry three 配合物的配位数
  3. 全球及中国皮肤癌药物行业深度研究及项目可行性调研报告2022-2027年
  4. 黄聪:详解 ManualResetEvent(转)
  5. 校园网自动登录(校园翼行网)
  6. 软件工程期末复习汇总
  7. 第二篇:傅里叶变换与短时傅里叶变换
  8. 向量与矩阵(点线距离与交点)
  9. 生信识图 之 点图基础
  10. 【在线SPSS】搞定数据分析,需要这样的思维方式
  11. --------------------------------------MYSQL批量修改字段类型---------------------------------
  12. 如何学习黑客技术?初级黑客入门
  13. Node.js:fs文件模块的替代品fs-extra
  14. 【机器学习】如何成为当下合格的算法工程师
  15. python之正弦图
  16. 伦敦银实时走势怎么应对
  17. 增大IDEA中Tomcat的内存
  18. 阿里云盘能否革新网盘市场?
  19. 提效客户体验管理:定性研究刻画用户画像
  20. Linux桌面池,24个值得尝试的Linux桌面环境

热门文章

  1. flutter图片上传
  2. IOT数字世界价值论(下)
  3. apache进程数不断增多是什么原因造成的呢?
  4. 博士之死背后异化的师生关系
  5. 那些年啊 那些事 一个程序员的奋斗史 121
  6. [电路]12-回路电流法
  7. 直播软件开发Android直播悬浮窗实现
  8. php lottery,PHP+Ajax+lottery.js抽奖整个流程
  9. 2021观澜二中高考成绩查询,最新深中高考地段生源数据揭秘:站上时代风口,踊追新中心二梯队学区房!...
  10. Unity—“合成大西瓜”小游戏笔记