本篇笔记是RL学习的入门,介绍N-armed Bandit问题和解决算法。

N-armed Bandit问题
N-armed Bandit问题出自赌场中的多臂老虎机,在每一步你都有n种选择,每一个选择会给你一定的回报,目标是尽量获得最高的收益。

先定义估计值Qt(a)=(R1+R2+...+RKa)/Ka{Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a}Qt​(a)=(R1​+R2​+...+RKa​​)/Ka​,即为在t步中选择a获得收益的均值。

解决方法分为两类,exploitation和exploration方法。

Exploitation
Greedy方法就是每次取估计值最大的选择,好处是简单,坏处是由于估计值与真实值不相等,所以往往选择的是次优的选择,而且greedy方法没有跳出机制,即会一直困在当前次优选择上,无法选择到最优值。

Exploration
我们将greedy结合一个跳出的机制,即为ϵ−greedy\epsilon-greedyϵ−greedy方法,每次以1−ϵ1-\epsilon1−ϵ的概率取估计值最大的选择,以ϵ\epsilonϵ的概率随机取一个选择。当时间足够长的时候,这种方法表现会比greedy要好。ϵ\epsilonϵ较大时收敛较快,但收敛的值会稍小于optimal value,较小时收敛较慢,但收敛的值会更趋近于optimal value。

另一种结合Exploitation和Exploration的是softmax方法。在t步选择a的概率为
eQt(a)/τ∑i=1neQt(i)/τ\frac{e^{Q_t(a)/\tau}}{\sum_{i=1}^n e^{Q_t(i)/\tau}}∑i=1n​eQt​(i)/τeQt​(a)/τ​
当τ{\tau}τ趋近1时,softmax变为随机等概率选择;当τ{\tau}τ趋近0时,softmax变为greedy选择。

证明τ{\tau}τ趋近0时,softmax变为greedy选择:

softmax和ϵ−greedy\epsilon-greedyϵ−greedy好坏取决于具体情况。

其他还有很多种方法,例如UCB等等,具体不详细介绍了。

强化学习笔记一 N-armed bandit Problem相关推荐

  1. 强化学习笔记:多臂老虎机问题(7)--Gradient Bandit Algorithm

    目录 0. 前言 1. 算法原理 2. Python仿真 2.1 函数改造 2.2 softmax() 2.3 改造后的k_armed_bandit_one_run() 2.4 对比仿真 2.5 一点 ...

  2. 强化学习笔记:多臂老虎机问题(4)--跟踪非平稳环境

    目录 0. 前言 1. 问题描述 2. 练习1 3. 练习2 3.1 k_armed_bandit_one_run()接口扩张 3.2 Comparison in stationary environ ...

  3. 强化学习笔记:多臂老虎机问题(2)--Python仿真

    目录 0. 前言 1. k_armed_bandit function 2. The first trial 2.1 Optimal selection ratio along the time 2. ...

  4. 强化学习笔记:多臂老虎机问题(6)--Upper Confidence Bound

    目录 0. 前言 1. 算法原理 2. Python仿真 2.1 k_armed_bandit_one_run()改造 2.2  仿真对比Epsilon-greedy方法和UCB方法 3. 习题 0. ...

  5. 【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)

    [李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...

  6. python嵩天课堂笔记_[Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周)

    [Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周) [Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周) 目录 强化学习 定义 马尔科夫决策过程 基本元素 值函数 最优值 ...

  7. 142页ICML会议强化学习笔记整理,值得细读

    作者 | David Abel 编辑 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) ICML 是 International Conference on Machine L ...

  8. 强化学习笔记 DDPG (Deep Deterministic Policy Gradient)

    1 总述 总体来讲,和actor-critic 差不多,只不过这里用了target network 和experience relay 强化学习笔记 experience replay 经验回放_UQ ...

  9. 强化学习笔记:Q_learning (Q-table)示例举例

    1 示例介绍 在右侧有宝藏,探险者到达宝藏所在的位置,就可以获得奖励 比如某一时刻的状态是这个样子的:"-o---T" T 就是宝藏的位置, o 是探索者的位置 如果在某个地点 s ...

  10. 强化学习笔记:Actor-critic

    0 复习 由于actor-critic 是 policy gradient 和DQN的一个结合,所以我们先对这两个进行一个简单的复习: 0.1 policy gradient 强化学习笔记:Polic ...

最新文章

  1. Google 出品的 Java 编码规范,权威又科学,强烈推荐
  2. CSL-YOLO | 超越Tiny-YOLO V4,全新设计轻量化YOLO模型实现边缘实时检测!!!
  3. Windows Server 8 Beta 初体验之三 Active Directory
  4. 更换YUM及升级包方法
  5. mount挂载windows共享文件夹
  6. js轮播图片小圆点变化_原生js实现轮播图(两种方法)
  7. inconsistent debug frame and source code -Eclipse调试器里看到的代码行数和实际源代码不一致该怎么办
  8. 深入Java类型信息:RTTI和反射
  9. include包含头文件的语句中,双引号和尖括号的区别
  10. sharepoint_study_5
  11. python灰产_Python进行目录的对比
  12. 三分钟看Netty(3) select poll VS epoll
  13. 如何用编程得出泰坦尼克号生还者的年龄段?
  14. 设计模式学习摘要-抽象工厂
  15. 遗传算法 python_Python实现入门级遗传算法
  16. 使用微PE工具箱安装Win7
  17. 龙芯mips64 Javajdk下载
  18. 德信计算机真人发声怎么变音乐,文字转语音真人发声 文字转语音制作真人语音广告...
  19. 【图像融合】基于matlab小波变换图像融合【含Matlab源码 392期】
  20. Python到底是干啥的?

热门文章

  1. ROS进阶功能—action通信机制
  2. cio时代_成功实现数字时代CIO的6条原则
  3. spring-security实现权限管理
  4. 查看XBox360的系统版本信息
  5. 寺庙招聘爆火:月薪15000,五险一金,早九晚五,周末双休,饭菜免费!网友:想出家了......
  6. 【编程题训练】统计射击比赛成绩
  7. 【华为机试真题 Python实现】统计射击比赛成绩
  8. 转载|领英开源TonY:构建在Hadoop YARN上的TensorFlow框架
  9. Install VirtualBox Guest Additions for elementary os
  10. JEECG常见问题大全