强化学习笔记一 N-armed bandit Problem

本篇笔记是RL学习的入门，介绍N-armed Bandit问题和解决算法。

N-armed Bandit问题
N-armed Bandit问题出自赌场中的多臂老虎机，在每一步你都有n种选择，每一个选择会给你一定的回报，目标是尽量获得最高的收益。

先定义估计值Qt(a)=(R1+R2+...+RKa)/Ka{Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a}Qt(a)=(R1+R2+...+RKa)/Ka，即为在t步中选择a获得收益的均值。

解决方法分为两类，exploitation和exploration方法。

Exploitation
Greedy方法就是每次取估计值最大的选择，好处是简单，坏处是由于估计值与真实值不相等，所以往往选择的是次优的选择，而且greedy方法没有跳出机制，即会一直困在当前次优选择上，无法选择到最优值。

Exploration
我们将greedy结合一个跳出的机制，即为ϵ−greedy\epsilon-greedyϵ−greedy方法，每次以1−ϵ1-\epsilon1−ϵ的概率取估计值最大的选择，以ϵ\epsilonϵ的概率随机取一个选择。当时间足够长的时候，这种方法表现会比greedy要好。ϵ\epsilonϵ较大时收敛较快，但收敛的值会稍小于optimal value，较小时收敛较慢，但收敛的值会更趋近于optimal value。

另一种结合Exploitation和Exploration的是softmax方法。在t步选择a的概率为
eQt(a)/τ∑i=1neQt(i)/τ\frac{e^{Q_t(a)/\tau}}{\sum_{i=1}^n e^{Q_t(i)/\tau}}∑i=1neQt(i)/τeQt(a)/τ
当τ{\tau}τ趋近1时，softmax变为随机等概率选择；当τ{\tau}τ趋近0时，softmax变为greedy选择。

证明τ{\tau}τ趋近0时，softmax变为greedy选择：

softmax和ϵ−greedy\epsilon-greedyϵ−greedy好坏取决于具体情况。

其他还有很多种方法，例如UCB等等，具体不详细介绍了。

强化学习笔记一 N-armed bandit Problem相关推荐

强化学习笔记：多臂老虎机问题(7)--Gradient Bandit Algorithm
目录 0. 前言 1. 算法原理 2. Python仿真 2.1 函数改造 2.2 softmax() 2.3 改造后的k_armed_bandit_one_run() 2.4 对比仿真 2.5 一点 ...
强化学习笔记：多臂老虎机问题(4)--跟踪非平稳环境
目录 0. 前言 1. 问题描述 2. 练习1 3. 练习2 3.1 k_armed_bandit_one_run()接口扩张 3.2 Comparison in stationary environ ...
强化学习笔记：多臂老虎机问题(2)--Python仿真
目录 0. 前言 1. k_armed_bandit function 2. The first trial 2.1 Optimal selection ratio along the time 2. ...
强化学习笔记：多臂老虎机问题(6)--Upper Confidence Bound
目录 0. 前言 1. 算法原理 2. Python仿真 2.1 k_armed_bandit_one_run()改造 2.2 仿真对比Epsilon-greedy方法和UCB方法 3. 习题 0. ...
【李宏毅深度强化学习笔记】3、Q-learning（Basic Idea）
[李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...
python嵩天课堂笔记_[Python机器学习]强化学习笔记（嵩天礼欣老师mooc第三周）
[Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周) [Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周) 目录强化学习定义马尔科夫决策过程基本元素值函数最优值 ...
142页ICML会议强化学习笔记整理，值得细读
作者 | David Abel 编辑 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) ICML 是 International Conference on Machine L ...
强化学习笔记 DDPG (Deep Deterministic Policy Gradient)
1 总述总体来讲,和actor-critic 差不多,只不过这里用了target network 和experience relay 强化学习笔记 experience replay 经验回放_UQ ...
强化学习笔记：Q_learning （Q-table）示例举例
1 示例介绍在右侧有宝藏,探险者到达宝藏所在的位置,就可以获得奖励比如某一时刻的状态是这个样子的:"-o---T" T 就是宝藏的位置, o 是探索者的位置如果在某个地点 s ...
强化学习笔记：Actor-critic
0 复习由于actor-critic 是 policy gradient 和DQN的一个结合,所以我们先对这两个进行一个简单的复习: 0.1 policy gradient 强化学习笔记:Polic ...

强化学习笔记一 N-armed bandit Problem

强化学习笔记一 N-armed bandit Problem相关推荐

最新文章

热门文章