强化学习笔记一 N-armed bandit Problem
本篇笔记是RL学习的入门,介绍N-armed Bandit问题和解决算法。
N-armed Bandit问题
N-armed Bandit问题出自赌场中的多臂老虎机,在每一步你都有n种选择,每一个选择会给你一定的回报,目标是尽量获得最高的收益。
先定义估计值Qt(a)=(R1+R2+...+RKa)/Ka{Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a}Qt(a)=(R1+R2+...+RKa)/Ka,即为在t步中选择a获得收益的均值。
解决方法分为两类,exploitation和exploration方法。
Exploitation
Greedy方法就是每次取估计值最大的选择,好处是简单,坏处是由于估计值与真实值不相等,所以往往选择的是次优的选择,而且greedy方法没有跳出机制,即会一直困在当前次优选择上,无法选择到最优值。
Exploration
我们将greedy结合一个跳出的机制,即为ϵ−greedy\epsilon-greedyϵ−greedy方法,每次以1−ϵ1-\epsilon1−ϵ的概率取估计值最大的选择,以ϵ\epsilonϵ的概率随机取一个选择。当时间足够长的时候,这种方法表现会比greedy要好。ϵ\epsilonϵ较大时收敛较快,但收敛的值会稍小于optimal value,较小时收敛较慢,但收敛的值会更趋近于optimal value。
另一种结合Exploitation和Exploration的是softmax方法。在t步选择a的概率为
eQt(a)/τ∑i=1neQt(i)/τ\frac{e^{Q_t(a)/\tau}}{\sum_{i=1}^n e^{Q_t(i)/\tau}}∑i=1neQt(i)/τeQt(a)/τ
当τ{\tau}τ趋近1时,softmax变为随机等概率选择;当τ{\tau}τ趋近0时,softmax变为greedy选择。
证明τ{\tau}τ趋近0时,softmax变为greedy选择:
softmax和ϵ−greedy\epsilon-greedyϵ−greedy好坏取决于具体情况。
其他还有很多种方法,例如UCB等等,具体不详细介绍了。
强化学习笔记一 N-armed bandit Problem相关推荐
- 强化学习笔记:多臂老虎机问题(7)--Gradient Bandit Algorithm
目录 0. 前言 1. 算法原理 2. Python仿真 2.1 函数改造 2.2 softmax() 2.3 改造后的k_armed_bandit_one_run() 2.4 对比仿真 2.5 一点 ...
- 强化学习笔记:多臂老虎机问题(4)--跟踪非平稳环境
目录 0. 前言 1. 问题描述 2. 练习1 3. 练习2 3.1 k_armed_bandit_one_run()接口扩张 3.2 Comparison in stationary environ ...
- 强化学习笔记:多臂老虎机问题(2)--Python仿真
目录 0. 前言 1. k_armed_bandit function 2. The first trial 2.1 Optimal selection ratio along the time 2. ...
- 强化学习笔记:多臂老虎机问题(6)--Upper Confidence Bound
目录 0. 前言 1. 算法原理 2. Python仿真 2.1 k_armed_bandit_one_run()改造 2.2 仿真对比Epsilon-greedy方法和UCB方法 3. 习题 0. ...
- 【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)
[李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...
- python嵩天课堂笔记_[Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周)
[Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周) [Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周) 目录 强化学习 定义 马尔科夫决策过程 基本元素 值函数 最优值 ...
- 142页ICML会议强化学习笔记整理,值得细读
作者 | David Abel 编辑 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) ICML 是 International Conference on Machine L ...
- 强化学习笔记 DDPG (Deep Deterministic Policy Gradient)
1 总述 总体来讲,和actor-critic 差不多,只不过这里用了target network 和experience relay 强化学习笔记 experience replay 经验回放_UQ ...
- 强化学习笔记:Q_learning (Q-table)示例举例
1 示例介绍 在右侧有宝藏,探险者到达宝藏所在的位置,就可以获得奖励 比如某一时刻的状态是这个样子的:"-o---T" T 就是宝藏的位置, o 是探索者的位置 如果在某个地点 s ...
- 强化学习笔记:Actor-critic
0 复习 由于actor-critic 是 policy gradient 和DQN的一个结合,所以我们先对这两个进行一个简单的复习: 0.1 policy gradient 强化学习笔记:Polic ...
最新文章
- Google 出品的 Java 编码规范,权威又科学,强烈推荐
- CSL-YOLO | 超越Tiny-YOLO V4,全新设计轻量化YOLO模型实现边缘实时检测!!!
- Windows Server 8 Beta 初体验之三 Active Directory
- 更换YUM及升级包方法
- mount挂载windows共享文件夹
- js轮播图片小圆点变化_原生js实现轮播图(两种方法)
- inconsistent debug frame and source code -Eclipse调试器里看到的代码行数和实际源代码不一致该怎么办
- 深入Java类型信息:RTTI和反射
- include包含头文件的语句中,双引号和尖括号的区别
- sharepoint_study_5
- python灰产_Python进行目录的对比
- 三分钟看Netty(3) select poll VS epoll
- 如何用编程得出泰坦尼克号生还者的年龄段?
- 设计模式学习摘要-抽象工厂
- 遗传算法 python_Python实现入门级遗传算法
- 使用微PE工具箱安装Win7
- 龙芯mips64 Javajdk下载
- 德信计算机真人发声怎么变音乐,文字转语音真人发声 文字转语音制作真人语音广告...
- 【图像融合】基于matlab小波变换图像融合【含Matlab源码 392期】
- Python到底是干啥的?
热门文章
- ROS进阶功能—action通信机制
- cio时代_成功实现数字时代CIO的6条原则
- spring-security实现权限管理
- 查看XBox360的系统版本信息
- 寺庙招聘爆火:月薪15000,五险一金,早九晚五,周末双休,饭菜免费!网友:想出家了......
- 【编程题训练】统计射击比赛成绩
- 【华为机试真题 Python实现】统计射击比赛成绩
- 转载|领英开源TonY:构建在Hadoop YARN上的TensorFlow框架
- Install VirtualBox Guest Additions for elementary os
- JEECG常见问题大全