前言

本文中的一些参考资料图片来自北京大学前沿计算研究中心李济宸博士的PPT，再次感谢大佬！

提示：以下是本篇文章正文内容，下面案例可供参考

一、MAB是什么？

多臂老虎机问题涉及到概率论，算法分析，强化学习以及博弈论，本质上是一个MDP（Markov decision process）问题，也可以看做是一个多轮的博弈决策过程。常见的类似问题包括网络推荐，动态定价，股票投资等。在这个问题中，每一轮我们会有多种可以选择的action，且涉及到多轮的连续决策，在每次决策后会得到一个reward，奖励是由一些固定的分布来独立产生的。

二、辅助反馈 auxiliary feedback

3种经典的feedback

a. bandit feedback
执行某个action后只能得到在该action下是或否的一个反馈信息
b. partial feedback
执行某个action后能得到其他相关的action的反馈信息，如定价问题中，设定价格为10元，反馈为无人购买，则你可以推断价格高于10元的决策得到的反馈也将是无人购买
c .full feedback
执行某个action后能得到其他所有action的反馈信息，如股票问题

三、reward model

IID rewards

Adversarial rewards

奖励是任意的
(1) oblivious
(2) adaptive

constrained adversary

random-process rewards

类似于强化学习

structured rewards

总结

Hoeffding不等式(霍夫丁不等式):
简单的说，Hoeffding不等式指的是某个事件的真实概率与在伯努利试验中观察到的频率之间的差异。https://blog.csdn.net/qq_43872529/article/details/104362791?utm_source=app 可以参考一下这篇博客

多臂老虎机(Multi-armed Bandit)MAB学习笔记相关推荐

【科普】强化学习之多臂老虎机问题（bandit算法：softmax,random,UCB）
本博客上的文章分为两类:一类是科普性文章,以通俗易懂的语言风格介绍专业性的概念及其应用场景(公式极少或没有),适合入门阶段.另一类是专业性文章,在科普阶段上做出详细的专业性数学推导,深刻理解其概念的内 ...
【Bandit Algorithms学习笔记】UCB算法的理论证明
文章目录前言算法优势算法原理 UCB公式 UCB算法流程相关定理及证明定理7.1 证明定理7.2 证明总结参考资料前言笔者毕设研究的是Bandit问题,因此最近在学习相关的内容,想 ...
强化学习——day12 多臂老虎机问题MAB
在多臂老虎机(multi-armed bandit,MAB)问题(见图 2-1)中,有一个拥有根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布 .我们每次拉动其中一根拉杆,就可以从该拉杆对 ...
强化学习的学习之路（十）_2021-01-10:K臂老虎机介绍及其Python实现
作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助.这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学 ...
从多臂老虎机开始学习强化学习中的探索与利用
从多臂老虎机开始学习强化学习中的探索与利用 \quad 目录从多臂老虎机开始学习强化学习中的探索与利用多臂老虎机问题形式化描述估计期望奖励代码实现策略中的探索与利用 ϵ\epsilonϵ- ...
多臂老虎机(Multi-armed bandit problem)
我们会遇到很多选择的场景,如:上哪所大学,学什么专业,去哪家公司,等等.这些选择问题都会让选择困难症患者头大.那么,有什么科学的办法来解决这些问题呢?答案是:有!而且是非常科学的办法,那就是多臂老虎机 ...
Multi-Armed Bandit（MAB）多臂老虎机问题学习笔记
(17条消息) 推荐系统详解(六)MAB问题_ziqiiii的博客-CSDN博客_上下文多臂强盗(mab)问题 (18条消息) UCB--上界置信算法_电通一枝花的博客-CSDN博客_ucb算法图例 ...
强化学习——day31 多臂老虎机MAB的代码实现（Python）
多臂老虎机MAB的代码实现 2.3 算法基本框架搭建 2.4 epsilon贪心算法 2.4.1 参数为0.01的绘图 2.4.2 不同的参数 2.4.3 值随时间衰减的 epsilon-贪婪算法 2 ...
强化学习笔记：多臂老虎机问题(7)--Gradient Bandit Algorithm
目录 0. 前言 1. 算法原理 2. Python仿真 2.1 函数改造 2.2 softmax() 2.3 改造后的k_armed_bandit_one_run() 2.4 对比仿真 2.5 一点 ...
【强化学习】多臂老虎机——E_greedy、UCB、Gradient Bandit 算法代码实现
多臂老虎机 import numpy as np import matplotlib.pyplot as pltclass E_greedy:def __init__(self,arm_num=10, ...

多臂老虎机(Multi-armed Bandit)MAB学习笔记

文章目录

前言