提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、MAB是什么?
  • 二、辅助反馈 auxiliary feedback
    • 3种经典的feedback
  • 三、reward model
    • IID rewards
    • Adversarial rewards
    • constrained adversary
    • random-process rewards
    • structured rewards
  • 总结

前言

本文中的一些参考资料图片来自北京大学前沿计算研究中心李济宸博士的PPT,再次感谢大佬!


提示:以下是本篇文章正文内容,下面案例可供参考

一、MAB是什么?

多臂老虎机问题涉及到概率论,算法分析,强化学习以及博弈论,本质上是一个MDP(Markov decision process)问题,也可以看做是一个多轮的博弈决策过程。常见的类似问题包括网络推荐,动态定价,股票投资等。在这个问题中,每一轮我们会有多种可以选择的action,且涉及到多轮的连续决策,在每次决策后会得到一个reward,奖励是由一些固定的分布来独立产生的。


二、辅助反馈 auxiliary feedback

3种经典的feedback

a. bandit feedback
执行某个action后只能得到在该action下是或否的一个反馈信息
b. partial feedback
执行某个action后能得到其他相关的action的反馈信息,如定价问题中,设定价格为10元,反馈为无人购买,则你可以推断价格高于10元的决策得到的反馈也将是无人购买
c .full feedback
执行某个action后能得到其他所有action的反馈信息,如股票问题


三、reward model

IID rewards

Adversarial rewards

奖励是任意的
(1) oblivious
(2) adaptive

constrained adversary

random-process rewards

类似于强化学习

structured rewards


总结



Hoeffding不等式(霍夫丁不等式):
简单的说,Hoeffding不等式指的是某个事件的真实概率与在伯努利试验中观察到的频率之间的差异。https://blog.csdn.net/qq_43872529/article/details/104362791?utm_source=app 可以参考一下这篇博客

多臂老虎机(Multi-armed Bandit)MAB学习笔记相关推荐

  1. 【科普】强化学习之多臂老虎机问题(bandit算法:softmax,random,UCB)

    本博客上的文章分为两类:一类是科普性文章,以通俗易懂的语言风格介绍专业性的概念及其应用场景(公式极少或没有),适合入门阶段.另一类是专业性文章,在科普阶段上做出详细的专业性数学推导,深刻理解其概念的内 ...

  2. 【Bandit Algorithms学习笔记】UCB算法的理论证明

    文章目录 前言 算法优势 算法原理 UCB公式 UCB算法流程 相关定理及证明 定理7.1 证明 定理7.2 证明 总结 参考资料 前言 笔者毕设研究的是Bandit问题,因此最近在学习相关的内容,想 ...

  3. 强化学习——day12 多臂老虎机问题MAB

    在多臂老虎机(multi-armed bandit,MAB)问题(见图 2-1)中,有一个拥有 根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布 .我们每次拉动其中一根拉杆,就可以从该拉杆对 ...

  4. 强化学习的学习之路(十)_2021-01-10:K臂老虎机介绍及其Python实现

    作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助.这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学 ...

  5. 从多臂老虎机开始学习强化学习中的探索与利用

    从多臂老虎机开始学习强化学习中的探索与利用 \quad 目录 从多臂老虎机开始学习强化学习中的探索与利用 多臂老虎机问题 形式化描述 估计期望奖励 代码实现 策略中的探索与利用 ϵ\epsilonϵ- ...

  6. 多臂老虎机(Multi-armed bandit problem)

    我们会遇到很多选择的场景,如:上哪所大学,学什么专业,去哪家公司,等等.这些选择问题都会让选择困难症患者头大.那么,有什么科学的办法来解决这些问题呢?答案是:有!而且是非常科学的办法,那就是多臂老虎机 ...

  7. Multi-Armed Bandit(MAB)多臂老虎机问题学习笔记

    (17条消息) 推荐系统详解(六)MAB问题_ziqiiii的博客-CSDN博客_上下文多臂强盗(mab)问题 (18条消息) UCB--上界置信算法_电通一枝花的博客-CSDN博客_ucb算法 图例 ...

  8. 强化学习——day31 多臂老虎机MAB的代码实现(Python)

    多臂老虎机MAB的代码实现 2.3 算法基本框架搭建 2.4 epsilon贪心算法 2.4.1 参数为0.01的绘图 2.4.2 不同的参数 2.4.3 值随时间衰减的 epsilon-贪婪算法 2 ...

  9. 强化学习笔记:多臂老虎机问题(7)--Gradient Bandit Algorithm

    目录 0. 前言 1. 算法原理 2. Python仿真 2.1 函数改造 2.2 softmax() 2.3 改造后的k_armed_bandit_one_run() 2.4 对比仿真 2.5 一点 ...

  10. 【强化学习】多臂老虎机——E_greedy、UCB、Gradient Bandit 算法 代码实现

    多臂老虎机 import numpy as np import matplotlib.pyplot as pltclass E_greedy:def __init__(self,arm_num=10, ...

最新文章

  1. Storm【配置项】 - 详细解释
  2. Leetcode 130. 被围绕的区域 (每日一题 20210720 同类型题)
  3. ELK学习3_使用redis+logstash+elasticsearch+kibana快速搭建日志平台
  4. 重学JavaScript深入理解系列(六)
  5. LeetCode 1224. 最大相等频率(哈希)
  6. python3.7怎么安装turtle_python3绘图程序教学:载入和查询Turtle模组(一)
  7. html5创新创业模板,大学生创新创业计划书模板完整版.doc
  8. 统计推断—参数估计—点估计、区间估计、t分布、Z分布
  9. linux怎么卸载home文件系统,Linux系统无法卸载文件系统该怎么办
  10. 双网口设备 网关设置注意事项
  11. 提取pdb氨基酸序列
  12. 00002 用一元钱兑换一分两分五分的硬币,一分两分五分每种至少一枚,共有多少种组合方式,编程实现
  13. Office之word如何去除尾注的横线?
  14. IETester的使用(针对VB.NET视频)
  15. 应届生面试该注意的小技巧
  16. ubuntu mysql mysqldb_告诉你在Ubuntu上安装MySQLdb的方法及命令
  17. apche的log4j.properties和log4j2.xml的配置和使用
  18. C#-初识Hangfire
  19. 字符函数和字符串函数
  20. VirusTotal智能搜索

热门文章

  1. TM1638驱动显示板(8数码管+8LED+8按键)单片机C语言程序(按键功能)
  2. c# 使用Microsoft.Office.Interop.Excel导出文件时提示 兼容性检查
  3. # responses[name] = response
  4. H5接入微信SDK 实现微信支付
  5. windows下System Volume Information Folder文件夹过大的处理
  6. gentoo mysql_gentoo
  7. 给想立志入行网络或已经初入行的朋友的建议
  8. 【第一组】第十三次例会纪要
  9. 程序员数学(4)--几何图形初步
  10. Unity-timeline(时间线)