bandit算法（3）--UCB算法

引言

前面已经介绍了两种bandit算法— ϵ \epsilon ϵ-greedy算法和softmax算法。现在我们来总结下这两种算法的共有属性：

两种算法在每一轮选择时，默认都是选择到目前为止最好的臂；
除此之外，算法会尝试去探索一些目前看起来不是最好的臂：
- ϵ \epsilon ϵ-greedy算法探索的时候完全是随机的。
-softmax算法探索是基于到当前时刻臂的收益概率。收益概率越高，选择的概率越高。
两种算法都能够通过随着时间动态修改基本参数来实现更好的性能。

这种随机性，或者仅仅考虑收益回报的算法有一个很明显的缺点就是健壮性比较差，很容易受噪音数据影响。本篇要介绍的UCB算法，是一种完全不同的算法。首先，它是完全不使用随机性的；其次，它除了要考虑收益回报外，还要考虑一点，这个收益回报的置信度有多高。
     问题来了，怎么来定义这个置信度呢？这是UCB算法的核心（UCB实Upper Confidence Bounds的首字母缩写）。实际UCB算法包括很多种。本文介绍的只是其中一种。现在，让我们来正式定义这个置信度以及整个UCB算法。
首先，考虑置信后定义的收益回报为：

其中 r s r_s rs为在s时刻观察到的收益； n i , t n_{i,t} ni,t为当当前t时刻，臂i被选中的次数。用一句话来描述这个新的收益就是，臂被选中的总次数中，有收益的占比。或者也可以说是收益的一个平均值。
然后，给每个臂赋予一个最终的取值：

其他t为摇臂次数； n i , t n_{i,t} ni,t为i臂到t次时摇了多少次。公式的后一项衡量的就是置信度，也就是我们对于第一项的回报的估计的有多确信。
最后的UCB算法流程如下：

算法是不是很好理解？

补充：
关于UCB的计算公式，还可以这么理解：
公式右边的第一项，可以称之为“Exploitation Term”；第二项，可以称之为“Exploration Term”。为什么？首先，如果一个臂，到t时刻为止，已经尝试了很多次。那收益（UCB公式右边第一项）越高，越会继续采用。这就是Exploit; 此外，如果一个臂尝试的次数很少，那么UCB右边第二项就会比较高。也就是相对尝试的机会更高。这也就是Exploration。也就是相应也会鼓励去尝试哪些之前尝试的少的臂。
参考：
【1】bandit_algorithms_for_website_optimization
【2】Learning and Optimization for Sequential Decision Making Lecture 3: UCB Algorithm, Worst-Case Regret Bound

bandit算法（3）--UCB算法相关推荐

【Bandit Algorithms学习笔记】UCB算法的理论证明
文章目录前言算法优势算法原理 UCB公式 UCB算法流程相关定理及证明定理7.1 证明定理7.2 证明总结参考资料前言笔者毕设研究的是Bandit问题,因此最近在学习相关的内容,想 ...
MATLAB写UCB算法,科学网—【RL系列】Multi-Armed Bandit问题笔记——UCB策略实现 - 管金昱的博文...
本篇主要是为了记录UCB策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读Reinforcement Learning: An Introduction ( ...
UCB算法升职记——LinUCB算法
UCB再回顾上回书说到,UCB这个小伙子在做EE(Exploit-Explore)的时候表现不错,只可惜啊,是一个不关心组织的上下文无关(context free)bandit算法,它只管埋头干活, ...
算法实习生学习之路--UCB算法
前言: 来万物花开这家创业公司实习,也真是一波三折.先实习了三天,每天下午到公司工作到晚上.工作时间是每天下午到晚上9.30.结果每天上午没法用心干实验室的活了,下午在公司工作的时候,总是提心吊胆,手 ...
Monte Carlo蒙特卡洛算法经验与UCB算法与UCT算法
Monte Carlo方法举例:一个框里有100个苹果,找到其中最大的,闭上眼睛不断随机的从中拿出苹果,若新拿到的比持有的大则换一下,随着抽取苹果的次数变多拿到的苹果的大小会越来越接近最大值.此算法具 ...
汤普森算法_Eamp;E算法在汽车之家推荐系统中的应用
总篇99篇 2020年第23篇 1.简介推荐系统(Recommender System)是帮助用户发现内容,克服信息过载的重要工具,它主要通过分析用户的行为,对用户进行兴趣建模,从而预测用户的兴趣 ...
推荐算法面试集锦--算法模型
youtubeNet和sdm对比两者均是基于用户历史行为序列进行召回,均采用ANN向量检索的方式.YoutubeNet网络结构更简单,SDM使用长短期兴趣网络结合的方式,采用多头attention机 ...
条件随机场(CRF) - 4 - 学习方法和预测算法(维特比算法)
声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了 ...
SURF算法与SIFT算法的性能比较——图像特征点检测与提取算法分析
图像特征点提取算法的算法研究(SURF和SIFT算法) 1. 摘要计算机视觉中,很大一部分研究集中在图像特征提取和特征生成算法上.对图像的优化,不同于一般数学问题的优化方法,图像的优化是对像素点,在 ...

bandit算法（3）--UCB算法

引言

bandit算法（3）--UCB算法相关推荐

最新文章

热门文章