引言

前面已经介绍了两种bandit算法— ϵ \epsilon ϵ-greedy算法和softmax算法。现在我们来总结下这两种算法的共有属性:

  • 两种算法在每一轮选择时,默认都是选择到目前为止最好的臂;

  • 除此之外,算法会尝试去探索一些目前看起来不是最好的臂:
          - ϵ \epsilon ϵ-greedy算法探索的时候完全是随机的。
          -softmax算法探索是基于到当前时刻臂的收益概率。收益概率越高,选择的概率越高。

  • 两种算法都能够通过随着时间动态修改基本参数来实现更好的性能。

这种随机性,或者仅仅考虑收益回报的算法有一个很明显的缺点就是健壮性比较差,很容易受噪音数据影响。本篇要介绍的UCB算法,是一种完全不同的算法。首先,它是完全不使用随机性的;其次,它除了要考虑收益回报外,还要考虑一点,这个收益回报的置信度有多高。
     问题来了,怎么来定义这个置信度呢?这是UCB算法的核心(UCB实Upper Confidence Bounds的首字母缩写)。实际UCB算法包括很多种。本文介绍的只是其中一种。现在,让我们来正式定义这个置信度以及整个UCB算法。
首先,考虑置信后定义的收益回报为:
                  
其中 r s r_s rs​为在s时刻观察到的收益; n i , t n_{i,t} ni,t​为当当前t时刻,臂i被选中的次数。用一句话来描述这个新的收益就是,臂被选中的总次数中,有收益的占比。或者也可以说是收益的一个平均值。
然后,给每个臂赋予一个最终的取值:
                  

其他t为摇臂次数; n i , t n_{i,t} ni,t​为i臂到t次时摇了多少次。公式的后一项衡量的就是置信度,也就是我们对于第一项的回报的估计的有多确信。
最后的UCB算法流程如下:
                  

算法是不是很好理解?

补充:
关于UCB的计算公式,还可以这么理解:
公式右边的第一项,可以称之为“Exploitation Term”; 第二项,可以称之为“Exploration Term”。 为什么? 首先,如果一个臂,到t时刻为止,已经尝试了很多次。那收益(UCB公式右边第一项)越高,越会继续采用。这就是Exploit; 此外,如果一个臂尝试的次数很少,那么UCB右边第二项就会比较高。也就是相对尝试的机会更高。这也就是Exploration。也就是相应也会鼓励去尝试哪些之前尝试的少的臂。
参考:
【1】bandit_algorithms_for_website_optimization
【2】Learning and Optimization for Sequential Decision Making Lecture 3: UCB Algorithm, Worst-Case Regret Bound

bandit算法(3)--UCB算法相关推荐

  1. 【Bandit Algorithms学习笔记】UCB算法的理论证明

    文章目录 前言 算法优势 算法原理 UCB公式 UCB算法流程 相关定理及证明 定理7.1 证明 定理7.2 证明 总结 参考资料 前言 笔者毕设研究的是Bandit问题,因此最近在学习相关的内容,想 ...

  2. MATLAB写UCB算法,科学网—【RL系列】Multi-Armed Bandit问题笔记——UCB策略实现 - 管金昱的博文...

    本篇主要是为了记录UCB策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读Reinforcement Learning: An Introduction ( ...

  3. UCB算法升职记——LinUCB算法

    UCB再回顾 上回书说到,UCB这个小伙子在做EE(Exploit-Explore)的时候表现不错,只可惜啊,是一个不关心组织的上下文无关(context free)bandit算法,它只管埋头干活, ...

  4. 算法实习生学习之路--UCB算法

    前言: 来万物花开这家创业公司实习,也真是一波三折.先实习了三天,每天下午到公司工作到晚上.工作时间是每天下午到晚上9.30.结果每天上午没法用心干实验室的活了,下午在公司工作的时候,总是提心吊胆,手 ...

  5. Monte Carlo蒙特卡洛算法经验与UCB算法与UCT算法

    Monte Carlo方法举例:一个框里有100个苹果,找到其中最大的,闭上眼睛不断随机的从中拿出苹果,若新拿到的比持有的大则换一下,随着抽取苹果的次数变多拿到的苹果的大小会越来越接近最大值.此算法具 ...

  6. 汤普森算法_Eamp;E算法在汽车之家推荐系统中的应用

    总篇99篇 2020年 第23篇 1.简介 推荐系统(Recommender System)是帮助用户发现内容,克服信息过载的重要工具,它主要通过分析用户的行为,对用户进行兴趣建模,从而预测用户的兴趣 ...

  7. 推荐算法面试集锦--算法模型

    youtubeNet和sdm对比 两者均是基于用户历史行为序列进行召回,均采用ANN向量检索的方式.YoutubeNet网络结构更简单,SDM使用长短期兴趣网络结合的方式,采用多头attention机 ...

  8. 条件随机场(CRF) - 4 - 学习方法和预测算法(维特比算法)

    声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了 ...

  9. SURF算法与SIFT算法的性能比较——图像特征点检测与提取算法分析

    图像特征点提取算法的算法研究(SURF和SIFT算法) 1. 摘要 计算机视觉中,很大一部分研究集中在图像特征提取和特征生成算法上.对图像的优化,不同于一般数学问题的优化方法,图像的优化是对像素点,在 ...

最新文章

  1. MPB:北大口腔陈峰、陈智滨等-口腔常见微生物的培养方法
  2. 深入理解分布式技术 - ServiceMesh 服务网格
  3. Java设计流程执行器_Java进阶面试精选系列:SpringMVC+SpringBoot+Hibernate+Mybatis+设计模式...
  4. java poi设置单元格格式为数值_Excel 文本转数值的方法——我找的好苦啊
  5. 一道哈夫曼二叉树题目--稍微容易一点
  6. Supper (Java)
  7. Expert 诊断优化系列------------------你的CPU高么?
  8. 运营前线2:一线运营专家的运营方法、技巧与实践03 3步策略做好内容管理
  9. 老毛子Padavan网段LAN修改
  10. 超声波测距(含报警功能)
  11. Cisco Packet Tracer 实验
  12. 无损数据压缩算法c语言,C语言实现无损压缩算法
  13. 看小伙如何跟反爬抗争到底
  14. win10无法连接windows服务器,无法连接SENS服务
  15. 使用华为手机怎么从网上打印资料?
  16. Unity 导航系统Navigation
  17. ThinkPad笔记本无法调节亮度
  18. Java 16进制求和
  19. 美IT业25大秘密:Facebook耗时一周建成
  20. 大学生应如何防止躺平

热门文章

  1. 常用DNS列表(电信、网通) 转载
  2. 学习HTML心得体会
  3. 2021年Vue 学习目录
  4. Planner 5D 4.1.12 特别版 Mac 家居室内设计软件
  5. 用SASx28 Expander芯片设计SAS扩展卡和存储扩展机箱背板
  6. linux下 openssl证书签发
  7. 华为HCIA-Datacom学习笔记------网络层协议及IP编址------第三篇
  8. java做flv直播服务器_使用nginx搭建点播和直播流媒体服务器的方法步骤
  9. python爬虫实例-运用requests抓取豆瓣电影TOP250(详解)
  10. AR空间音频能力,打造沉浸式声音体验