最初步的是ε-Greedy Algorithm,以ε的概率,随机选一个arm, 1-ε的概率选择目前为止(第t次选择)最好的arm。更新Q(a)的公式如下。 其中Nt(a)是选择action - a的次数。

然后是改进的Upper Confidence Bounds。改进的目的是低效率的随机探索;增加探索尚未置信的、uncertainty比较高的arm。也就是说,探索尽可能有潜力的arm。

所以呢,UCB给了一个置信上限,

左边第一项是真实的Q(a), 第二项是到目前第t步的得到的Q,第三项是upper bound Ut(a),它是Nt(a)的函数,Nt(a)是目前为止操作action-a的次数,根据大数定律,N越大,U应该越小。

所以在UCB里,按照如下公式选择方案action:

怎么得到Ut(a)呢, 根据Hoeffding’s Inequality,可知:

u=Ut(a)就是置信上限。如果我们要找到一个上限,使得真实的Q落在预估Q和U内的可能性最大,那么右边指数项就应该尽可能小,另右边的指数项等于p,那么我们可以推到出Ut(a) 的解析式表达:

模型迭代的目标是尽量降低p,假设

,t是步数,也就是说随着步数,p在降低,

那么我们可得UCB1的算法,以及每次选择a的方案:

Bayesian UCB:

在上面的UCB算法里,我们事先不知道奖赏的分布。如果事先知道的话,假设对于每个arm是高斯分布,如图所示,我们可以设置95%置信区间来设定Ut(a),上限为2倍的标准差。

最后讲到thompson采样,和上面一样,假设Q(a)服从beta分布,其实对于点击率模型,每个atcion就是一个二元伯努利模型,

落在[0,1]内。两个参数其实就是点击和落空的次数。

那么,根据先验的α和β,我们可以得到reward的概率及其置信情况。

比如

α = 1 and β = 1; reward概率是0.5,但是不是很确定;

α = 1000 and β = 9000; reward概率是0.1,而且很确定;

那么,Thompson采样,就是在每次t,随机从所有的action

的先验的

里随机抽取一个a,来更新Q(a):

并且根据之后的reward,更新现有的beta分布:

TS算法就是一种Probability matching的实现,因为Q是采样自先验分布的,每个action对应的奖赏概率就是目前认为最优的,当然这都是基于到目前为止已经观测到的事实。

汤普森算法_什么是汤普森采样(Thompson sampling)?相关推荐

  1. 汤普森算法_火箭队闹剧不断!自编算法向NBA申诉:这个公式要在NBA普及!

    众所周知,火箭魔球体系就是起源于莫雷口中的"篮球数字化"!在勇士和火箭G1结束之后,火箭竟然跳出来,用自己整理的一套算法抨击NBA裁判! 学好数学能率领一支NBA球队吗?火箭用现实 ...

  2. Thompson Sampling(汤普森采样)

    1.power socket problem 一个robot快没电了,Robot 进入了一个包含 5 个不同电源插座的充电室.这些插座中的每一个都会返回略有不同的电荷量,我们希望在最短的时间内让 Ba ...

  3. Python_机器学习_算法_第1章_K-近邻算法

    Python_机器学习_算法_第1章_K-近邻算法 文章目录 Python_机器学习_算法_第1章_K-近邻算法 K-近邻算法 学习目标 1.1 K-近邻算法简介 学习目标 1 什么是K-近邻算法 1 ...

  4. 蒙特卡洛粒子滤波定位算法_粒子滤波——来自哈佛的详细的粒子滤波器教程【1】...

    本文原版链接:https://www.seas.harvard.edu/courses/cs281/papers/doucet-johansen.pdf 本文是哈佛大学相关研究人员于2008年发表的一 ...

  5. JS数据结构与算法_链表

    上一篇:JS数据结构与算法_栈&队列 下一篇:JS数据结构与算法_集合&字典 写在前面 说明:JS数据结构与算法 系列文章的代码和示例均可在此找到 上一篇博客发布以后,仅几天的时间竟然 ...

  6. python50种算法_收藏 | 一文洞悉Python必备50种算法(附解析)

    本文是一些机器人算法(特别是自动导航算法)的Python代码合集. 其主要特点有以下三点:选择了在实践中广泛应用的算法:依赖最少:容易阅读,容易理解每个算法的基本思想.希望阅读本文后能对你有所帮助. ...

  7. 推荐算法炼丹笔记:推荐系统采样评估指标及线上线下一致性问题

    本文对于推荐系统中的采样评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点: 在评估推荐算法的效果时,能不采样就不采样! 除了AUC, ...

  8. 深度学习算法和机器学习算法_啊哈! 4种流行的机器学习算法的片刻

    深度学习算法和机器学习算法 Most people are either in two camps: 大多数人都在两个营地中: I don't understand these machine lea ...

  9. 路径规划算法_自动驾驶汽车路径规划算法浅析

    自动驾驶汽车的路径规划算法最早源于机器人的路径规划研究,但是就工况而言却比机器人的路径规划复杂得多,自动驾驶车辆需要考虑车速.道路的附着情况.车辆最小转弯半径.外界天气环境等因素. 本文将为大家介绍四 ...

  10. 大数据算法_【中科大】大数据算法(2020年春季)

    算法与理论是计算机科学的核心领域之一.随着大数据时代的来临,传统的算法理论已经不能很好地解决人工智能. 物联网.工业制造等领域所遇到的实际问题.本门课程主要介绍基于大数据的新型算法技术,如随机采样.数 ...

最新文章

  1. WGCNA加权基因共表达网络分析(1)简介、原理
  2. 人工智能案例TOP50,AI是干出来的,不是吹出来的
  3. 徐科:做IC不外乎PPA,但需要成百上千的专家合作 投入数千万
  4. WCF第一个Demo
  5. 用C语言实现linux的ping,用C语言实现Ping程序功能
  6. Python Django Q查询和F查询API
  7. android保持数据库,android – 保持Firebase实时数据库中的数据始终保持同步
  8. java正则匹配双字节_Java 正则表达式详解(二)
  9. 十六进制转换成字符串——CRC
  10. VTK中导入并显示STL、3DS文件
  11. python实现自动打电话软件_电销自动打电话app
  12. 3.Python标准库—math库的使用
  13. Ramdisk(内存盘)虚拟磁盘设置使用
  14. Redis的scan命令
  15. Androd 基本布局(其一)
  16. KNEEL: Knee Anatomical Landmark Localization Using Hourglass Networks
  17. D-OJ刷题日记:一元多项式的运算 题目编号:463
  18. 十年一轮回,不再设限
  19. 联阿里接腾讯,B站如何实现“意义非凡”的一年
  20. App Inventor 微数据库记录分数并排序

热门文章

  1. 你可能不知道的21个PS技巧
  2. Bottled Water: 实时集成postgresql与kafka
  3. windows任务栏IDEA图标变白色快速解决方法
  4. 测试人生 | 转行测试开发,4年4“跳”年薪涨3倍,我的目标是星辰大海(附大厂面经)!
  5. Android Manager之SensorManager---距离传感器
  6. Raspberry Pi 上手准备
  7. 计算机excel表格教程高级筛选6,#excel如何进行高级筛选?#excle高级筛选6
  8. 线程池java submit,详解线程池execute和submit用法
  9. centos7 播放网页flash视频
  10. 【计算机组织与体系结构】实验三:流水线处理器