如果想理解汤普森采样算法,就必须先熟悉了解贝塔分布。

一、Beta(贝塔)分布

Beta分布是一个定义在[0,1]区间上的连续概率分布族,它有两个正值参数,称为形状参数,一般用α和β表示,Beta分布的概率密度函数形式如下:

这里的Γ表示gamma函数。

Beta分布的均值是:

方差:

Beta分布的图形(概率密度函数):

从Beta分布的概率密度函数的图形我们可以看出,Beta分布有很多种形状,但都是在0-1区间内,因此Beta分布可以描述各种0-1区间内的形状(事件)。因此,它特别适合为某件事发生或者成功的概率建模。同时,当α=1,β=1的时候,它就是一个均匀分布。

贝塔分布主要有 α和 β两个参数,这两个参数决定了分布的形状,从上图及其均值和方差的公式可以看出:

1)α/(α+β)也就是均值,其越大,概率密度分布的中心位置越靠近1,依据此概率分布产生的随机数也多说都靠近1,反之则都靠近0。

2)α+β越大,则分布越窄,也就是集中度越高,这样产生的随机数更接近中心位置,从方差公式上也能看出来。

二、举例理解Beta分布

贝塔分布可以看作是一个概率的分布,当我们不知道一个东西的具体概率是多少时,它给出了所有概率出现的可能性大小,可以理解为概率的概率分布。

以棒球为例子:

  棒球运动的一个指标就是棒球击球率,就是用一个运动员击中的球数除以总的击球数,一般认为0.27是一个平均的击球水平,如果击球率达到0.3就会认为非常优秀了。如果我们要预测一个棒球运动员,他整个赛季的棒球击球率,怎么做呢?你可以直接计算他目前的棒球击球率,用击中数除以击球数。但是,这在赛季开始阶段时是很不合理的。假如这个运动员就打了一次,还中了,那么他的击球率就是100%;如果没中,那么就是0%,甚至打5、6次的时候,也可能运气爆棚全中击球率100%,或者运气很糟击球率0%,所以这样计算出来的击球率是不合理也是不准确的。

为什么呢?

当运动员首次击球没中时,没人认为他整个赛季都会一次不中,所以击球率不可能为0。因为我们有先验期望,根据历史信息,我们知道击球率一般会在0.215到0.36之间。如果一个运动员一开始打了几次没中,那么我们知道他可能最终成绩会比平均稍微差一点,但是一般不可能会偏离上述区间,更不可能为0。

  如何解决呢?

一个最好的方法来表示这些先验期望(统计中称为先验(prior))就是贝塔分布,表示在运动员打球之前,我们就对他的击球率有了一个大概范围的预测。假设我们预计运动员整个赛季的击球率平均值大概是0.27左右,范围大概是在0.21到0.35之间。那么用贝塔分布来表示,我们可以取参数 α=81,β=219,因为α/(α+β)=0.27,图形分布也主要集中在0.21~0.35之间,非常符合经验值,也就是我们在不知道这个运动员真正击球水平的情况下,我们先给一个平均的击球率的分布。

假设运动员一次击中,那么现在他本赛季的记录是“1次打中;1次打击”。那么我们更新我们的概率分布,让概率曲线做一些移动来反应我们的新信息。

         Beta(α0+hits,β0+misses)

注:α0,β0是初始化参数,也就是本例中的81,219。hits表示击中的次数,misses表示未击中的次数。

击中一次,则新的贝塔分布为Beta(81+1,219),一次并不能反映太大问题,所以在图形上变化也不大,不画示意图了。然而,随着整个赛季运动员逐渐进行比赛,这个曲线也会逐渐移动以匹配最新的数据。由于我们拥有了更多的数据,因此曲线(击球率范围)会逐渐变窄。假设赛季过半时,运动员一共打了300次,其中击中100次。那么新的贝塔分布是Beta(81+100,219+200),如下图:

可以看出,曲线更窄而且往右移动了(击球率更高),由此我们对于运动员的击球率有了更好的了解。新的贝塔分布的期望值为0.303,比直接计算100/(100+200)=0.333要低,是比赛季开始时的预计0.27要高,所以贝塔分布能够抛出掉一些偶然因素,比直接计算击球率更能客观反映球员的击球水平。

总结:

这个公式就相当于给运动员的击中次数添加了“初始值”,相当于在赛季开始前,运动员已经有81次击中219次不中的记录。 因此,在我们事先不知道概率是什么但又有一些合理的猜测时,贝塔分布能够很好地表示为一个概率的分布。

 三、汤普森采样

汤普森采样的背后原理正是上述所讲的Beta分布,你把贝塔分布的 a 参数看成是推荐后用户点击的次数,把分布的 b 参数看成是推荐后用户未点击的次数,则汤普森采样过程如下:

  1、取出每一个候选对应的参数 a 和 b;
  2、为每个候选用 a 和 b 作为参数,用贝塔分布产生一个随机数;
  3、按照随机数排序,输出最大值对应的候选;
  4、观察用户反馈,如果用户点击则将对应候选的 a 加 1,否则 b 加 1;

注:实际上在推荐系统中,要为每一个用户都保存一套参数,比如候选有 m 个,用户有 n 个,那么就要保存 2 m n个参数。

汤普森采样为什么有效呢?

1)如果一个候选被选中的次数很多,也就是 a+b 很大了,它的分布会很窄,换句话说这个候选的收益已经非常确定了,就是说不管分布中心接近0还是1都几乎比较确定了。用它产生随机数,基本上就在中心位置附近,接近平均收益。

2)如果一个候选不但 a+b 很大,即分布很窄,而且 a/(a+b) 也很大,接近 1,那就确定这是个好的候选项,平均收益很好,每次选择很占优势,就进入利用阶段。反之则有可能平均分布比较接近与0,几乎再无出头之日

3)如果一个候选的 a+b 很小,分布很宽,也就是没有被选择太多次,说明这个候选是好是坏还不太确定,那么分布就是跳跃的,这次可能好,下次就可能坏,也就是还有机会存在,没有完全抛弃。那么用它产生随机数就有可能得到一个较大的随机数,在排序时被优先输出,这就起到了前面说的探索作用。

python代码实现:

choice = numpy.argmax(pymc.rbeta(1 + self.wins, 1 + self.trials - self.wins))

转载于:https://www.cnblogs.com/gczr/p/11220187.html

推荐算法之Thompson(汤普森)采样相关推荐

  1. Thompson Sampling(汤普森采样)

    1.power socket problem 一个robot快没电了,Robot 进入了一个包含 5 个不同电源插座的充电室.这些插座中的每一个都会返回略有不同的电荷量,我们希望在最短的时间内让 Ba ...

  2. 【算法】如何根据算法在赌场发家致富?汤普森采样之多臂强盗算法!

    汤普森采样-Thompson Sampling 之概念篇 关键词:机器学习,在线学习,人工智能,强化学习 如果你已经熟悉了概念可以直接看代码篇: [算法应用]Thompson Sampling–汤普森 ...

  3. 推荐算法炼丹笔记:推荐系统采样评估指标及线上线下一致性问题

    本文对于推荐系统中的采样评估指标进行了讨论,内容略多, 还有一些数学推导, 有兴趣的可以去阅读文末给出的原始论文链接, 此处直接列出核心观点: 在评估推荐算法的效果时,能不采样就不采样! 除了AUC, ...

  4. 有粉丝想转行推荐算法,我觉得......

    最近公众号后台收到一个读者的留言,他在某手机厂商做CV开发工作,想转行推荐系统,让我拿拿主意. 从前途角度考虑,我是非常建议的. 1 大厂必备核心--推荐系统 从商业角度来讲,互联网主要起到平台作用, ...

  5. 【限时】推荐算法工程师培养计划

    由于近些年深度学习技术的飞速发展,大力加速推动了AI在互联网以及传统各个行业的商业化落地,其中,推荐系统.计算广告等领域彰显的尤为明显.由于推荐系统与提升用户量以及商业化变现有着密不可分的联系,各大公 ...

  6. 如何通俗理解 beta分布、汤普森采样和狄利克雷分布

    如果想理解汤普森采样算法,就必须先熟悉了解贝塔分布. 一次伯努利实验(比如扔硬币,二元变量)叫做伯努利分布(Bernoulli distribution).多次伯努利实验叫做二项式分布(Binomia ...

  7. 【推荐算法】探索与利用

    "探索与利用"机制是在"探索新数据"和"利用旧数据"之间进行平衡,使系统既能够利用旧数据进行推荐,达到推荐系统的商业目标,又能高效地探索冷启 ...

  8. 【实践】信息流推荐算法实践 深入

    0 文章转自: https://blog.csdn.net/dengxing1234/article/details/79756265 一. 背景 负责信息流推荐系统后台算法的工作也有一段时间,从零开 ...

  9. 如何看待2021年秋招推荐算法岗灰飞烟灭?

    由于近些年深度学习技术的飞速发展,大力加速推动了AI在互联网以及传统各个行业的商业化落地,其中,推荐系统.计算广告等领域彰显的尤为明显.由于推荐系统与提升用户量以及商业化变现有着密不可分的联系,各大公 ...

  10. 论文解读 | 微信看一看实时Look-alike推荐算法

    作者丨gongyouliu 编辑丨lily 来源 | 授权转载自大数据与人工智能(ID:ai-big-data) 微信看一看的精选文章推荐(见下面图1)大家应该都用过,微信团队在今年发表了一篇文章来专 ...

最新文章

  1. Java状态模式实现工作流_关于使用“状态模式”做工作流概要。
  2. fileupload java_java组 fileupload
  3. 样式篇之如何实现合并单元格效果 【转】
  4. N个Java开发常用规范技巧总结
  5. 3ds Max 2018 在安装后无法启动或出现不稳定
  6. Mybatis面试题-日更
  7. hosts文件作用及如何修改hosts文件
  8. html如何实现雪花飘落,如何使用HTML5 canvas实现雪花飘落
  9. 局域网中工作组和域之间的区别
  10. 作物产量常用的单位换算公式
  11. LeetCode 834
  12. linux下DNW用法
  13. 一个即将走向社会的软件技术专业学生的感想
  14. Mob免费短信验证初探
  15. 12.4 C++常引用
  16. 昨天是运气不好 今天是心情不好
  17. iOS 获取汉字的拼音 CFStringTransform
  18. java文档生成器命令,重要概念一网打尽!
  19. 实现KTV效果:播放歌曲,录音(存储录音文件),并同步播放录音 解释4.3以上audio与media资源冲突问题
  20. 使用xml的时候出现org.eclipse.emf.ecore.xmi.FeatureNotFoundException: Feature 'context-parm' not found.

热门文章

  1. IE7绿色版下载-转载
  2. B2C是什么意思?什么是B2C
  3. 从3D ToF到智能座舱系统方案,英飞凌如何赋能未来出行?
  4. HLS第十二课(bayer photo)
  5. 说的特别好的一句话,送给每一个热爱编程的人
  6. android apk很大,从Android Studio生成的Apk文件太大
  7. 手把手教你mockjs实际项目快速搭建
  8. 解决visio对象在word中显示不全的问题
  9. Echarts 修改地图的标示
  10. 交换机的原理及其配置(一)