摘要

1 简介

2 贪婪决策

3 Bernoulli Bandit的汤普森抽样

4 一般汤普森抽样

5 近似抽样

6 建模方面的考虑

7 进一步的例子

8 为何有效，合适失效，替代方法

摘要

本教程涵盖了算法及其应用，通过一系列的例子来说明概念，包括伯努利老虎机问题、最短路径问题、产品分类、推荐、使用神经网络的主动学习和马尔可夫决策过程中的强化学习。

目的：教程的目的是解释什么时候、为什么以及如何应用汤普森抽样。本文使用了一系列的例子来演示如何使用该算法来解决有趣的问题，并清楚地洞察它为什么工作，以及它何时比简单的替代方案带来实质性的好处。本教程还提供了有关Thompson抽样的近似方法的指导，该方法可以简化计算，并提供了一些实用的考虑，如先验分布规范、安全约束和非平稳性。在本教程中，我们还发布了一个Python包，其中再现了本文中所有的实验和图形。

1 简介

多臂老虎机故事背景：

一个赌徒进入赌场，坐在一台老虎机旁，可以拉动多个杠杆或手臂当一只手臂被拉时，它会产生一个独立于过去的随机支付报酬。由于没有列出每个手臂对应的支付报酬分布，玩家只能通过实验来学习。当赌徒了解到手臂的报酬时，她面临一个两难的境地：在不久的将来，她希望通过利用过去产生高额报酬的手臂来赚取更多的收入，但通过继续探索其他手臂，她可能会学会如何在未来赚取更高的报酬。她能否制定出一个循序渐进的策略来平衡这种权衡，并最大限度地增加累积收益？（勘探和开采的基本权衡）

例1 Bernoulli Bandit

假设有K个动作，任何一个动作都会导致成功或者失败。动作k∈{1，…，k}产生成功的概率为0≤θk≤1。成功概率（θ1，…，θk）是未知的，但随着时间的推移是固定的，因此可以通过实验来学习。粗略地说，目标是最大限度地增加T周期内的累积成功次数，其中T相对于K臂的数目相对较大。

这个问题中的“手臂”可能代表可以在网站上显示的不同横幅广告。到达网站的用户会看到网站的不同版本，上面有不同的横幅广告。成功与点击广告或转换（出售广告中的商品）有关。参数θk表示频繁访问网站的用户群体中的点击率或转换率。该网站希望在探索和开发之间取得平衡，以便最大限度地实现成功的总数。

解决这个问题的一种简单方法是，固定时间进行勘探，并在每个这样的时间段内随机均匀地采样一个手臂，同时在其他时间段内选择成功的动作。然而，即使对于上面描述的简单的Bernoulli bandit问题，这种方法也是相当浪费的，对于更复杂的问题，这种方法可能完全失败。

自第二次世界大战以来，决策科学界一直在研究上述伯努利强盗（Bernoulli bandit）这样的问题，因为它们在顺序决策中体现了勘探和开采之间的基本权衡。但是，信息革命带来了重大的新机遇和挑战，近年来这一问题引起了人们特别强烈的兴趣。为了理解这一点，让我们将上面给出的互联网广告示例与选择横幅广告在高速公路上显示的问题进行对比。一个实际的横幅广告可能只会改变一次，每几个月，一次张贴将看到每个人谁开车在路上。实验是有价值的，但数据是有限的，尝试一个潜在的无效广告的成本是巨大的。在网上，一个不同的横幅广告可以在一个庞大的用户池中显示给每个人，并且存储来自每个这样的交互的数据。小规模实验现在是大多数领先互联网公司的核心工具。

我们对这个问题的兴趣是由这个广泛的现象引起的。机器学习越来越多地用于做出快速的数据驱动决策。当有监督机器学习中的标准算法被动地从历史数据中学习时，这些系统通常通过与用户交互来驱动自己的训练数据的生成。例如，在线推荐系统使用历史数据来优化当前的推荐，但是这些推荐的结果会反馈到系统中，并用于改进未来的推荐。因此，在设计算法时，不仅可以从过去的数据中学习，而且可以系统地探索生成有用的数据，从而提高未来的性能，这将带来巨大的潜在好处。在扩展设计用于处理示例1的算法以处理更现实和复杂的决策问题方面存在着重大挑战。要了解其中的一些挑战，请考虑通过实验学习来解决最短路径问题的问题

例2 Online Shortest Path

一个代理人每天早上从家里通勤去上班。她想选择平均出行时间最少的路线通勤，但她不确定不同路线的出行时间。她如何才能有效地学习，并尽量减少总旅行时间在大量的旅行?

我们可以将它形式化为一个最短路径问题，其中图G=（V, E）顶点为V={1，…,N}，边为E。顶点1是源(她的家)，顶点N是终点(单位)。每个顶点可以看作是一个相交点，对于两个顶点i, j∈V，如果有一条直路连接两个相交点，则边(i, j)∈E存在。假设旅行沿着一条边e∈E移动平均需要时间θe。如果这些参数已知，代理将选择一条路径(e1， ..en)组成的一个序列相邻边缘连接顶点1到N,这样的预期总时间θe1 +……+θenis最小化。相反，她选择了一系列周期的路径。在周期t,意识到欧美,埃托奥导线边e是独立于一个分布与平均θe。agent顺序选择一条路径xt，观察到已实现的旅行时间(yt,e)e∈xtalong路径上的每条边，其代价ct=P e∈xtyt,e等于总的旅行时间。通过聪明地探索，她希望将累积的旅行时间减到最少，从而在大量的时间段t中进行

（问题描述）

汤普森抽样适应了这种灵活的建模，并提供了一种优雅和有效的方法来探索广泛的结构化决策问题，包括这里描述的最短路径问题。

汤普森的抽样调查引起了行业从业者和学术界的极大兴趣。这在一定程度上是由两篇有影响力的文章推动的，这两篇文章展示了该算法强大的经验性能[5，6]。在随后的五年里，关于汤普森抽样的文献增长迅速。汤普森抽样的改编现在已经成功地应用于许多领域，包括收入管理[7]、市场营销[8]、蒙特卡罗树搜索[9]、a/B测试[10]、互联网广告[10、11、12]、推荐系统[13]、超参数调整[14]和街机游戏[15]；并已在多家公司中使用，包括微软[10]、谷歌[6，16]、LinkedIn[11，12]、Twitter、Netflix和Adobe。

2 贪婪决策

贪婪算法也许是解决在线决策问题最简单和最常见的方法。为了生成每个动作，我们采取了以下两个步骤：（1）根据历史数据估计一个模型；（2）选择对估计模型最合适的动作，以任意方式断开连接。这样的算法是贪婪的，因为选择一个动作仅仅是为了最大化即时回报。

贪婪算法缺点：不能进行有效搜索，降低性能。

3 Bernoulli Bandit的汤普森抽样

例3 Beta-Bernoulli Bandit

回想一下示例1中的Bernoulli Bandit。有K个动作。当游戏开始时，动作k产生一个概率θ为1的奖励，而概率为1-θk的奖励为零。每个θk可被解释为动作的成功概率或平均奖励。平均回报θ=（θ1，…，θK）未知，但随时间而固定。在第一个周期中，应用一个动作x1，并以成功概率P（r1＝1 | x1，θ）＝θx1生成奖励r1∈{0,1}。在观察r1之后，代理应用另一个动作x2，观察奖励r2，并继续动作。

让代理从每个θk上的独立先验信念开始。假设这些先验是参数α=（α1，…αK）的β分布，和β∈（β1，...，βK）。特别是，对于每个作用k，θk的先验概率密度函数

其中Γ表示伽马函数。随着观测数据的收集，分布将根据Bayes规则进行更新。由于β分布的共轭性质，使用β分布特别方便。特别是，每个动作的后验分布也是β分布，参数可以根据一个简单的规则进行更新

注意，对于αk=βk=1的特殊情况，先验p(θk）在[0,1]上是一致的。请注意，仅更新选定操作的参数。参数（αk，βk）有时被称为伪计数，因为αk 、βk分别随着观察到的成功或失败而增加一个。参数为（αk，βk）的β分布具有平均αk/（αk+βk），且随着αk+βk的增加而更加集中。

法2给出了一个贪婪的beta-Bernoulli-bandit算法。在每个时间段t中，该算法生成一个估计值ˆθk=αk/（αk+βk），等于其当前对成功概率θk的期望值。然后应用具有最大估计值ˆθk的动作xt，然后观察到奖励rt，并更新分布参数αxt和βxt

算法2 展示的是专门针对贝塔-伯努利老虎机的汤普森抽样。唯一的区别是成功概率估计是从后验分布随机抽样的 $\hat{\theta _{k}}$ ，后验分布是参数为αk和βk的β分布，而不是取期望αk/（αk+βk）。为了避免常见的误解，值得强调的是，如果选择动作k，则汤普森采样不从二元值yt的后验分布中采样。特别是， $\hat{\theta _{k}}$ 给出了统计上可信的成功概率，而不是统计上可信的观察。

为了了解汤普森抽样是如何改进贪婪行为的，不管是否有抖动，请回忆一下图2中所示的具有后验分布的三臂Bernoulli bandit。在这种情况下，贪婪的行为会放弃潜在的有价值的行动3的学习机会。在抖动的情况下，探测动作2和3的概率是相等的，尽管探测动作2实际上是徒劳的，因为它不太可能是最优的。另一方面，汤普森抽样将抽样行动1、2或3，概率分别约等于0.82、0和0.18。在每种情况下，这都是为该动作绘制的随机估计值超过为其他动作绘制的随机估计值的概率。由于这些估计是从后验分布中得出的，因此这些概率中的每一个也等于相应作用是最优的概率，条件是观察到的历史。因此，汤普森抽样法探索解决不确定性，如果解决方案有可能帮助代理人确定最佳行动，但避免探索反馈将不会有帮助的地方。

将汤普森抽样的模拟行为与贪婪算法的模拟行为进行比较，具有一定的启发意义。考虑一个平均回报θ1=0.9，θ2=0.8，θ3=0.7的三臂贝努利老虎机。让每个平均奖励的先验分布是一致的。图3绘制了基于每个算法的一万个独立模拟的结果。每个模拟都有一千多个时间段。在每个模拟中，动作都是随机排序的，目的是为了打破联系，这样贪婪算法就不会偏向于选择任何特定的动作。每个数据点表示在特定时间为其选择特定操作的模拟的分数。

从图中我们看到贪婪算法并不总是收敛于最优行动1。这是因为算法会陷入困境，反复应用一个糟糕的操作。例如，假设算法在前两个时间段应用操作3，并且在两个情况下都收到1的奖励。然后，算法将继续选择操作3，因为两个备选方案的预期平均回报保持在0.5。在重复选择动作3的情况下，期望的平均回报收敛到0.7的真实值，这加强了代理人对动作3的承诺。另一方面，汤普森抽样法学习在1000个周期内选择动作1。这一点从汤普森抽样在绝大多数模拟中选择最后阶段的动作1这一事实可以明显看出。

在线决策算法的性能经常通过后悔图进行研究和比较。算法在时间段t上的每个周期的后悔值（per-period-regret）是最优操作的平均回报和该算法选择的操作之间的差值。对于Bernoulli-bandit问题，我们可以把它写成 $regret_t(\theta)=max_k\theta_k-\theta_x_t$ 。图4a描绘了贪婪算法和汤普森抽样实现的每个周期的后悔值，再次平均超过一万个模拟。随着时间的推移，汤普森抽样的平均每周期后悔消失。贪婪算法并非如此。

将算法与固定平均回报进行比较，会引起对结果在多大程度上取决于θ的特定选择的问题。因此，研究θ的合理值上的后悔平均值通常也是有用的。一种自然的方法是从先验分布中抽取θ的多个实例，并为每个实例生成独立的模拟。图4b描绘了平均超过10000个这样的模拟，每个动作奖励的采样独立于每个模拟的统一先验。这些图的定性特征与我们从图4a中推断的相似，尽管图4a中的遗憾相对于图4b来说，在早期阶段通常较小，在后期阶段则较大。早期阶段较小的遗憾是由于θ=（0.9,0.8,0.7）时，平均回报比典型的随机采样θ，因此随机选择动作的遗憾较小。后期时间段的减少也是θ=（0.9,0.8,0.7）的奖励之间接近的结果。在这种情况下，这种差异是由于与典型的随机采样θ相比，它需要更长的时间来区分动作。

例4 独立旅行时间

例5 相关旅行时间

4 一般汤普森抽样

5 近似抽样

讨论四种近似后验抽样的方法:吉布斯抽样、朗之万蒙特卡罗抽样、拉普拉斯近似抽样和自举抽样。

6 建模方面的考虑

7 进一步的例子

7.1产品分类

7.2级联建议

7.3神经网络中的主动学习

7.4马尔可夫决策过程中的强化学习

8 为何有效，合适失效，替代方法

8.1 为何汤普森抽样有效

直观上看，随着信息的收集，会认真跟踪有关对“臂”的回报的信念。通过根据后验概率对行动进行采样，算法继续对所有可能是最优的“臂”进行采样，同时将采样从那些极不可能是最优的“臂”上移开。粗略地说，该算法尝试所有有希望的操作，同时逐渐丢弃那些被认为性能低下的操作。

8.2汤普森抽样的局限性

汤普森抽样是探索广泛问题的一种简单有效的方法，但是启发式方法不能很好地解决所有问题。例如，汤普森抽样肯定不适合那些不需要太多积极探索的顺序学习问题。在这种情况下，通过不投资于昂贵勘探的贪婪算法通常可以提供更好的性能。介绍不适合汤普森抽样的两类问题：

8.2.1时间偏好问题

汤普森抽样有效地减少了收敛于最佳动作所需的勘探成本。但是，在对时间敏感的学习问题中，它的性能可能会较差，在这种情况下，最好是使用高性能的次优动作，而不是投入资源探索可能会稍微改善性能的操作。

在文章中提出并分析了satisficing Thompson sampling，这是汤普森抽样法的一种变体，其目的是最小化勘探成本，以确定一个足够接近最优的行动。

8.2.2需要仔细评估信息增益的问题

8.3替代方法

论文翻译：A Tutorial on Thompson Sampling相关推荐

Introduction to Multi-Armed Bandits——04 Thompson Sampling[2]
Introduction to Multi-Armed Bandits--04 Thompson Sampling[2] 参考资料 Russo D J, Van Roy B, Kazerouni A, ...
分布式系统领域经典论文翻译集
分布式领域论文译序 sql&nosql年代记 SMAQ:海量数据的存储计算和查询一．google论文系列 1. google系列论文译序 2. The anatomy o ...
2015-FCN论文翻译
文章原址文章目录 FCN论文翻译摘要 1. 介绍 2. 相关工作 3. 全卷积网络 3.1 适用分类器用于dense prediction 3.2 Shift-and stitch是滤波稀疏 3. ...
Thompson Sampling(汤普森采样)
1.power socket problem 一个robot快没电了,Robot 进入了一个包含 5 个不同电源插座的充电室.这些插座中的每一个都会返回略有不同的电荷量,我们希望在最短的时间内让 Ba ...
图像分类经典卷积神经网络—ResNet论文翻译（中英文对照版）—Deep Residual Learning for Image Recognition（深度残差学习的图像识别）
图像分类经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为中英文对照版,纯中文版请稳步:[ResNet纯中文版] Deep Residual Learning for Image ...
目标检测经典论文——Fast R-CNN论文翻译（中英文对照版）：Fast R-CNN（Ross Girshick， Microsoft Research（微软研究院））
目标检测经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为纯中文版,中英文对照版请稳步:[Fast R-CNN纯中文版] Fast R-CNN Ross Girshick Mic ...
图像分类经典卷积神经网络—GoogLeNet论文翻译（中英文对照版）—Going Deeper with Convolutions（走向更深的卷积神经网络）
图像分类经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为中英文对照版,纯中文版请稳步:[GoogLeNet纯中文版] Going Deeper with Convolution ...
【论文翻译】GoogleNet网络论文中英对照翻译--（Going deeper with convolutions）
[开始时间]2018.09.25 [完成时间]2018.09.26 [论文翻译]GoogleNet网络论文中英对照翻译--(Going deeper with convolutions) [中文译名] ...
论文翻译 —— Episodic reinforcement learning with associative memory
标题:Episodic reinforcement learning with associative memory 文章链接:Episodic reinforcement learning with ...
图像分类经典卷积神经网络—ResNet论文翻译（纯中文版）—Deep Residual Learning for Image Recognition（深度残差学习的图像识别）
图像分类经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为纯中文版,中英文对照版请稳步:[ResNet中英文对照版] Deep Residual Learning for Ima ...

论文翻译：A Tutorial on Thompson Sampling

摘要

1 简介

2 贪婪决策

3 Bernoulli Bandit的汤普森抽样

4 一般汤普森抽样

5 近似抽样

6 建模方面的考虑

7 进一步的例子

8 为何有效，合适失效，替代方法

论文翻译：A Tutorial on Thompson Sampling相关推荐

最新文章

热门文章