The Best of Many Worlds_ Dual Mirror Descent for Online Allocation Problems

摘要

具有资源约束的在线分配问题是收益管理和在线广告的核心问题。在这些问题中，请求在有限的范围内按顺序到达，对于每个请求，决策者需要选择一个消耗一定数量资源并产生奖励的动作。目标是在限制资源总消耗的情况下最大化累积奖励。在本文中，我们考虑了一个数据驱动的设置，其中每个请求的奖励和资源消耗是使用决策者未知的输入模型生成的。
我们设计了一类通用算法，可以在各种输入模型中获得良好的性能，而无需知道它们所面临的输入类型。特别是，我们的算法在独立和同分布的输入以及各种非平稳随机输入模型下是渐近最优的，并且当输入是对抗性时，它们获得了渐近最优的固定竞争比率。我们的算法在拉格朗日对偶空间中运行：它们为使用在线镜像下降更新的每个资源维护一个对偶乘数。通过相应地选择参考函数，我们恢复了对偶次梯度下降和对偶乘法权重更新算法。与在线分配问题的现有方法相比，所得算法简单、快速，并且不需要收益函数、消费函数和动作空间的凸性。我们讨论了网络收益管理、预算限制下重复拍卖中的在线竞标、高熵在线比例匹配以及有限库存下的个性化分类优化的应用。
关键词：在线分配问题，数据驱动算法，双镜像下降，非凸性，非平稳性，随机输入，对抗性输入。

1 引言

收益管理和在线广告的一个核心问题是受资源限制的请求的在线分配。例如，在收益管理中，酒店和当对房间或航班的请求到达时，航空公司需要决定是接受还是拒绝请求（Talluri 和 van Ryzin，2004 年）。在搜索广告中，每次用户进行搜索时，搜索引擎都有机会在自然搜索结果旁边显示广告（Mehta 等，2007）。对于每个到达的用户，网站从有兴趣展示广告的各个广告商那里收集出价，然后需要实时决定向用户展示哪个广告。
这样的决定并不是孤立地做出的，因为资源是有限的：酒店的房间数量有限，飞机的座位数量有限，广告商的预算有限。
在本文中，我们研究了具有非线性奖励函数、非线性消费函数和潜在积分动作空间的分配问题。请求在有限的范围内按顺序到达，对于每个请求，决策者需要选择一个消耗一定数量资源并产生奖励的动作。决策者的目标是在限制资源总消耗的情况下最大化累积奖励。每个请求的奖励和资源消耗函数由决策者在做出决策之前学习。例如，航空公司在决定是否出售机票之前知道消费者要求的票价，搜索引擎在决定展示哪个广告之前知道广告商的出价。然而，决策者在未来请求到达之前无法观察它们的奖励和消费函数。因此，我们考虑一个数据驱动的设置，其中每个请求的奖励和资源消耗函数是从决策者未知的输入模型生成的。
本文的目的是设计算法，在事后诸葛亮（也称为离线优化）的情况下，相对于最佳分配获得良好的性能。特别是，我们的目标是设计快速且鲁棒的算法，在各种输入模型上的通用在线分配问题上获得渐近良好的性能，同时忽略输入模型，即事先不知道他们所面临的输入模型。在这样做的过程中，我们希望设计出能够实现“多”世界中最好的算法。
1.1 主要贡献
我们设计了一类在拉格朗日对偶空间中运行的通用算法，并提供了一个灵活的框架来分析它们在各种设置下的性能。
如果事先知道最优对偶变量，决策者原则上可以使用这些对偶变量对资源进行定价并跨时间段分解问题。在实践中，然而，最优对偶变量取决于整个请求序列，决策者事先并不知道。我们的算法通过为每个资源维护一个双重乘数来规避这个问题，该双重乘数在每次请求后使用在线镜像下降进行更新。然后使用估计的对偶变量作为消耗资源的机会成本的代理来采取行动。通过相应地选择镜像下降中的参考函数，我们恢复了对偶次梯度下降和对偶乘法权重更新，这是实践中使用的两种流行算法。此外，我们的分析可以很容易地扩展到研究其他在线对偶算法。
从计算的角度来看，我们的算法是高效的；在许多情况下，对偶变量可以在每次请求后以线性时间更新。这与大多数现有算法形成鲜明对比，后者需要定期解决大型凸优化问题或了解值基准的界限（参见第 1.2 节的文献综述）。在许多应用中，例如在线广告，需要在几毫秒内做出大量决策，解决大型优化问题在操作上是不可行的。
我们的算法对奖励函数、消费函数和动作空间的要求最低。虽然以前关于该主题的大多数工作都需要线性或凹奖励函数和决策变量中的线性消耗，但我们的分析是灵活的，适用于非凹奖励函数、非线性消耗函数和积分动作空间（参见第 2.3 节细节）。这种灵活性使我们能够处理更多的应用程序，例如分类优化，而无需引入指数数量的辅助变量。在计算上，我们的算法要求可以有效地解决通过约束对偶获得的单周期拉格朗日问题，正如我们所讨论的，这在许多应用中都是可能的。此外，我们的算法对观察中的噪声和损坏具有鲁棒性。
我们研究了我们的算法在不同输入模型上的性能作为时间段数 T 的函数，此时资源与地平线的长度成正比。我们的算法在各种输入模型下获得了良好的性能，而无需知道它们所面临的输入模型： • 当输入是随机的并且请求是从决策者未知的分布中独立且相同地绘制（i.i.d.）时，我们的算法会获得遗憾 O (T 1/2 )，其中后悔被衡量为通过事后诸葛亮的最佳分配获得的奖励与决策者收集的累积奖励之间的差异（定理 1）。因为在我们的最小值下没有算法可以得到低于 Ω(T 1/2 ) 的遗憾假设（引理 1），这两个结果意味着我们的算法达到了最佳的后悔顺序。
• 在另一个极端，当请求被对抗性选择时，没有算法可以实现消失的遗憾，但我们的算法被证明达到了固定的竞争比率，即，它们保证事后看来最优分配的固定比例（定理 2）。我们的竞争比率很严格，如果不对输入进行进一步假设，任何算法都无法获得更好的竞争比率。
• 我们还考虑了填补 i.i.d. 之间差距的非平稳随机输入模型。过于乐观的输入和过于悲观的对抗性输入。这些输入在许多应用中更为现实。特别是，我们展示了我们的算法在输入是遍历的（定理 5）时获得后悔 Õ(T 1/2 )，当输入表现出季节性（定理 6）时获得 O(T 1/2 ) 后悔，或者当对手破坏了 o(T) 数量的请求（定理 3）。
获得良好原始性能的必要条件是不要过早耗尽资源；否则，决策者可能会错失未来的好机会。我们的算法具有自然的自我纠正功能，可防止它们过早耗尽资源。根据设计，它们的目标是在每个周期消耗恒定数量的资源，以便在时间线结束时准确地耗尽资源。
当一个请求比目标消耗更多（更少）资源时，相应的对偶变量会增加（减少）。因为资源定价更高（更低），所以选择未来的行动来更保守地（积极地）消耗资源。结果，使用对偶变量的更新规则，我们可以证明我们的算法永远不会过早耗尽资源（命题 2）。
有趣的是，无论输入模型如何，这个结果都适用于每个样本路径。据我们所知，这一结果对于在线分配文献来说是新的，并且可能会引起从业者的兴趣，例如，广告商希望他们的广告能够随着时间的推移顺利交付，以最大限度地扩大覆盖面（Bhalgat 等人）。 ., 2012; Lee et al., 2013; Xu et al., 2015)。
然后，我们讨论了收益管理和在线广告中四个核心问题的应用：在线线性规划、有预算的重复拍卖中的投标、高熵的在线匹配以及有限库存的个性化分类优化问题。在所有这些应用中，我们的算法产生新的结果或将现有结果与更简单、更有效的实现相匹配。我们通过讨论我们工作的几个扩展并展示验证我们的理论结果的数值实验来结束本文。
1.2 相关工作
在线分配问题已在计算机科学和运筹学文献中得到广泛研究。我们在下面概述了相关文献。
随机输入 使用随机输入模型进行在线分配的早期工作集中在奖励和资源消耗函数在决策变量中是线性的情况，特别是在所谓的随机排列模型中。在随机排列模型中，攻击者首先选择一系列请求，然后以随机顺序呈现给决策者。这个模型比我们的随机 i.i.d 更通用。从未知分布中独立随机抽取请求的设置。 Devanur 和 Hayes (2009) 研究了 AdWords 问题并提出了一种包含两个阶段的对偶训练算法：训练阶段，其中数据用于通过求解线性程序来估计对偶变量，以及利用阶段，其中使用估计的数据来采取行动双变量。他们的算法可以证明获得 O(T 2/3 ) 阶的后悔。费尔德曼等人。（2010）提出了类似的基于训练的算法，用于具有类似遗憾保证的更一般的线性在线分配问题。
Agrawal 等人将这些想法更进一步。（2014 年），Devanur 等人。 (2019) 和 Kesselheim 等人。（2014）考虑通过使用迄今为止收集的数据定期求解线性程序来动态更新决策的原始和/或双基算法。这些更复杂的算法通过获得 O(T 1/2 ) 阶的遗憾和更好地依赖于资源数量来改进以前的工作。 Gupta 和 Molinaro (2016) 将结果扩展到随机排列模型。 Agrawal 和 Devanur (2014) 研究了一般的在线分配问题，并提出了一种类似的算法来维护和更新约束的对偶变量。他们的算法需要对基准值的估计，或者当估计不可用时，他们的算法需要求解优化程序来估计基准值。我们的论文通过开发一类具有潜在非凸奖励和资源消耗函数的一般在线分配问题的算法来扩展这项工作，这些算法通过更简单的更新规则产生类似的遗憾保证，不需要求解大型线性程序或估计基准值。此外，我们的算法被证明可以在各种输入模型上获得良好的性能。
虽然上述算法通常需要定期解决大型线性问题，但最近有一项工作正在寻找不需要解决大型线性问题的简单算法程序。在本文的初步版本（Balseiro 等人，2020）中，我们研究了一种简单的双镜像下降算法，用于解决具有凹奖励函数和随机输入的在线分配问题，该算法获得了 O(T 1/2 ) 的遗憾。该算法以线性时间在每个周期内更新对偶变量，避免求解大型辅助程序。本文中的分析更简单，因为我们不需要明确限制与资源第一次耗尽相对应的停止时间。在同时和独立的工作中，李等人。 (2020) 提出了一种类似的快速算法，该算法可以实现线性奖励的 O(T 1/2 ) 后悔，但我们的后悔界限更好地依赖于资源的数量。孙等人。 (2020) 给出了一种快速算法，当决策者知道请求的分布时，该算法可以达到 o(T 1/2 ) 后悔。我们提出的算法属于这一类：每次迭代的更新可以在线性时间内有效地计算，并且不需要解决大型凸优化问题。最后，我们注意到 Kanoria 和 Qian (2020) 最近利用在线方式使用双镜像下降来解决复杂控制问题的算法原理来控制在封闭网络中流通的资源，并应用于叫车服务。
对抗性输入 有大量文献研究对抗性输入模型下的在线分配问题，即当传入请求被对抗性选择时。在这种情况下，通常不可能获得次线性遗憾，相反，重点是设计能够获得离线最优解的常数因子近似的算法。梅塔等人。 (2007) 和 Buchbinder 等人。（2007 年）研究了 AdWords 问题，这是一个在线匹配问题，其中奖励与资源消耗成正比，并提供了一种算法，事后获得最优分配的 (1 - 1/e)-分数，这是最优的。一般来说，当奖励与资源消耗不成正比时，不可能达到固定的竞争比率。
为了规避这个问题，Feldman 等人。（2009a）考虑了一种自由处置的变体，其中可以违反资源限制，并且只有具有最高奖励的分配请求才计入目标。他们提供了一种原始对偶算法，该算法获得了最优分配的 (1 − 1/e)-分数。这两篇论文都假设资源量相对于每个单独的请求来说是很大的。在本文中，我们考虑了没有自由处置假设的一般分配问题，并为依赖于资源稀缺性的对抗性投入提供了参数竞争比率。对于本文中考虑的更一般的设置，我们的界限也被证明是渐近最优的。在第 6 节中，我们针对本文探讨的不同应用，将我们的结果与现有竞争算法进行了更详细的比较。
其他相关工作 最近人们对设计能够实现所有单词中最好的算法产生了兴趣，即它们在各种输入模型中都获得了良好的性能。米罗克尼等人。（2012 年）研究 AdWords 问题并提供一种算法，该算法可实现对抗性输入的最佳竞争比率和随机输入的改进竞争比率（尽管不是渐近最优）。此外，Mirrokni 等人。 (2012) 表明，在 AdWords 问题中，在随机输入下没有遗憾消失的算法可以在对抗性输入中获得恒定的竞争比，其中该常数与模型数据无关。我们的结果与他们的发现并不矛盾，因为我们的竞争比率取决于数据并且依赖于消费预算比率。虽然 AdWords 问题是我们在线分配问题的一个特例，但它具有特殊的结构，即奖励和消费之间的线性关系，这是获得恒定竞争比率的关键。对于 AdWords 问题，我们的对抗性输入算法的竞争比率可能并不严格，但对于我们在这里研究的更一般的在线分配设置来说，它是最佳的。同时，我们的算法对于随机输入是渐近最优的。
超越 i.i.d. input、Ciocan 和 Farias (2012) 研究了需求过程不稳定的在线分配问题。他们提供了一种原始算法，可以估计需求率并计算最佳分配，假设对剩余时间的需求将保持不变。该算法显示为获得任意相关高斯过程的常数因子近似。我们的结果是互补的：虽然他们的算法在漂移过程中获得了更好的竞争比率，但我们的算法对于遍历过程是渐近最优的。此外，Esfandiari 等人。（2018）提出了一种适用于混合对抗和随机设置的预测在线分配算法。如果预测是完美的，他们的算法会实现亚线性遗憾，否则他们会获得恒定的竞争比率，该比率会随着预测的质量而优雅地下降。相比之下，我们的算法和分析不依赖于任何预测。
我们的工作还与关于背负式多臂土匪的文献有关。我们的反馈结构更强大，因为我们可以在做出决定之前观察奖励函数和消费矩阵，而在强盗文献中，这些都是在做出决定之后才显示出来的。虽然带有背包的老虎机算法不能直接适用，但我们的问题可以被认为是带有背包的上下文多臂老虎机问题，其中上下文将对应于请求的信息。 Badanidiyuru 等人的算法。 (2014) 和 Agrawal 等人。
（2016）可以在离散上下文和动作空间后应用于我们的设置。离散化，但是，会导致次优的性能保证。特别是，动作空间支持的基数不会出现在我们的遗憾边界中，而它必须出现在老虎机设置中，因为老虎机算法需要探索不同动作的奖励。

2 问题描述和算法

我们考虑一个具有有限范围的 T 时间段和资源约束的通用在线分配问题。在时间 t，决策者收到一个请求 γ t = (f t , b t , X t ) ∈ S 其中 f t : X t → R + 是一个非负的（并且可能是非凹的）奖励函数，b t : X t → R m + 是一个非负的（并且可能是非线性的）资源消耗函数，并且 X t ⊂ R d + 是一个（可能是非凸的或积分的）紧集。这里，R + 表示非负实数。我们用 S 表示可以接收的所有可能请求的集合。观察请求后，决策者采取行动 x t ∈ X t ⊆ R d 导致奖励 f t (x t ) 并消耗 b t (x t ) 资源。资源总量为 T ρ，其中 ρ ∈ R m + 是资源约束向量，对于所有 j，ρ j > 0。假设 b t (·) ≥ 0 意味着一旦资源被消耗，我们就无法补充资源。我们假设 0 ∈ X t 和 b t (0) = 0，因此总是可以通过选择 x t = 0 来采取无效动作并避免违反资源约束。这保证了可行解的存在。虽然我们在整篇论文中假设奖励和资源消耗在给定动作的情况下是确定性的，但我们在第 7.3 节中表明，当奖励和资源消耗在给定动作时是随机的时，我们的结果适用。在第 7.2 节中，我们讨论如何纳入随机视野。
我们利用~γ = (γ 1 , . . . . . . . . , γ T ) 来表示时间 1, . . . ，T。我们比较的baseline是预先知道请求序列~γ时的最优解的reward，相当于在所有请求的全部信息下求解最优分配：
(1)
后一个问题在计算机科学中被称为离线最优或在运筹学文献中被称为事后最优。
在线算法 A 在时间 t 根据当前请求 (f t , b t , X t ) 和之前的历史 H t−1 := {f s , b s , X s 做出实时决策 x t (可能是随机的) , x s } t−1 s=1 , 即 x t =A(f t , b t , X t |H t−1 )。我们将输入 ~γ 的算法的奖励定义为
()
其中 x t 是算法在时间 t 的决策。此外，算法 A 必须满足约束 P T t=1 b t (x t ) ≤ ρT 和 x t ∈ X 对于每个 t ≤ T 。
我们的目标是为不同的输入模型设计一种在满足上述约束的同时获得良好性能的算法 A。此外，算法 A 应该忽略输入模型，即它应该在各种输入模型中获得良好的性能，而无需事先知道它所面临的输入模型。性能的概念取决于输入模型：
• 随机 I.I.D 输入（第 3 节）。请求独立且同分布（i.i.d.），来自决策者未知的概率分布 P ∈ ∆(S)，其中 ∆(S) 是支持集 S 上所有概率分布的空间。我们测量遗憾一种算法，作为 Δ(S) 中分布的最坏情况差异，基准的预期性能与算法之间：
()
如果遗憾随着周期数呈次线性增长，我们就说算法是低遗憾的。
• 对抗性输入（第 4 节）。这些请求是任意的，并且是以对抗方式选择的。与随机 i.i.d 不同。输入模型，可以证明遗憾随着 T 线性增长，并且研究 T 上的遗憾顺序变得没有意义。相反，我们说算法 A 是渐近 α 竞争的，对于 α ≥ 1，如果渐近 α 竞争算法渐近地保证事后看来至少是最佳性能的 1/α。
• 非固定输入（第 5 节）。在时间 t 的请求来自一个可能在时间上相关的任意分布。我们用 P ∈ ∆(S T ) 表示输入的联合分布。算法 A 在输入 C 上的一类联合分布上的遗憾是由
()
我们考虑三类随机过程：遍历输入、周期性输入和对抗性破坏的 i.i.d。输入。
2.1 对偶问题
我们的算法具有双重下降性质，因此，（1）的拉格朗日对偶问题起着关键作用。我们构造了 (1) 的拉格朗日对偶，其中我们使用拉格朗日乘数 μ ≥ 0 的向量将约束移至目标。对于 μ ∈ R m +，我们定义
(2)
作为请求 γ t 的最佳机会成本调整奖励。 f t ∗ (µ) 是函数 f t (x) 的凸共轭的推广，它考虑了消耗函数 b t (x) 和约束空间 X t 。特别是当 b t (x) = x 且 X t 是整个空间时，我们恢复凸共轭的标准定义。对于固定输入 ~γ ，定义拉格朗日对偶函数 D(µ|~γ ) : R m + → R 为
()
然后，我们通过弱对偶得到 D(µ|~γ ) 提供了 OPT(~γ ) 的上限。
γ ) ≤ D(µ|~γ )。
命题 1. 对于每个 µ ∈ R m + 都成立 OPT(~ 所有证明都在附录中可用。但是请注意，由于奖励和资源消耗函数的潜在非凸性，强对偶性不一定成立，和动作空间。为什么我们的算法在强对偶不成立的情况下获得了良好的原始性能？直觉可以用可分非凸优化问题的原始对偶间隙的现有结果来解释。可以使用 Shapley-Folkman 来证明离线问题中的原始对偶间隙的上限是一个常数，该常数与请求的数量 T 无关，即使没有凸性（参见 Bertsekas 2014 的 Proposition 5.26 以获得详细解释）。因此，对偶方法可以有效地用于在线分配问题，因为原始对偶间隙通常很小。有趣的是，我们的算法分析没有使用 Shapley-Folkman 定理，因此，它提供了一种替代方法证明原始对偶当请求数量很大时，可分离非凸问题的差距相对较小。
Algorithm 1
2.2 算法
算法 1 介绍了我们在本文中研究的主要算法。我们的算法为使用镜像下降更新的每个资源保留一个对偶变量 µ t ∈ R m，这是凸优化的主力算法（Nemirovsky 和 Yudin，1983；Beck 和 Teboulle，2003；Hazan 等，2016；Lu 等人，2018）。
算法 1 将初始对偶变量、步长和参考函数作为输入。在时间 t，算法接收到一个请求 (f t , b t , X t )，并根据当前对偶解 µ t 计算使该请求的机会成本调整后的奖励最大化的最优响应 x̃ t。如果该动作不超过资源约束，则它会采取这个动作（即 x t = x̃ t ），否则它会采取 P void 动作（即 x t = 0）。将对偶函数写为 D(µ|~γ ) := Tt=1 D t (µ|γ t ) 其中对偶函数的第 t 项由 D t (µ|γ t ) = f t ∗ ( µ) + µ > ρ，因此 g t := −b t (x̃ t ) + ρ 是 D t (µ|γ t ) 在我们根据 Danskin 定理假设的 µ t 的次梯度（例如，参见 Bertsekas 1999，提案 B.25)。最后，该算法利用 g t 通过执行 a 来更新对偶变量具有步长 η 和参考函数 h 的镜像下降下降步骤 (4)。镜像下降步骤 (4) 可以解释为在非负正交上最小化对偶目标的一阶泰勒展开加上一个使用 Bregman 散度作为距离度量来惩罚来自现有解决方案 μ t 的移动的项。直观地说，通过最小化对偶函数，该算法寻求获得对偶变量，这些变量可用于为资源定价并在优化原始决策时产生良好的性能。虽然我们在论文中专注于双重更新的在线镜像下降，但我们的分析很容易扩展到其他在线线性优化算法（更多细节请参见第 7.1 节）。
当优化问题（3）很容易解决时，该算法可以有效地实现。
正如我们在第 6 节中讨论的那样，在许多应用中，原始决策问题可以通过封闭形式或线性时间算法来解决。当原始决策问题不能被有效地求解到最优时，产生近似最优解就足够了，并且近似误差会累加地出现在遗憾界中（参见第 7.4 节中的讨论）。
在实践中，只要易于处理，直接在约束 b t (x̃ t ) ≤ B t (3) 下确定动作 x̃ t 是很方便的，即 x̃ t ∈ arg max x∈X t ,b t (x)≤ B t f t (x) - µ > t b t (x) 。这样的选择不会影响我们的分析，但可以在应用程序中带来更好的性能。
最后，在大多数情况下，镜像下降步骤可以在线性时间内计算，因为 (4) 允许 P 闭式解。例如，如果参考函数是 h(µ) = j µ j log(µ j )，则对偶更新变为
(5)
其中 x ∗ y = (x j y j ) m j=1 是向量 x, y ∈ R 的元素乘积。在这种情况下，我们恢复了乘法权重更新算法 (Arora et al., 2012)。如果参考函数是 h(µ) = 1 2 2 kµk 2 ，则对偶更新变为
(6)
其中 Proj A {µ} 表示向量 µ ∈ R m 到集合 A ⊂ R m 的投影。后者恢复了在线次梯度下降法。
2.3 一般假设
在本节中，我们提出了分析中需要的一些常见假设。我们为资源约束 R m 的原始空间配备了 ∞ 范数 k · k ∞ ，并为拉格朗日对偶空间配备了 1 范数 k · k 1 。这种范数的选择很自然地来自我们的分析，并确保下面定义的参数 b̄, ρ̄ 是维度无关的（即，与 m 无关）。使用原始空间的 p 范数和具有 1/p + 1/q = 1 和 p ∈ [2, ∞] 的对偶空间的 q 范数，可以获得对资源数量具有相同依赖性的类似遗憾保证 .
假设 1（对请求的假设）。存在 f¯ ∈ R + 和 b̄ ∈ R + 使得对于支持中的所有请求 (f, b, X) ∈ S，它持有 1。可行集满足 0 ∈ X。
2. 对于每个 x ∈ X，奖励函数满足 0 ≤ f (x) ≤ f¯。
3. 对于每个 x ∈ X，资源消耗函数满足 b(x) ≥ 0 和 kb(x)k ∞ ≤ b̄。
4. (3) 中的优化问题有一个最优解。
上限 f¯ 和 b̄ 对请求空间施加了规律性，我们不需要这些上限来运行算法，但它们出现在我们的性能界限中。有了上述假设，f(x) 可以是非凹的，b(x) 可以是非凸的，X 可以是非凸的，甚至是积分的，这与之前的文献不同。我们假设 (3) 中的原始优化问题允许一个最优解来简化阐述——即使有近似最优解可用，我们的结果仍然成立（参见第 7.4 节）。根据 Weierstrass 定理，最优解存在的充分条件是奖励函数 f 是上半连续的，资源消耗函数 b 是逐分量下半连续的，可行集 X 是紧的。
假设 2（对参考函数的假设）。我们假设
1 h(µ) 在 R m + 中是可微的或基本上是平滑的（Bauschke et al., 2001
2 h(µ) 在 k · k 1 - 范数在 R m + 中是 σ-强凸，即 h(µ 1 ) ≥ h(µ 2 ) + ∇h(µ 2 ) (µ 1 - µ 2 ) + σ 2 kµ 1 - µ 2 k 21 对于任何 µ 1 , µ 2 ∈ R m + 。
参考函数的强凸性是分析镜像下降算法的标准假设（Bubeck，2015）。先前的假设意味着，除其他外，算法的投影步骤 (4) 总是允许通过 Weierstrass 定理得到解。
我们用 ρ = min j∈[m] ρ j > 0 表示最低资源参数，ρ̄ = max j∈[m] ρ j = kρk ∞ 表示最大资源参数，这也是资源向量的原始范数。

3 随机IID输入模型

在本节中，我们假设在时间 t 的请求 (f t , b t , X t ) 是 i.i.d 生成的。来自未知分布 P ∈ Δ(S)，其中 Δ(S) 是支持集 S 上所有概率分布的空间。下一个定理表示算法 1 的最坏情况后悔界。
定理 1. 考虑步长 η ≥ 0 和初始解 µ 1 ∈ R m + 的算法 1。假设假设 1-2 得到满足，并且请求来自 i.i.d。分布未知的模型。
然后，它对任何 T ≥ 1 成立
(7)
其中 C 1 = f¯ b̄/ρ, C 2 = ( b̄ + ρ̄) 2 /2σ, C 3 = 最大 V h (µ, µ 1 ) : µ ∈ {0, ( f¯ /ρ 1 )e 1 , . . . , ( f¯ /ρ m )e m } 其中 e j ∈ R m 是第 j 个单位向量。
证明。我们分三步证明结果。首先，根据双重目标和互补松弛度，我们将算法的累积奖励下限，直到资源第一次接近耗尽。其次，我们通过为在线镜像下降选择合适的“枢轴”来限制互补松弛项。我们通过在第三步中将它们放在一起来结束。
Step 1 (Primal performance.) 首先，我们将算法 1 的停止时间 τ A 定义为存在资源 j 的第一个 P A 时间小于 T 使得 τ t=1 (b t (x t )) j + b̄ ≥ ρ j 吨。请注意，τ A 是一个随机变量，此外，我们不会在停止时间 τ A 之前违反资源约束。我们在这里研究原始对偶间隙直到停止时间 τ A 。请注意，在停止时间 τ A 之前，算法 1 对对偶函数执行标准镜像下降步骤，因为 x̃ t = x t 。
考虑时间 t ≤ τ A 以便动作不受资源限制。因为 x t ∈ arg max x∈X {f t (x)− µ > t b t (x)}，我们有
(8)
令 D̄(µ|P) = 1 T E ~γ ∼P T [D(µ|~γ )] = E (f,b)∼P [f ∗ (µ t )] + µ > t ρ 为预期的对偶目标在 µ 当请求被绘制时 i.i.d. 从 P ∈ Δ(S)。设 ξ t = {γ 0 , . . . , γ t } 和 σ(ξ t ) 是由 ξ t 生成的 sigma 代数。添加最后两个方程并以我们得到的 σ(ξ t−1 ) 为条件的期望，因为 µ t ∈ σ(ξ t−1 ) 和 (f t , b t ) ∼ P，即
(9)
其中第二个等式遵循对偶函数的定义。
考虑过程 Z t = P t > s=1 µ s (a s − b s (x s ))−E µ > s (a s − b s (x s )) |σ(ξ s−1 ) ，它是鞅关于 ξ t （即 Z t ∈ σ(ξ t ) 和 E[Z t+1 |σ(ξ t )] = Z t ）。由于 τ A 是关于 ξ t 的停止时间并且 τ A 是有界的，因此可选停止定理意味着 E [Z τ A ] = 0。因此，
()
对 f t (x t ) 使用类似的鞅参数并从 t = 1 求和 (9)。 . . , τ A 我们得到
(10)
其中不等式源自将 µ̄ τ A = 1 τ A P τ A t=1 µ t 表示为平均对偶变量并使用对偶函数是凸的。
第 2 步（互补松弛） 考虑函数序列 w t (µ) = µ > (ρ−b t (x t ))，它捕获了时间 t 的互补松弛。给定梯度 ∇ µ w t (µ) = ρ−b t (x t )，其有界如下 k∇ µ w t (µ)k ∞ ≤ kb t (x t )k ∞ + kρk ∞ ≤ b̄ + ρ̄。因此，算法 1 对这些函数序列 w t (µ) 应用在线镜像下降，并且我们从命题 5 中得到对于每个 µ ∈ R m
(11)
其中 E(t, µ) = 1 2σ ( b̄ + ρ̄) 2 η · t + η 1 V h (µ, µ 1 ) 是在线镜像下降算法经过 t 次迭代后的后悔值，由于 τ A ≤ T 并且误差项 E(t, µ) 在 t 中增加。
第3步（把它们放在一起） 对于任何 P ∈ ∆(S) 和 τ A ∈ [0, T ] 我们有
()
其中不等式使用命题 1 和 OPT(γ ) ≤ T f¯ 的事实。令 Regret (A|P) = E ~γ ∼P T [OPT(~γ ) − R(A|~γ )] 为分布 P 下的后悔值。因此，
()
其中第一个不等式源于使用 τ A ≤ T 和 f t (·) ≥ 0 来丢弃 τ A 之后的所有请求；第二个来自（10）；第三个来自（11）；最后一个来自（12）。
我们现在讨论 µ ∈ R m + 的选择。如果 τ A = T ，则设置 µ = 0 以获得 ♣ ≤ E(T, 0)。如果 P A (b t (x t )) j + b̄ ≥ T ρ j 。设 μ = ( f¯ /ρ j )e j τ A < T ，则存在资源 j ∈ [m] 使得 τ t=1 且 e j 为第 j 个单位向量。这产生
()
其中不等式是由于停止时间 τ A 的定义而出现的。因此，对每个资源 j ∈ [m] 使用 ρ j ≥ ρ
()
其中第二个不等式来自我们的 f¯ 和 E(T, µ) 的公式。我们通过结合 τ A = T 和 τ A < T 的情况得出结论，并使用 µ ∈ {0, ( f¯ /ρ 1 )e 1 , . . . , ( f¯ /ρ m )e m } 到上界 V h (µ, µ 1 ) 就枢轴的最坏情况实现而言。
(7)中的常数C 1 来自于对停止时间τ A 的分析。常数 C 2 和 C 3 来自在线镜像下降的标准后悔分析（见附录中的命题 5）。
特别是，C 2 取决于对偶函数的子梯度范数和参考函数的强凸常数，而 C 3 取决于根据 Bregman 散度测量的初始对偶解到枢轴的距离。我们后悔界的一个显着特征是它独立于动作空间 X 的基数。这对许多应用很有吸引力，例如分类优化（见第 6 节），其中动作的基数可以成倍增长。
前面的结果表明，通过选择阶数为 η ∼ T -1/2 的步长，当视界长度和初始资源量同时缩放时，算法 1 会获得 O(T 1/2 )阶的遗憾 . 特别是，定理 1 中步长的最佳选择由 p √ η = C 3 /(C 2 T ) 给出，由此得出 Regret (A) ≤ C 1 + 2 C 2 C 3 T 。因此，我们的算法也是渐近最优的，即 lim T →∞ Regret (A) /T → 0。
我们现在简要讨论上一节中讨论的参考函数的遗憾界限的实例化（完整的细节在附录 B 中提供）。
• 假设 h(µ) = 1 2 2 kµk 2 和 µ 1 = 0。然后，算法 1 恢复对偶在线亚梯度下降，并且通过适当的步长 η，我们可以获得 O(m 1/2 阶的遗憾 T 1/2)。这是因为参考函数现在相对于对偶范数是 1/m-强凸的。
• 假设 h(µ) = P j µ j log(µ j ) 和 µ 1 = e/m。对于乘法权重更新算法，我们不能直接调用定理 1，因为参考函数 h(µ) 在非负正交上不是强凸的，因为它的“曲率”对于较大的 µ 值收敛到零。使用命题 2，我们可以证明对偶变量是一致有界的，并且通过将参考函数限制为一个框，我们可以获得 O((m log m) 1/2 T 1/2 ) 阶的遗憾界。
我们注意到我们的遗憾边界对资源数量 m 的依赖性是次优的。
阿格拉瓦尔等人。 (2014) 表明，对资源数量的最佳可能依赖性是 log 1/2 (m) 阶，而我们的算法对 m 的依赖性是多项式阶。 Agrawal 等人的算法。（2014 年）、Agrawal 和 Devanur（2014 年）以及 Devanur 等人。（2019）获得对资源数量的最佳依赖，但与我们的不同，需要知道对价值的估计基准测试或定期解决大型优化问题。我们想提一下，如果上限 f¯ 可用（或者，预期基准的界限），那么通过将对偶变量约束在缩放的单位单纯形中，可以证明我们的算法可以达到阶的遗憾界限 O(log 1/2 (m)T 1/2 )。我们在附录 B 中提供了更多详细信息。
我们接下来讨论我们的遗憾界限的紧密度。以下我们在没有证据的情况下重现的结果表明，在我们的最小建模假设下，人们不可能希望获得低于 Ω(T 1/2 ) 的遗憾。
引理 1（Arlotto 和 Gurvich 2019 的引理 1）。对于每个 T ≥ 1，存在一个概率分布 P 使得
()
其中 C 是一个独立于 T 的常数。
前面的结果表明，对于每个 T，都存在一个概率分布，在该概率分布下，所有算法——即使是那些知道概率分布的算法——都会导致 Ω(T 1/2 ) 后悔。结果证明中使用的最坏情况分布将质量分配给三个点，其中一个点的质量为 T -1/2 阶。因为定理 1 中提供的算法 1 的遗憾界不依赖于分布 P 的概率质量函数，所以很容易得出我们的算法在这种最坏情况下也达到 O(T 1/2 )。这意味着当视界的长度和资源的初始数量按比例缩放时，我们的算法获得了最佳的遗憾顺序。然而，在对输入的进一步假设下，有时可以获得更好的遗憾保证（例如，参见 Jasin 2015 和 Li 和 Ye 2019）。

4 对抗性输入

在本节中，我们假设在时间 t 的请求（f t ，b t ，X t ）是由对手选择的，我们会查看所有可能输入的最坏情况下的性能。下一个定理表明算法 1 与 α ∗ = max{sup (f,b,X)∈S sup j∈[m],x∈X b j (x)/ρ j , 1} 具有竞争性。
定理 2。考虑算法 1，步长 η ≥ 0 和初始解 µ 1 ∈ R m + 。假设假设 1-2 得到满足，并且请求是由对手选择的。然后，它对任何 T ≥ 1 成立
(13)
其中 C 1 = f¯ b̄/ρ, C 2 = α ∗ ( b̄+ ρ̄) 2 /2, C 3 = max α ∗ V h (µ, µ 1 ) : α ∗ µ ∈ {0, ( f¯ / ρ 1 )e 1 , . . . , ( f¯ /ρ m )e m } 。
与随机输入的情况不同，我们通过将算法的选择与基准 (1) 的最优解进行比较来证明原始空间中的结果。特别是，我们可以证明，对于每个请求，我们的算法获得的奖励最多是最优离线解决方案奖励减去互补松弛项的 1/α * 的一部分。然后，就像在随机情况下一样，我们将互补松弛项与停止时间未接近地平线尽头时损失的奖励联系起来。
当步长为 η ∼ T -1/2 时，定理 2 表明算法 1 具有 α ∗ - 竞争性，即当 T 变大时，它保证了事后看来最佳性能的至少 1/α ∗ 的一部分。实际上，Balseiro 和 Gur (2019) 的定理 1 提出了一个一维示例，这意味着在我们的假设下，人们无法希望获得低于 α * 的竞争比率。定理 2 匹配它们的下限，这意味着竞争比率是最优的，无需对输入进行任何进一步的假设。虽然最佳步长与 i.i.d 不同。在这种情况下，任何阶 η ∼ T -1/2 的步长都保证了两个模型中相同的渐近性能。
竞争比率 α ∗ 衡量决策者是如何受到资源约束的。对于每个资源 j ∈ [m]，表达式 max x∈X b j (x)/ρ j 捕获最高可能资源消耗与每个时间段可用资源的“平均”数量之比。因此，定理 2 意味着随着问题变得更加资源受限，竞争比率会恶化。
我们现在证明算法 1 永远不会过早耗尽资源。将算法1的停止时间τ A 定义为存在资源j的第一次小于T的时间，使得
()
通过构造，我们的算法在停止时间 τ A 之前不违反资源约束。我们在以下假设下证明我们的结果。
假设 3（参考函数 h 的可分离性）。参考函数 h(µ) 是坐标 P 明智可分的，即 h(µ) = m j=1 h j (µ j ) 其中 h j : R + → R 是单变量函数。此外，对于每个资源 j，函数 h j 是 σ 2 -在 [0, µ max ] 上的强凸，其中 µ max := f¯ /ρ j + 1。
j j 如果参考函数不是坐标方向的可分离函数，则投影步骤 (4) 可能难以求解。此外，镜像下降文献中的大多数示例都使用坐标明智的可分离参考函数（Beck 和 Teboulle，2003；Lu 等人，2018；Lu，2019）。下一个命题说停止时间 τ A 总是接近地平线 T 的末端。
命题 2. 设 µ max ∈ R m 使得 µ max := f¯ /ρ j + 1。假设假设 1 和 3 成立，j 初始对偶解满足 µ ≤ µ max ，步长满足 η ≤ σ 2 /b̄。然后，它认为对于任何 t ≤ T 都有 µ t ≤ µ max 。此外，它适用于每个样本路径~γ
()
当步长为 η ∼ T -1/2 时，命题 2 意味着 T - τ A = O(T 1/2 ) 并且资源永远不会过早耗尽。在命题 2 的证明中，我们首先利用参考函数的可分性论证，只要 0 ≤ µ 1 ≤ µ max ，算法 1 得到的对偶变量始终停留在域 D := {µ ∈ R m | 0≤μ≤μ最大}。回想一下，当请求消耗的资源比目标多时，对偶变量会增加。因为对偶变量总是自上而下，所以资源消耗永远不会超过目标，这反过来意味着资源永远不会过早耗尽。因此，随着时间的推移，资源会平稳耗尽，这在许多环境中是一个理想的特性。

5 非平稳输入

前两节研究了两个经典的输入模型，即 i.i.d. 和敌对的。但是，i.i.d. 输入可能过于乐观，而对抗模型在实践中可能过于悲观。在本节中，我们考虑填补 i.i.d. 之间差距的三个非平稳随机输入模型。和对抗性输入模型，它们在许多应用中更加真实。
5.1 独立输入和对抗性腐败的鲁棒性
我们考虑请求来自独立但不一定相同的分布的情况。我们引入了一些将在遗憾界中使用的新符号。给定两个概率分布 P 1 ， P 2 ，我们用 kP 1 − P 2 k TV 表示 1 P T ~= P T P 1 和 P 2 之间的总变化距离。我们用 MD§ 表示向量 s=1 P s t=1 P t − T TV ~ ∈ Δ(S) T 与总变异范数中的平均分布的平均偏差。
的独立分布 P n o ~ ∈ Δ(S) T : MD( P) ~ ≤ δ 是所有独立输入的集合，均值此外，令 C ID (δ) = P 偏差至多 δ > 0。分布的非平稳性密切相关用于研究发布定价的 Kolmogorov 指标（Dütting 和 Kesselheim，2019 年）。
下一个定理展示了我们在独立输入下对算法 1 的遗憾界限：定理 3。考虑算法 1 的步长 η ≥ 0 和初始解 µ 1 ∈ R m + 。假设满足假设 1-2，并且请求来自独立（非相同）分布。然后，它适用于任何 T ≥ 1 且平均偏差 δ > 0
()
其中常数 C 1 , C 2 , C 3 在定理 1 和 C 4 = f¯ 中定义。
当步长为 η ∼ T -1/2 阶时，算法 1 的遗憾变为 O(T 1/2 + δ)，这意味着算法的性能随着平均分布的平均偏差 δ 而优雅地下降。定理 3 显示了从 i.i.d 的自然过渡。对抗性输入的输入：当请求是 i.i.d. 时，平均偏差为 δ = 0 且 Regret (A) ∼ O(T 1/2 )；当所有请求都是对抗性的时，平均偏差很可能是 δ ∼ T ，因此 Regret (A) ∼ T 。
定理 3 意味着算法 1 对 i.i.d 的对抗性破坏具有鲁棒性。输入。 Lykouris 等人最近研究了随机输入的对抗性损坏。（2018）和陈等人。（2019）。这项工作的主要动机是设计对输入扰动具有鲁棒性的算法。这些扰动可能是恶意的，例如在点击欺诈的情况下；或非恶意的，例如，由于不可预测的事件导致的流量高峰。
考虑大多数请求是 i.i.d 绘制的情况。从一个未知的分布模型和一个对手最多可以破坏 r 个请求。定理 3 的一个直接结果是后悔 ~ 与 r 成正比。特别是，如果通过注意到 MD§ 最多破坏 O(T 1/2 ) 请求，对手的阶数为 max{T 1/2 , r}，那么后悔界仍然是 O(T 1/2 )，这展示了算法 1 对对抗性破坏的鲁棒性。在最近的一篇论文 Kesselheim 和 Molinaro (2020) 中，研究了当对手以突发模式破坏有限数量的请求时的秘书背包问题。虽然在他们的分析中，他们只考虑了未损坏请求的性能，但他们提供的算法具有与我们相似的性能保证。
然而，他们的算法更复杂，需要知道对手破坏的突发长度。随后，布拉达克等人。 (2020) 为多个秘书问题设计稳健的算法，但将其算法与未损坏的请求进行基准比较，并排除具有最高奖励的未损坏请求。同时，江等人。 (2020) 学习在线资源分配问题，其中请求来自非平稳分布。
他们考虑第一个设置，其中真实分布未知，但可以使用先验（可能不精确）估计，以及第二个设置，其中真实分布完全未知。对于后一种设置，他们提出了一种类似于我们的梯度下降算法，并证明了遗憾界限，其中使用 Wasserstein 距离而不是总变化距离来测量平均偏差。
文献中研究的许多算法都容易受到对抗性破坏的影响。例如，基于训练的算法，例如 Devanur 和 Hayes (2009) 的算法，或者需要使用历史数据解决优化问题的算法，例如 Agrawal 和 Devanur (2014) 的算法，如果对手破坏了一些选定的算法，则可能表现不佳要求。之所以如此，是因为在这些算法中，大多数决策都是根据在第一阶段收到的一些请求来确定的，对手可能会破坏这些请求。
先前的结果意味着我们算法的性能随着 i.i.d 的损坏量线性下降。输入。下一个定理表明线性退化是必要的，因为每个算法都会导致类似的线性退化性能。我们通过调用 Yao 引理并在没有算法可以表现良好的分布上构建分布来证明结果。
定理 4. 对于任何水平的长度 T ≥ 1 和平均偏差 8 ≤ δ ≤ 4T ，存在常数 C 1 ，C 2 > 0，使得.
(14)
我们注意到最近在类似的非平稳随机设置中研究了多臂老虎机和在线凸优化问题（Besbes et al., 2014, 2015）。在这项工作中，目标是设计在模型基元随时间变化时表现良好的算法。这些论文考虑的度量标准是变化预算，它捕获了输入从一个时间步到下一个时间步的变化量，它们表明只要变化预算为 o(T) 量级，就可以实现消失的遗憾。在我们的设置中，这个度量将由 P T -1 t=1 kP t - P t+1 k TV 给出。证明定理 4 中给出的实例很容易暗示每个算法的遗憾是 Ω(T)，即使分布 P t 在整个范围内改变一次，即，变化预算是恒定的。因此，该指标不适合我们的设置。
5.2 遍历输入和马尔可夫过程
我们现在考虑不一定跨时间独立的随机输入模型。特别是，我们将注意力限制在遍历输入过程上，它直观地满足了请求随着时间的推移而趋于独立的属性。这些输入过程允许关联时间上接近的请求。遍历过程的示例是不可约和非周期马尔可夫链和平稳自回归过程。此类过程广泛用于时间序列分析，以估计用户到达网站或工作到达服务器，并可能导致更现实的输入模型。
令 P ∈ ∆(S T ) 是一个随机过程。用 γ 1:t = (γ s ) ts=1 表示到时间 t 的输入序列，我们让 P t (γ 1:s ) 是 γ t 的条件分布，给定 γ 1:s 对于 s < t。对于每个 k ∈ [T ] 和一个单周期分布 P̄ ∈ Δ(S)，我们表示为
()
周期 t + k 中分布之间的最坏情况总变化距离，以周期 t 和 P̄ 开始时的数据为条件。当 P̄ 是过程 P 的平稳分布时，度量 TV k (P, P̄) 给出了 k 步转移概率与平稳分布之间的最大距离。直观地说，如果过程是遍历的，它应该相对快速地混合，并且后一个指标应该随着 k 的增加而减少。我们将此度量称为距平稳性的 k 步距离。
令 C E (δ, k) = P ∈ Δ(S T ) : TV k (P, P̄) ≤ δ 对于某些 P̄ ∈ Δ(S) 是所有随机过程的集合，k 步距静止不大于 δ > 0。下一个定理给出了我们在遍历输入下对算法 1 的遗憾界限：定理 5。考虑算法 1，步长 η ≥ 0 和初始解 µ 1 ∈ R m + 。假设假设 1-2 得到满足，并且请求来自遍历过程。然后，对于任何 T ≥ 1、δ ≥ 0 和 k ≥ 0 都成立
()
其中常数 C 1 、C 2 、C 3 在定理 1 中定义，C 4 = 2 b̄ σ ( b̄ + ρ̄)。
该定理的证明受到 Duchi 等人的分析的启发。（2012）为收敛具有遍历输入的无约束随机优化问题的镜像下降。证明的一个关键步骤是将遍历过程下算法的对偶变量为 μ t 时的预期对偶性能与其平稳分布下的预期性能进行比较。我们不是查看时间 t 的性能，而是将时间移动 k 个周期，并与时间 t + k 的预期性能进行比较。一方面，遍历性保证在时间 t + k 的对偶性能接近于假设对偶变量不变的静态预期性能。另一方面，t + k 时刻的对偶变量与 μ t 不同，因为我们的算法在每次迭代后更新对偶变量。为了控制对偶性能的变化，我们证明对偶变量在 k 步中变化不大，然后使用对偶目标是 Lipschitz 连续的。
当输入是 i.i.d. 时，我们有 k = δ = 0 并且我们从定理 1 中恢复了界限。
现在，假设请求遵循不可约且非周期性的马尔可夫过程。在这种情况下，我们可以将 P t (γ s ) 写为时间 t 的分布，此时状态为 γ s 在 s < t 由马尔可夫性质。令 P̄ 为其平稳分布。如果马尔可夫链具有有限状态空间或具有一般状态空间并且是一致遍历的，则存在常数 R > 0 和 α ∈ (0, 1) 使得 sup γ s ∈S kP t (γ s ) − P̄k TV ≤ Rα t−s（参见，例如，Levin 和 Peres 2017，定理 4.9 或 Meyn 和 Tweedie 2012，第 16 章）。这意味着与平稳性的 k 步距离在 k 中呈指数快速减小。因此，我们得到 O(1/η + ηT k + T α k ) 的遗憾。设置 η ∼ T -1/2 和 k = - log T /(2 log α) 会产生 O(T 1/2 log T ) 的遗憾。这个遗憾界限与 i.i.d 的下限匹配。输入到一个对数项。
5.3 周期性输入
在许多实际应用中，请求表现出周期性或季节性。例如，在互联网广告中，早上的流量与晚上的流量不同，但每天的模式往往从一天到另一天是一致的。同样，工作日的请求与周末的请求不同，但每周的模式往往会随着时间的推移而重复（例如，参见 Zhou et al. 2019）。
在本节中，我们考虑一个周期性的，因此是依赖的，输入模型。假设请求具有长度为 q ∈ N 的循环，因此循环内的请求可以任意相关，但循环作为一个整体是独立且同分布的。为简单起见，假设 T 可被 q 整除。更正式地说，我们通过 C P (q) = P ∈ Δ(S q ) T /q 定义所有 q 周期请求分布的类： P 1:q = P q+1:2q = 。 . . = P T −q+1:T 其中 P s:t 表示联合分布化请求 s ≤ t。下一个定理给出了算法 1 对该输入模型的最坏情况后悔界限。
定理 6。考虑算法 1，步长 η ≥ 0 和初始解 µ 1 ∈ R m + 。假设假设 1-2 得到满足，并且请求来自周期性模型。然后，它对任何 T ≥ 1 和 q ≥ 0 成立
()
其中常数 C 1 , C 2 , C 3 在定理 1 和 C 4 = 2 σ ( b̄ + ρ̄) 2 中定义。
上述定理导致 O(1/η + ηqT ) 阶的遗憾。最佳步长为 η ∼ (qT ) -1/2 阶，产生 O((qT ) 1/2 ) 的遗憾。因此，如果循环的长度是 o(T)，那么我们的算法就会达到消失的遗憾。如果步长的选择忽略了周期的长度，即 η ∼ T -1/2 ，那么我们的算法将获得遗憾 O(qT 1/2 )。
最后，定理 6 提出了从 i.i.d. 的另一个遗憾过渡。对抗性输入：当请求是 i.i.d. 我们有 q = 1，遗憾是 O(T 1/2 )；当以对抗方式选择请求时，我们有 q = T，因此 Regret (A) ∼ O(T )。

6 应用

6.1 在线线性规划
在一个在线线性程序中，决策者试图动态分配 m 种资源，其中库存 B = T ρ ∈ R m + 在有限范围 T 上。在每个时间段 t，客户到达并使用相关的收入向量 r t ∈ R d + 和消费矩阵 c t ∈ R m×d 提出请求。 + 决策者需要实时选择一个动作 x t ∈ X t ⊂ R d + ，其中 X t 是时间 t 的动作空间。那么，奖励函数为 f t (x t ) = r t > x t ，消耗函数为 b t (x t ) = c t x t ，离线问题由以下线性程序给出：
()
在线线性规划在运营管理中有很多应用。决策者仅做出接受/拒绝决策的特殊情况，即 d = 1 和 X t = {0, 1}，是网络收益管理，它可以追溯到 Glover 等人。（1982）； Wang (1983) 和算法见解文献中的开发已在实践中得到广泛应用，在航空公司、酒店、铁路和云计算中都有应用。见 Bitran 和 Caldentey (2003)； Talluri 和 Van Ryzin (2006)；加列戈等人。（2019）的应用程序和最近的发展。在计算机科学文献中大量研究的另一个应用是在线匹配，其中每个请求最多分配给一个资源，即 X t = {x ∈ {0, 1} m : nj=1 x j ≤ 1} 并且 c t 是一个对角矩阵（参见，例如，Karp et al. 1990; Feldman et al. 2009b）。
算法 1 及其分析可以直接应用于在线线性规划。原始更新 (3) 变为 x t ∈ arg max x∈X t (r t > - µ > t c t )x ，这导致在线梯度 g t = -c t x t + ρ 可用于双镜像下降更新 (4 ）。
与以前关于这个问题的工作相比，例如 Agrawal 等人。（2016）；德瓦努尔和海耶斯（2009 年）；费尔德曼等人。（2010）；德瓦努尔等人。 (2019)，我们的算法在随机 i.i.d 下获得了最优的 O(T 1/2 )后悔。输入，而且速度很快，因为我们不需要求解辅助线性程序。
为了打破 O(T 1/2 ) 后悔率，在对偶问题的额外强凸性假设下，Li and Ye (2019) 提出了一种用于网络收益管理的在线算法（即 d = 1 和 X t = {0， 1})，得到 log(T ) 的后悔。当输入是对抗性的时，当收益向量 r t 和资源消耗矩阵 c t 是任意的时，我们的算法会产生最优的渐近竞争比。特别是，可以修改 Balseiro 和 Gur (2019) 的最坏情况实例，以表明即使存在单一资源并且每个请求消耗一个单位，即 c t = 1，我们的算法也能产生最佳竞争比率。这个特殊的这种情况被称为单腿收益管理问题（Talluri 和 van Ryzin，2004 年），在这种情况下，我们算法的竞争比率为 1/ρ，这是紧缩的。此外，我们在第 5 节中指定的三个非平稳随机输入中获得了新结果。
然而，我们注意到，当问题具有更多结构时，我们的竞争比率并不是最优的。
在单腿收入管理问题中，Ball 和 Queyranne (2009) 提供了一种算法，其竞争比率取决于收入 r t 的支持。特别是，当收入可以取 n 个不同的值时，竞争比率至多为 n，与 ρ 无关，这是紧缩的。
他们最坏的情况有 ρ = 1/n，这与上述硬度结果相匹配。我们的对抗结果在 AdWords 问题中也不是最优的（Mehta 等人，2007 年）——这是一种特殊版本的在线匹配问题，其中奖励与资源消耗成正比，即 c t = diag(r t )。根据 Mirrokni 等人。（2012），这应该不足为奇，因为没有算法可以在随机输入（如我们的）下为 AdWords 问题获得消失的遗憾在对抗性输入下与资源向量 ρ 无关的固定竞争比率。
6.2 有预算的重复拍卖中的竞标
截至 2019 年，大约 85% 的展示广告是使用自动算法以编程方式购买的（eMarketer，2019 年）。广告商购买广告位的常用机制是实时拍卖：每次用户访问网站时，都会进行一次拍卖以确定要在用户浏览器中显示的广告。由于在某一天有大量此类广告机会，广告商设置预算以控制其累积支出。我们讨论了如何将我们的方法应用到有预算的重复拍卖中的投标问题。
我们考虑一个广告商的预算 ρT 限制了 T 次拍卖的累积支出。
每个请求对应于一次拍卖，在该拍卖中展示可供出售。当第 t 次印象到达时，广告商首先获知价值 v t 以赢得基于印象的观众特定信息，然后确定投标 x t 以提交给拍卖。我们假设展示次数是使用次价拍卖出售的。 d t 表示竞争对手提交的最高出价，只要他的出价最高（即 x t ≥ d t ），广告商就获胜，并且在获胜的情况下支付第二高的出价（即 d t 1{x t ≥ d t }）。为了简化说明，我们假设关系被打破，有利于广告商。在出价时，广告商不知道最高的竞争出价。与实践一致，我们假设广告商只在获胜的情况下观察他的付款。
这个问题可以通过设置 f t (x) = (v t − d t )1{x t ≥ d t } 和 b t (x) = d t 1{x t ≥ d t } 映射到我们的框架。事后看来，决策者可以通过出价等于最高竞价（即 x t = d t ）的金额赢得拍卖。因此，事后看来的最优解决方案简化为解决背包问题，在该问题中，选择要赢得的印象以最大化受预算约束的净效用。问题由下式给出：
()
其中 y t ∈ {0, 1} 是一个决策变量，表示广告商是否赢得了第 t 次展示。
请注意，信息假设与我们的基线模型不同，因为在竞标时不假设竞争投标 d t 是已知的。有趣的是，由于广告是通过事后激励兼容拍卖出售的，因此我们不需要此类信息算法：算法只需要知道产生的付款。事实上，我们的分析适用于任何其他事后激励兼容拍卖。为了看到这一点，用 µ t ≥ 0 表示预算约束的对偶乘数，并观察算法 1 中的原始决策是
()
我们使用该子问题等价于在价值为 v t /(1 + µ t ) 以及拍卖的真实性的第二价格拍卖中出价。可以在不知道最大竞争出价的情况下实施最优决策。出价后，我们观察支付 b t (x t )，这导致在线对偶子梯度 g t = -b t (x t ) + ρ 可用于双镜像下降更新 (4)。
最近在 Balseiro 和 Gur（2019 年）中研究了在有预算的重复拍卖中出价的问题。在他们的论文中，他们提出了一种自适应步调策略，该策略尝试使用次梯度下降来学习最佳拉格朗日乘数。他们的自适应起搏策略显示在随机 i.i.d 下获得 O(T 1/2 ) 后悔。对输入分布的限制性假设。具体来说，他们假设价值和竞争出价是独立的，并且预期的对偶函数 E ~γ [D(µ|~γ )] 是三次可微且强凸的。然而，在实践中，价值和竞标是正相关的。我们的算法在没有对随机 i.i.d. 中的输入进行这种限制性假设的情况下获得了类似的遗憾界限。模型，以及其他输入模型。在对抗性输入的情况下，Balseiro 和 Gur (2019) 表明，没有任何算法能够获得比 v̄/ρ 更好的竞争比率，其中 v̄ 是广告商价值的统一上限。因此，我们算法的竞争比率对于这个问题是最优的。周等人。（2008）研究了一个资源的在线背包问题，并提供了一种算法，其竞争比取决于每个项目的价值重量比的范围。我们的参数化、对抗性界限不能与他们的界限直接比较。
6.3 高熵的比例匹配
在线匹配是计算机科学的核心问题，在在线广告分配、云计算中的工作/服务器分配、资源约束下的产品推荐等方面都有应用。显示出具有额外的理想属性，例如公平性和多样性（Lan 等人，2010 年；Venkatasubramanian，2010 年；秦和朱，2013 年；艾哈迈德等人，2017 年）。
我们在这里使用在线广告的术语来考虑在线匹配问题。也就是说，我们研究了一个在线广告分配问题，在每个时间段，决策者将传入的印象与一个广告商（可能有容量限制）进行匹配，旨在最大化所有传入印象的总奖励，同时保持较高的这种匹配的熵。在这个例子中，奖励函数是非线性的但是是凹的。
假设有m个广告主，共T个时间段，第j个广告主的容量为ρ j T 。在时间段 t，收入向量 r t ∈ R m 的展示到达，即，如果我们将其分配给广告商 j ∈ [m]，那么它会产生收入 (r t ) j。当印象到达时，我们决定 P m 一个分配概率变量 x t ∈ X := {x ∈ R m + | i=1 x i ≤ 1}，并以概率 (x t ) j 将到达的 P 印象分配给广告商 j。请注意，在概率为 1 - m j=1 (x t ) j 的情况下，展示不会分配给任何广告商，并且在实践中，此类展示将流向其他流量。
P 算法 A 的奖励由 R(A|~γ ) = Tt=1 r t > x t + λH(x t ) 给出，其中 λ 是熵正则化器的参数，
()
是分配概率 x 的熵函数。此应用程序的一个显着区别是决策是随机的。因此，在约束中，我们需要考虑概率匹配的实际实现。定义随机变量
()
其中 e j ∈ R m 是 R m 中的第 j 个标准单位向量。随机变量 v t 表征了在时间 t 印象的 P 实现分配。那么，算法 A 必须满足 Tt=1 v t ≤ T ρ。
最后，后见之明的问题是：
(15)
(15) 的资源约束用预期分配 x t 表示。正如我们在附录 F.1 中所讨论的，这个问题是每个在线算法性能的有效上限。
使用 f t (x) = r t > x + λH(x) 和 b t (x) = x 调用算法 1，我们得到原始决策 (3) 中的 in 可以以封闭形式计算如下：
()
当我们实现该算法时，我们通过使用概率匹配 v t 的实际实现来更新资源来考虑资源消耗的随机性，即，我们将剩余容量更新为 B t+1 = B t - v t 。使用概率匹配 x t 计算对偶子梯度，即 g t = -x t + ρ。我们的算法和分析即使在随机资源消耗下也能工作（参见第 7.3 节的讨论）。
我们通过讨论相关文献得出结论。最近，Agrawal 等人。 (2018) 研究了针对该问题设置的多轮离线比例匹配算法。我们的算法导致了 Agrawal 等人的简单在线对应物。（2018）产生类似的遗憾/复杂性界限。
杜格米等人。（2021）引入了一种基于对偶的在线算法，用于与具有乘法权重更新的随机输入进行比例匹配。然而，他们的算法需要估计基准值。当基准值未知时，可以通过求解凸优化问题来获得估计值。相比之下，我们的算法不需要知道基准的值，也不需要解决凸优化问题。我们不知道其他输入模型的任何结果。
6.4 有限库存的个性化分类优化
个性化产品分类/推荐是当今许多在线零售商面临的核心问题（例如，参见 Bernstein et al. 2015; Golrezaei et al. 2014）。
我们在这里考虑一个拥有 m 个产品和库存 B = T ρ ∈ R m + 的零售商，它限制了在 T 个时间段内销售的产品数量。在时间段 t 中，一位顾客前来寻找产品。
公司需要实时决定产品 S ⊆ {1, . . . , m} 根据库存水平和客户的个人喜好向消费者提供。然后，消费者根据一般选择模型选择（或不选择）产品，该模型指定从分类 S 和消费者个人信息中购买特定产品的概率。消费者的选择为公司创造了收入并消耗了公司的库存。在这里，我们假设选择模型为零售商所知；在实践中，这样的选择模型可以通过单独的机器学习程序来学习。
这个分类优化问题是我们在线分配问题的一个特例。我们利用一个 m 维二进制变量 x t ∈ X t ⊆ {0, 1} m 来表示第 t 个客户的分类 S，其中 X t 是满足客户搜索的产品子集，并且 (x t ) j = 如果产品 j 包含在分类中，则为 1。集合 X t 可以对显示分类的约束进行编码，例如，分类可能被限制为包含少量产品。令 b t (x) ∈ R m 捕捉到选择模型对第 t 个消费者的个性化信息，即 b t (x) 的第 j 个条目对应第 t 个客户购买第 j 个产品的概率给定分类 x。一个常用的关于 b t (x) 的概率模型是多项式 logit P 模型 (MNL)，其中 (b t (x)) j = e (θ t ) j /(1 + i∈S e (θ t ) i )1 {j ∈ S} 其中 S = {i | x i = 1} 是 x 的支持集，θ t ∈ R m 是 MNL 模型的参数，可以从学习过程中学习（Anderson et al., 1992）。因此，该分类的预期收入为 P > f t (x t ) = m j=1 (r t ) j · (b t (x t )) j = r t b t (x t )，其中 (r t ) j 是第 j 个产品的收入 . 离线问题由下式给出：
()
其中变量 y t (x) 量化了在时间 t 提供分类 x ∈ X t 的概率。这些 P 变量满足 y t (x) ≥ 0 和 x∈X t y t (x) = 1。在比例匹配示例中，我们根据预期资源消耗 b t (x) 来写约束，而不是消费者，这导致了一个有效的上限。然而，在我们的算法中，资源会根据实际实现的消耗进行更新（参见第 7.3 节的讨论）。
算法1及其分析可以直接应用于个人分类优化问题，原始更新（3）变为
(16)
这导致在线梯度 g t = -b t (x t ) + ρ 可用于双镜像下降更新 4。我们注意到，对于任意选择模型，原始决策步骤 (16) 可能无法有效解决产品数量很大。然而，在 MNL 选择模型下，最佳分类是按收入排序的，即使在显示分类的附加约束下，（16）式也可以在多项式时间内有效求解（Talluri 和 van Ryzin，2004）。
最后，我们将分类优化的结果与现有文献进行比较。 zai随机 i.i.d. 输入，Golrezaei 等人提出的算法。 (2014) 产生了 43 的竞争比率，而我们的算法达到了 (1 + ε) 的竞争比率（因为遗憾正在消失）。 Golrezaei 等人。 (2014) 还提出了一种不同的算法，可以在在线分配问题的经典结果之后获得 O(T 1/2 ) 遗憾。然而，这些算法需要求解（至少一个）具有 2 m 变量或约束的大型线性规划，当 m ≥ 30 时，这对于最先进的求解器变得不切实际。相比之下，我们提出的算法更实用、更有效因为它们不需要求解辅助线性程序。当输入是对抗性的时，Golrezaei 等人的竞争比率。（2014）比我们的更清晰。这是因为我们的分析没有假设奖励和消费之间的任何结构，而他们假设收入向量 r 对于所有请求都是相同的，并且他们的分析利用了分类的奖励在消费中是线性的这一事实（即 f t (x t ) = r > b t (x t ))。就像在 AdWords 问题中一样，我们推测在随机输入下达到消失后悔的算法不能在对抗性输入下达到固定的竞争比率。我们不知道在第 5 节中介绍的三个非平稳输入模型下的任何结果。

7 扩展和数值实验

7.1 超越镜面血统
为简单起见，我们根据在线镜像下降来说明我们的算法。虽然镜像下降是一个通用算法框架，它允许恢复实践中使用的许多其他流行算法，但我们的大多数结果都扩展到其他流行的在线线性优化算法，例如正则化跟随领导者（Shalev-Shwartz 和 Singer，2007） , Adagrad (Duchi et al., 2011) 或 Adam (Kingma and Ba, 2015)。因此，算法 1 可以解释为一种元算法，它可以使用在线优化算法作为黑盒来解决在线分配问题。
在线线性优化算法在每一步中都采用一个动作 µ t ∈ R m + 并产生线性成本 g t > µ t。我们注意到梯度 g t ∈ R m 是在采取行动后观察到的，并且可以进行对抗性选择。然后，对于任何 µ ∈ R + m ，我们将在线算法的遗憾表示为
()
遗憾 E(G, T, µ) 在所有可能的梯度 g t 上测量最坏情况下的性能，范数以 kg t k ∞ ≤ G 为界，针对固定的静态动作 µ。我们毫无损失地假设后悔在 T 中不减少。在随机输入的情况下，我们可以证明以下结果：推论 1. 考虑算法 1 的变体，它使用具有遗憾保证 E(G, T, µ) 的在线线性优化算法来更新对偶变量 µ t 与 sub -梯度 g t = -b t (x̃ t ) + ρ。
假设假设 1 成立并且请求来自 i.i.d。分布未知的模型。
然后，它对任何 T ≥ 1 成立
()
其中 G = b̄ + ρ̄ 和 C 1 在定理 1 中定义。
当底层在线线性优化算法的遗憾是 E(G, T, µ) = O(T 1/2 ) 时，先前的结果意味着算法 1 的遗憾保证相似。我们在对抗性输入和对抗性损坏情况下的结果可以被类似地扩展。对于遍历和周期性输入的情况，我们要求对偶变量是稳定的，因为它们不会 P A -k kμ t+k - μ t k 1 从一个步骤到下一个步骤变化很大。这用于限制出现在遗憾界中的额外项 τt=1。如附录中的命题 4 所述，对偶变量的稳定性适用于在线镜像下降，并且可以证明也适用于其他算法。
7.2 未知的地平线长度
我们的模型假设在地平线上的请求数量 T 是预先知道的。一般来说，当请求的数量是对抗性地选择时，即使输入是随机的，也不可能达到消失的遗憾。然而，我们的算法可以包含未知的随机范围。在这种情况下，我们将通过在计算梯度 g t = -b t (x̃ t ) + ρ 时将目标资源向量设置为 ρ = B/ET 来运行我们的算法，即使用目标。当 T 是请求序列的停止时间 ~γ = (γ t ) t≥1 时，我们可以使用与定理 1 中类似的后悔分析，并获得相同的后悔界，但额外的项 f ¯ · E[max(0, ET − T )] 在 (7) 的右边。该项的上限可以为 f¯·Var(T) 1/2 ，这会在预期的时间段 ET 中产生次线性遗憾，例如，当请求根据泊松过程到达时。
7.3 随机奖励和资源消耗
有时奖励和消耗是随机的，在决策者选择一个 x t 后实现。比例匹配（第 6.3 节）和在线分类（第 6.4 节）就是这种情况。我们的算法和分析扩展到奖励和资源消耗是随机的设置，通过根据预期奖励和消耗做出决策来给定一个动作。
更正式地说，令 ζ ~ 表示决定上述过程实现的随机变量。
~ 我们陈述并证明结果然后，我们的定理在将期望值超过 ζ 后仍然成立。
对于随机 i.i.d. 输入; 其他输入模型的结果比照遵循。我们注意到，在这种情况下，OPT(~γ) 需要根据可实现的预期奖励和消费对重新定义，以提供严格的上限（详见附录 F.1）。
命题 3。考虑具有随机资源消耗、步长 η ≥ 0 和初始解 µ 1 ∈ R m + 的算法 1。假设假设 1-2 得到满足，并且请求来自 i.i.d。分布未知的模型。然后，它对任何 T ≥ 1 成立
()
其中常数 C 1 , C 2 , C 3 在定理 1 中定义。
7.4 近似求解子问题 (3)
在实践中，观察到的奖励和消费函数通常来自机器学习模型，这些模型可能是嘈杂且不精确的。当在子问题 (3) 中使用这样的噪声输入时，所获得的解决方案可以被视为底层真实统计模型的近似解决方案。此外，精确地解决子问题 (3) 有时可能会很昂贵，特别是当子问题是非凸的并且使用近似算法时。有趣的是，我们的算法和分析对于原始子问题的不精确解决方案是稳健的。
假设子问题通过附加误差 t 解决，即在时间 t 收集的奖励验证 * f t (x t ) - µ > t b t (x t ) ≥ f t (µ t ) - t 。在随机 i.i.d 下的分析中。输入（其他设置遵循类似的论点），我们使用 (3) 的唯一地方是表明 * 算法在时间 t 收集的奖励满足 f t (x t ) - µ > t b t (x t ) = f t (x t ) （在（8）中使用）。定理 1 分析中的所有其他步骤都遵循，并且错误 t 将累加地出现在后悔 P 界 (7) 的右侧，即，遗憾 (A) ≤ O(T 1/2 ) + Tt =1 t with properly chosen step-size. 如果累积的 P 误差足够小，即 Tt=1 t = O(T 1/2 )，那么我们仍然可以在定理 1 中得到 Regret (A) = O(T 1/2 )。当有不精确的解决方案可用时，遗憾界限是在线算法中最好的希望。
类似地，假设用乘法误差 α 求解子问题（这通常发生在使用 * 近似算法求解子问题时），即 α(f t (x t ) - µ > t b t (x t )) ≥ f t (μt)。在随机 i.i.d 下的分析中。输入（同样，其他设置遵循类似的论点），我们可以简单地将 (8) 替换为 αf t (x t ) ≥ f t ∗ (µ t ) + αµ > t b t (x t )，以及定理分析中的其他步骤 1 后跟 α 的值结转。这表明具有适当 √ 步长的算法 1 具有渐近 α 竞争性，即 E ~γ ∼P T [OPT(~γ ) − αR(A|~γ )] ≤ O( T )。
7.5 数值实验
在附录 H 中，我们展示了我们的算法在具有随机 i.i.d 的在线线性规划上的数值实验。输入（附录 H.1），以及与遍历输入的比例匹配（附录 H.2）。在线线性规划实验（附录 H.1）验证了算法 1 在时间范围 T、资源维度 m 和原始决策维度 d 上的后悔的理论依赖性。他们表明在线梯度下降（使用双重更新（6））和√乘法权重更新（使用双重更新（5））有 Õ( mT ) 遗憾，而带投影的乘法 √ 权重更新（附录 C）有 Õ( T ) 后悔。此外，所有三种算法的遗憾都与原始决策维度 d 无关。这些发现与定理 1 和附录 B 和 C 中的讨论一致。比例√匹配实验验证了算法 1 在遍历输入下的 Õ( T ) 遗憾界，这与定理 5 一致。

8 结论和未来方向

在本文中，我们针对具有非线性奖励函数、非线性消费函数和潜在积分决策变量的在线分配问题提出了一类简单而稳健的算法。我们表明，我们的算法在随机 i.i.d 下实现了消失的遗憾。和非平稳输入，以及对抗性输入下的固定竞争比率。此外，我们的算法的性能被证明在各种输入模型中都是最佳的。我们的算法忽略了输入模型，因为它们在不知道它们所面临的输入类型的情况下获得了良好的性能。我们讨论了在线线性规划、预算重复拍卖中的投标、高熵在线匹配以及有限库存的个性化分类优化的应用。在许多情况下，我们的算法会给出新的结果或匹配/改进文献中现有算法的性能。
一个有趣的未来研究方向是探索在对输入进行更严格的假设。例如，当输入为对抗性时，当奖励和资源消耗相互关联时，是否可以获得更好的竞争比率是值得研究的。或者，当输入是随机的时，有趣的是确定当预期的对偶函数表现更好时是否可以获得更好的遗憾界限。

数值实验

H.1 在线线性规划
在本节中，我们将介绍合成随机 i.i.d 下的在线线性规划（第 6.1 节）的数值实验。输入。本节的目标是验证算法 1 对时间范围 T、资源维度 m 和原始决策维度 d 的依赖性，如定理 1 中所述，具有不同的参考函数。
**数据生成：**我们考虑一个在线线性程序，如第 6.1 节所述。在时间 t = 1，。 . . , T , 企业收到一个消费矩阵 c t ∈ R m×d 和一个奖励向量 r t ∈ R d , 需要做出实时决策 x t ∈ X t = Δ d , 其中 Δ d 是 R 中的标准单纯形 d ，即 Δ d = {x ∈ R d : kxk 1 = 1, x ≥ 0}。在我们的实验中，矩阵 c t 的第 i 行中的条目是从具有参数 p i 的伯努利分布生成的，对于 i = 1, 。 . . , 米。然后概率 > 奖励向量生成为 r t = Proj [0,r̄] θ c t + δ t 1 ，其中 θ ∈ R m 是将消费 c t 与奖励 r t 联系起来的未知参数，并且 δ t ∈ R 是一个 i.i.d。高斯噪声。投影步骤确保奖励向量的每个条目始终大于 0 且小于 r̄。
资源向量 ρ 设置为 β ∗ p，其中 β ∈ R m 并且每个条目是从均匀分布 U(0.25, 0.75) 生成的。 β 的值控制每个资源的消耗预算比率。
在我们的实验中，我们设置 p i = (1 + α)/2 其中 α ∼ Beta(1, 3) 来自 beta 分布。
这保证了 ρ = β ∗ p ∈ [0.125, 0.75] m 是从重新缩放的 beta 分布生成的，其中 ρ̄ = 0.75 和 ρ = 0.125。此外，设置 r̄ = 10 保证 f ̄ = 10 是奖励函数的有效上限，并且 b̄ = max x∈Δ d kc t xk ∞ = 1 提供了消费的有效上限。我们从标准多元高斯分布 N (0, diag(1)) 生成 θ，然后对其进行归一化以满足 kθk 2 = 1。噪声 δ t 是 i.i.d 生成的。从每个时间 t 的高斯分布 N (0, 1)。
**随机试验：**实验中有两层随机性：随机性来自生成模型的参数（即 α、β、p、θ），以及随机性来自于从模型生成奖励向量 r t 和消费矩阵 c t 给定的参数。
在数值实验中，我们首先获得 10 组随机参数（用于第一层随机性），并且对于每组参数，我们运行我们的算法（算法 1）10 次（用于第二层随机性）。总共有 100 次随机试验，并报告了平均后悔及其置信区间。
**遗憾计算：**对于每个随机试验，我们计算算法 1 获得的累积奖励。然后我们计算 100 次试验的平均累积奖励作为算法 1 的预期奖励，即 E ~γ ∈ ~ P [R(A| 〜γ）]。由于离线问题可能太大而无法存储在内存中，因此计算 OPT(~γ ) 在计算上对我们的实验规模是不利的。
图1 分别显示 OGD、MWU 和 MWU-P 与时间范围 T、资源维度 m 和决策维度 d 的遗憾及其 95% 置信区间（阴影中）的图。
Figure 1
我们使用 E ~γ ∈ ~ P [D(μ̄ T |~γ )] 作为 OPT 的上限，其中 μ̄ T = T 1 Tt=1 μ t 是我们算法产生的对偶变量的平均值。我们将遗憾（的上限）计算为 E ~γ ~ ~ P [D(μ̄ T |~γ ) − R(A|~γ )]。
**结果：**我们在这里通过三个双重更新检查算法 1 的遗憾对 T、m、d 的依赖性：如 (6) 中定义的在线梯度下降 (OGD)、如 (5) 中定义的乘法权重更新 (MWU)，以及如附录 B.2 中所述，使用投影 (MWU-P) 更新乘法权重。实验中的步长 η 设置如下 √ • 在线梯度下降 (OGD)：η = s/ T m, √ • 乘法权重更新 (MWU)：η = s/ T, √ • 乘法权重随投影更新 (MWU-P): η = s/T，其中 s 从集合 {0.1, 1, 10, 100} 调整以实现最小的遗憾。
图 1 绘制了由 OGD、MWU 和 MWU-P 获得的遗憾以及其 95% 置信区间（阴影中）与时间范围 T、资源维度 m 和决策维度 d 的关系。每个点是相应算法 100 次随机试验的平均后悔。下面的观察是有序的。
(a) 地平线的长度。对于所有三种算法，遗憾都有 O(T 1/2 ) 增长，这与我们的理论是一致的。
(b) 资源数量。 MWU-P的regret比MWU和OGD的m增长慢，这与我们的理论一致，即MWU-P的regret有O(log(m))的增长，而OGD和MWU的regret有O( m 1/2 ) 增长。
© 原始决策维度。对于所有三种算法，遗憾不随 d 增长，这与我们的理论一致。

H.2 比例匹配
在本节中，我们将介绍在 i.i.d 下具有高熵的比例匹配（第 6.3 节）的数值实验。输入和遍历输入。
**数据生成：**对于随机 i.i.d. 输入，我们使用 Balseiro 等人介绍的数据集。
（2014）。他们考虑了发布商所面临的问题，该发布商必须向广告商提供印象以最大限度地提高点击率。（他们考虑了最大化现货市场收入的次要目标，我们在本实验中没有考虑到这一点）。我们将熵正则化器 H(x) 与参数 λ = 0.0002 的目标相结合，经过调整以平衡分配的多样性和效率。在每个问题实例中，有 m 个广告商；广告客户 j 最多可以分配 ρ j T 次展示。奖励向量 r t 给出了将印象分配给每个广告商的预期点击率。在他们的论文中，他们使用对数正态分布的混合参数估计点击率。因为他们没有报告用于估计他们的模型的实际数据，所以我们将他们的估计模型作为生成模型，并从他们论文中提供的分布中抽样印象。我们为每个发布者生成了 500,000 个样本，并从他们的数据集中展示了发布者 2 和发布者 5 的结果。
为了测试我们的算法在遍历输入下的性能，我们扰乱了 Balseiro 等人的数据集。（2014）在点击率中引入自相关，同时在每个时间段保持相同的边际分布。在我们的遍历数据集中，点击率遵循 AR(1) 过程，即具有一个周期滞后的自回归过程。也就是说，我们设置 log(r t ) = c log(r t−1 ) + t 其中 c ∈ [0, 1] 捕获自相关量，t 是多元 i.i.d。选择具有均值和协方差矩阵的随机变量，以便 r t 像在原始数据集中一样分布。特别是，设置 c = 0 可以恢复 i.i.d 的情况。输入，而设置 c = 1 会导致奖励随着时间的推移保持不变。在我们的实验中，我们设置 c ∈ {0, 0.5, 0.9}。
**随机试验：**当资源消耗为随机时，算法1中有两层随机性：来自数据（即P）的随机性和来自比例的随机性~在数值实验中，我们首先获得50个具有国家匹配的随机数据集（即，ζ）。
大小 T（对于第一层随机性），对于每个数据集，我们运行我们的算法 50 次（对于第二层随机性）。
**遗憾和相对奖励计算：**对于给定轮次 T 的每个随机试验，我们计算算法 1 获得的累积奖励。然后我们计算平均累积奖励奖励 2,500 次试验作为我们对算法 1 的预期奖励，即 E ~γ ∈ ~ P [R(A|~γ )]。精确计算 OPT(~γ ) 可能会很昂贵，因为这是一个很大的凸优化问题。我们 P 使用 E ~γ ∈ ~ P [D(μ̄ T |~γ )] 作为 OPT 的上限，其中 μ̄ T = T 1 Tt=1 μ t 是我们算法产生的对偶变量的平均值。我们将遗憾（的上限）计算为 E ~γ ∼ ~ P [D(μ̄ T |~γ ) − R(A|~γ )]，并将相对奖励（的下限）计算为 E ~γ ∼ ~ P [R(A|~γ )] /E ~γ ∈ ~ P [D(μ̄ T |~γ )]。
为了展示我们算法的稳健性，我们对两个输入模型使用相同的步长。
**结果：**我们在图 2 中报告了具有 i.i.d. 的出版商 2 和出版商 5 的遗憾及其 95% 置信区间。输入（即 c = 0）和遍历输入（具有不同的相关级别 c）。每个点都绘制了 2,500 次随机试验的平均后悔图。在这些实验中，我们使用步长 η = T -1/2 而没有太多调整。我们可以清楚地看到两个随机 i.i.d 的遗憾。输入和遍历输入有 T 1/2 的增长，验证了我们的理论。正如预期的那样，请求具有自相关时的性能会变差。
同样，图 3 绘制了具有 i.i.d. 的两个出版商的相对奖励。输入和遍历输入。随着 T 的增加，相对奖励增加，并且最终应该在所有相关级别收敛到一个，因为遗憾是 Õ(T 1/2 ) 并且我们的算法收集的奖励以 Ω(T ) 的速率增长。在 i.i.d. 的 10,000 个在线样本中，相对奖励超过 80%。输入（c = 0）和具有小相关性的遍历输入（c = 0.5），这展示了我们提出的算法的有效性。
图 4 将遗憾及其 95% 置信区间绘制为 T 的函数，其中 i.i.d 具有不同的步长 η = s · T -1/2。输入 s ∈ {0.1, 1, 10}。我们看到，对于所有步长级别 s，遗憾有 T 1/2 增长。此外，正如我们从图 4 中看到的，遗憾对发布者 2 的步长不太敏感，而对发布者 5 更敏感。这表明通过适当调整步长可以获得进一步的性能改进。