Online Learning and Pricing with Reusable Resources: Linear Bandits with Sub-Exponential Rewards: Li

摘要

我们考虑一个基于价格的收益管理问题，该问题在有限的时间范围 T 内具有可重复使用的资源。该问题在汽车/自行车租赁、拼车、云计算和酒店管理中具有重要应用。客户遵循价格相关的泊松过程到达，每个客户请求一个单位的 c 同质可重用资源。如果有可用的单位，客户将在与价格相关的指数分布的服务时间内得到服务；否则，她会在队列中等待，直到下一个可用单元。决策者假设到达间隔和服务间隔对与发布价格相关的 df 维特征向量具有未知的线性相关性。我们提出了一种速率最优的在线学习和定价算法，称为批量线性置信界 (BLinUCB)，并证明累积后悔为 O~(df √ T)。在建立遗憾时，我们通过耦合参数将瞬态系统性能与价格变化绑定，并推广线性老虎机以适应次指数奖励。

1 引言

可重复使用资源的收益管理在现代经济中得到了广泛的应用，其中大量涉及资源共享。在这些应用程序中，公司被赋予了可重复使用产品的有限容量，并且每个客户请求一个产品，使用它一段时间，然后将其返回给公司，此时该产品单元可以被其他客户使用（见 Levi & Radovanovic´，2010；Chen 等人，2017；Rusmevichientong 等人，2020）。
例如，亚马逊和微软等公司提供云计算服务和用户在一定时间内使用虚拟机来完成计算任务（参见 Kaewpuang 等人，2013 年；Puschel 等人，2015 年）。云中请求的确切使用持续时间没有事先指定，因此需求的偏离也是随机的。公司需要根据当前的产能利用率以及收到的请求动态决定向用户提供什么价格（参见 Doan 等人，2020 年）。更多示例可以在汽车/自行车租赁业务（Oliveira 等人，2018 年）、停车设施管理（Owen & Simchi-Levi，2018 年）和按需服务平台（例如 Uber 和 Lyft 等叫车服务）中找到（Banerjee 等人，2015；Liu & Li，2017；Bimpikis 等人，2019）。在上述所有应用中，客户使用服务的意愿受所提供价格的影响；然而，决策者可能不知道需求分布以及需求对价格变化的反应（见 Xu & Li，2013）。当候选价格集是连续的（即在连续的行动空间上学习最优定价策略）时，这个问题甚至更具挑战性。
简短的问题陈述 我们考虑以下问题：一家提供服务的公司拥有 c 个同质的可重用资源池，并且可以在有限的时间 T 内动态发布价格（对于这个池）。客户遵循价格相关的泊松过程到达，并请求一个来自 c 可重用资源的单元。如果有可用的资源单元，到达的客户会得到该单元并花费一个呈指数分布的随机时间。服务完成后，该客户向公司支付公布价格乘以实际服务时间的金额，并释放资源单元为其他客户服务。如果所有单元在到达时都被占用，客户会排队等待下一个可用单元。目标是找到使总预期收入最大化的最优定价策略。在本文中，我们假设到达间隔和服务间隔对与发布价格相关的 df 维特征向量具有未知的线性相关性。因此，我们需要学习底层的线性函数，同时最大化总预期收入。绩效衡量标准是累积遗憾，它是在完全分布信息下通过学习算法获得的收入与通过透视最优定价策略获得的收入之间的差异。
主要成果和贡献 我们提出了一种批量线性置信界 (BLinUCB) 算法，并证明累积后悔是 O~(df √ T)，它与对数因子的下界匹配。
收入管理的最新文献主要关注易腐资源（即，售出的单位已经消失，不能被其他客户重复使用），该问题属于一般的在线背包问题（例如 , Ferreira 等人，2018 年；Chen 和 Shi，2019b)。相比之下，可重用资源设置自然嵌入了更难分析的多服务器排队系统。一个主要的复杂性是，每当我们更改价格时，系统仍然包含先前发布的价格中的“老”客户，并且当新的客户流进来时也需要时间才能达到稳定状态（以便提取新公布价格）。
在较高的层次上，我们的算法将学习范围分成连续的批次，并使用以前批次中收集的过去销售来选择价格。对于每个批次，我们需要将其进一步划分为两个区间。第一个区间是（i）完成服务现有客户（在先前发布的价格下）并在新发布的价格下达到相应队列的稳定状态，以及（ii）消除次指数观察带来的重尾效应。系统在第二个区间保持稳定状态。
本文开发了一种新的基于线性强盗的方法，用于在连续价格集下对可重复使用资源进行收益管理。我们强调了建立最佳遗憾上限的两种主要技术。首先，利用 Jia 等人开发的耦合论点。（2020），我们限制了由于瞬态系统性能导致的非平稳性损失。每当发布新价格时，潜在的排队动态都会发生变化，系统需要时间才能达到稳定状态。我们分析了价格变化时 M/M/c 队列的瞬态时间长度（见命题 4 和命题 5）。其次，典型的线性老虎机假设亚高斯误差，这允许这些算法直接与线性（岭）回归技术集成。
我们的遗憾分析提供了具有次指数观察的线性老虎机的理论研究，并通过描绘重尾奖励的影响为线性老虎机文学的广阔前景做出了贡献。我们的 BLinUCB 积累了一组精心设计的观察结果，用于调用伯恩斯坦不等式。我们使用经验统计数据作为数据点，以概率保证更新回归系数的估计（见命题 2 和命题 3）。

2 文献回顾

我们的工作与以下文献流密切相关。
可重用资源的收益管理 大多数先前的收入管理文献都研究易腐烂资源（den Boer，2015；Deng 等人，2020；2021）。
在这里，我们只关注可重用资源的收益管理文献。可重用资源设置中的一个关键挑战是需要动态匹配需求与不断变化的可重用资源库存。最近的几项研究开发了可证明接近最优的启发式准入控制（参见，例如，Levi & Radovanovic´, 2010; Chen & Shi, 2017; Chen et al., 2017）。除了准入控制之外，还有大量文献考虑了针对单一资源设置的静态和动态定价（例如，参见 Maglaras，2006；Araman 和 Caldentey，2009；Xu 和 Li，2013；Besbes 等，2022）和多资源设置（Doan et al., 2020; Lei & Jasin, 2020; Owen & Simchi-Levi, 2018; Rusmevichientong et al., 2020）。上述文献假设决策者先验地知道基础模型的分布信息，并且考虑到不完整信息的工作很少。据我们所知，仅有的两篇学习论文是由 Chen 等人撰写的。（2020b）和贾等人。（2020 年）。前者开发了一种随机梯度下降算法，这与我们在本文中提出的线性老虎机算法不同。贾等人。 (2020) 应用了多臂老虎机技术并涉及跨时动态（即客户等待、获得服务和离开），但它仅限于有限的离散价格集。
相比之下，我们的工作考虑了一个连续的价格空间，分析起来非常重要。在我们的设置下，线性老虎机的集中界限是新的，对次优性的分析也是新的（显示数据矩阵上的特征向量范数如何演变）。
线性强盗 已经有几项关于线性老虎机的成熟研究（例如，参见 Li 等人，2010；AbbasiYadkori 等人，2011；Tao 等人，2018；Alieva 等人，2021），包括各种重点，例如作为对非线性老虎机的推广（Filippi et al., 2010），对延迟奖励的扩展（Zhou et al., 2019），多任务线性老虎机（Cella et al., 2020; Hu et al., 2021）等等上。所有这些一般的线性老虎机算法都假设亚高斯误差（参见，例如，Rusmevichientong & Tsitsiklis，2010 中的假设 1），这允许这些算法直接与线性（岭）回归技术集成。据我们所知，我们的遗憾分析提供了第一个具有次指数观察的线性老虎机理论研究（也可以被视为次指数奖励），并通过描述重尾奖励。
不经常更改动作的强盗问题 近年来，还研究了具有不频繁动作变化的强盗问题，从静态批量设计 (Perchet et al., 2016) 到自适应确定的批量大小 (Gao et al., 2019)。一些文献考虑切换成本明确（Cesa-Bianchi et al., 2013; Simchi-Levi & Xu, 2019; Han et al., 2020）。具体来说，Cheung 等人。
（2017）；陈超（2019）；陈等人。（2020a）讨论了收入管理中价格变动不频繁的实际原因，并开发了价格转换有限的定价算法。在我们的工作中，我们考虑使用 O(log(T)) 批次的静态批次设计，其顺序与 Auer 等人的相同。（2002）；奥尔和奥特纳 (2010)；高等人。（2019）。与相关文献的不同之处在于，我们没有对行动变更执行严格的预算，也没有最小化行动变更的目标。
通过 MDP 进行强化学习 公司根据系统中当前客户数量来决定价格的过程也可以抽象为马尔可夫决策过程（MDP）。强化学习 (RL) 广泛用于解决 MDP (Szepesvari´, 2010; Sutton & Barto, 2018)。然而，流行的 RL 方法，例如 Q-Learning (Even-Dar et al., 2003)、UCRL2 (Auer et al., 2008) 和 Thompson Sampling for RL (Russo et al., 2018)，都假设折扣立即可观察的奖励与状态-动作价值函数之间的求和关系，这在我们的设置中不成立。关键是，将上述任何一种方法适应我们的设置都需要在稳态条件下估计价值函数，这需要耦合分析。我们的框架为在复杂的随机系统中进行强化学习打开了许多大门。
队列的瞬态分析 瞬态下 M/M/c 队列的分析由来已久。尽管根据第一类修正 Bessel 函数的分布是明确已知的，但为了了解队列如何随时间演变（Ledermann & Reuter, 1954; Abate & Whitt, 1987; 1988; Bailey, 1954; Kelton & Law, 1985; Morisaku, 1976; Parthasarathy & Sharafali, 1989)。 Kelton & Law (1985) 指出，队列需要运行“足够长的时间”以消散初始起点并在随后的运行“稳态”部分收集观察结果。我们的结果给出了 M/M/c 队列的混合时间（在动作改变时）的第一个有限样本。具体来说，我们在这个目标系统和一个虚拟系统之间建立了一个耦合参数，从一个从稳态分布中采样的状态开始，然后保持稳态。

3 问题描述

我们考虑一家提供服务的公司，它在有限的时间范围 T 内向客户提供有限容量 c 的可重复使用资源。在时期 t ≤ T 的开始，公司公布一个固定范围 [pL, pU] 之间的价格 pt 以最大化累计总收入。在公布的价格 p, ∀p ∈ [pL, pU ] 下，客户按照泊松过程以速率 λp 到达系统并得到服务在先到先服务的基础上，通过占用一个单位的资源，服务时间遵循速率为 µp 的指数分布。客户为每单位服务时间支付 p。如果没有足够的资源容量，客户将加入队列直到被服务。请注意，任何已发布价格 p ∈ [pL, pU ] 下的服务系统都可以简化为 M/M/c 队列（当系统仅包含以该价格到达的客户时，即在完成服务其他以先前到达的客户后公布价格）。指数服务时间的假设在文献中是标准的（参见，例如，Savin 等人，2005；Gans & Savin，2007；Owen & Simchi-Levi，2018）。
我们考虑特征向量和到达/服务率之间的线性关系。更准确地说，对于每个价格 p ∈ [pL, pU ]，公司可以观察到一个特征向量 xp ∈ R df 。
例如，一个简单的非平凡案例是，当利率通常与价格本身呈线性关系时（即 df = 1），这个例子得到了文献的充分支持（参见 Mankiw，2014 年）； df = 3 可以包括价格本身、主要竞争对手的价格、社区收入水平和愿意支付的价格。
到达率λp和服务率μp与特征向量xp有如下关系：
（）
其中 θλ ∈ R df 和 θµ ∈ R df 是两个未知系数向量。回想一下，1/λp 是两个连续到达的客户之间的平均时间间隔，1/µp 是价格 p 下的平均服务时间。
我们假设公司不知道潜在的系数 θλ 和 θμ 先验。该公司的目标是找到一个定期审查定价政策，如 π : {(n, t) : n = 0, 1, . . . , ∞, t = 1, . . . , T} → [pL, pU ]，其中公司选择价格 π(n, t) ∈ [pL, pU ] 为 t 期，当在 t 期开始时系统中有 n 个客户。
目标是最大化预期总收入。期间 t 期间定价政策 π 下的预期收入由 J π t 表示，期间 {1, . . . , T} 表示为 J π = PT t=1 J π t 。
假设 1
1.对于任何候选价格 p ∈ [pL, pU ]，利用率 ρp = λp cµp < 1。
2.log(T)≥4。
3.已知一个常数 rmax，使得 rmax ≥ maxp∈[pL,pU ] λp/µp。
假设 1 说明如下： 1) 系统对于任何候选价格都是稳定的； 2）我们要求规划的范围足够长，因为在任何公布的价格下，底层服务系统都需要时间才能达到稳定状态； 3) 这个假设可以简单地通过让rmax = c 并且它进一步意味着所有候选价格的固定收益率的有效上限是已知的。
假设 2对于任何两个候选价格 ph, pl ∈ [pL, pU ] 和 ph > pl ，我们有：
1. λpl ≥ λph 。
2. λpl - λph ≤ ρl -3e log ρl 。
3. 如果 µpl > µph ，则 ρl ≥ ρ 2 h 。
假设 2 说明如下： 1) 较低价格下的到达率高于或等于较高价格下的到达率； 2）两个价格之间的到达率差异是有界的（由一个大常数）； 3）如果低价格下的服务率高于高价格下的服务率，则前者的利用率必须大于后者的平方。这个条件（后来被用来证明不等式（18g）和（24c））在以下意义上是相当温和的：如果 µpl ≤ µph ，我们不需要任何条件；否则，如果 µpl > µph ，则保证 ρl ≥ ρ 2 h 是 ρl ≥ ρh 的简单充分条件，这简化为 λpl /λph ≥ µpl /µph ，这意味着到达率的比率发生变化（相对于价格）超过服务费率变化的比率。
3.1 遗憾、轻松遗憾和 LP 基准
累积后悔的概念通常用于在线学习中（参见 Shalev-Shwartz 等人，2011 年），如果决策者对系统的信息有限，而不是在完整信息下的最佳性能，则评估策略的性能。在我们的问题中，完整的信息意味着公司知道价格 p, ∀p ∈ [pL, pU ] 和相关的到达率 λp 和服务率 μp 之间的潜在映射，即公司知道 θλ 和 θμ。在完整信息下，我们有状态相关的最优策略 π ∗ = argmaxπJ π 和状态相关的最优预期收益 J ∗ = J π ∗ 。因此，我们可以将任何定价策略 π 的遗憾定义为总状态相关的最优预期收益 J ∗ 与给定策略 π 下的总预期收益之间的差，即 J π 。简而言之，我们的目标是找到导致小遗憾的启发式定价策略。
定义 1. 策略 π 在周期 T 结束时的累积后悔定义为：Regret(π, T) = J ∗ - J π 。
然而，找到与状态相关的最优定价策略 π ∗ 需要公司在不确定的参数下以 (n, t) 的形式求解具有无限数量潜在状态的动态程序，这在计算上是难以处理的。
此外，当报价随时间变化时，瞬态系统性能很复杂并且难以分析。
因此，求解这个动态程序是不切实际的，更不可能得到 π ∗ 和 J ∗ 。为了解决这个问题，我们制定了任何政策可实现的预期收入的上限，因此，也是依赖于状态的最优预期收入的上限。
我们将 [pL, pU ] 统一离散化为一个集合 P，其中离散化间隔可以任意小。考虑 n = 0 时的连续决策变量 π p nt 。 . . , ∞, t = 1, . . . , T, p ∈ P, ant 对于 n = 0, . . . , ∞, t = 1, . . . , T 和 Jnt 对于 n = 0, . . . , ∞, t = 1, . . . , T. 令变量 ant 表示在任意策略下系统在 t 期开始时有 n 个客户的概率；令变量 π p nt 表示该策略在状态 (n, t) 选择价格 p 的概率；和约束 (1e) 表明变量 Jnt 最多取在阶段 T 结束前从状态 (n, t) 到达的客户在阶段 t 结束之前收集的预期收入的值。因此，我们可以如下制定线性规划 (LP)。
（）
命题 1. LP 解决方案提供了最优收益的上限，即 J ∗ ≤ J LP 。
证明草图：我们证明了与任何可采政策相关的决策变量（π，a，J）满足线性规划（1）的约束，并且该可采政策的预期收益恰好是（1）中对应的目标值 . 回想一下，P 的离散化区间可以任意小，因此对于任何可接受的策略 π 以及最优状态相关策略 π *，J LP ≥ J π。
详细证明见附录 A。
通过定义 p~ = argmaxp∈[pL,pU ] λp µp p，我们在 (1) 中找到 LP 的最优解 (~π, a, ~ J~) 如下（我们将 [pL, pU ] 离散化为 P 使得 p~ ∈ P)。
（）
我们可以计算 J LP = T λp~ µp~ p~。请注意，λp µp p 是价格 p 的固定收益率，表示为 r(λp, µp, p)。因此，我们称价格 p 为（静态）最优状态无关价格，即具有最高固定收益率的价格。
这个结果可以看作是经典静态定价上限的“可重复使用的模拟”，用于使用易腐资源进行收益管理（参见 Gallego 和 Van Ryzin，1994 年）。
推论 1. 单一静态价格政策 π p∼ : π(n, t) = p, ∼ ∀n = 0, 1, . . . , ∞, ∀t = 1, . . . , T 在 T → ∞ 时是渐近最优的，我们也有 J LP -J π p∼ ≤ o( √ T)。
这个推论直接来自命题 1 和命题 4，我们在附录 A 中提供了详细证明。根据推论 1，对于任何有限 T，静态基准和任意复杂的状态相关策略之间的损失大致在 log( T)，与学习静态策略导致的紧 √T 损失相比是微不足道的。
因此，学习静态定价策略已经被证明是接近最优的，并且可以说在实际环境中更易于实施和更公平。
定义 2. 放松遗憾定义为
（）
根据命题 1，我们得到对于任何策略 π，相应的宽松遗憾是其遗憾的有效上限，即 Regret(π, T) ≥ Regret(π, T)。
4 在线学习和定价：BLinUCB
不失一般性，我们考虑一个已知的特征生成函数 F(·) : [pL, pU ] → R df ，它为公司提供价格 p ∈ [pL, pU ] 的特征向量 xp。
4.1 线性关系下的 M/M/c 队列参数
考虑具有特征向量 xp 的价格 p ∈ [pL, pU ]。
不失一般性，我们首先分析到达过程。到达时间间隔是服从指数分布的随机变量，均值为 1/λp = θ T λ xp。
考虑对到达时间 ^di§, i = 1, 的 nm§ 观测值。 . . , nm§ 并将 ¯dp 表示为到达时间间隔的经验平均值 ¯dp = Pnm§ i=1 ^di§/nm§。然后随机变量¯dp 遵循 Erlang 分布，Erlang(nm§, nm§λp)。对于每个实现的价格 p，我们都有一组对应的数据，可以用元组 (p, xp, ¯dp, nm§) 表示。
让 SE 表示次指数。根据引理 2，^di§ ∼ SE(4/λ2 p , 2/λp)。然后从引理 3 和 4（在附录 B 中）推导出来，我们有
（）
因此，我们可以等价地写成
（2）
其中随机误差项
（）
此外，通过分析 Erlang 分布，我们可以得出 p 的均值为 0，p 的方差为 1/(nm§λ 2 p )，其中 1/λp = θ T λ xp。基于异方差线性回归模型的加权最小二乘法 (Seber & Lee, 2012)，我们估计系数 θλ 如下。考虑我们观察到 N 个不同的价格和 N ≥ df 。定义一个对角矩阵 Ω，其中第 i 个元素是第 i 个实施价格的误差项的方差，即 1/(nm(pi)λ 2 pi )。请注意，λp 是未知的，我们稍后使用近似矩阵 Ω^ 来替换 Ω。我们使用矩阵 X ∈ R N×df 来表示执行价格的特征，并使用向量 d ∈ R N 来表示执行价格的经验到达时间均值。然后我们可以估计未知系数 b
（3）
通过让 ~ = [ 1, . . . , N ] T ，我们可以写成 ^θλ = θλ + (XT Ω -1X) -1XT Ω -1~ 。在下面的分析中，我们假设 X 和 ~ 之间的依赖关系可以忽略不计，因为批处理。如果不假定这种依赖性，则可以按照 Abbasi- 亚德科里等人。（2011）。
当 N ≥ df 时，XT Ω -1X 是非奇异的，因此 ^θλ 是明确定义的。此外，我们可以很容易地证明 E[ ^θλ] = θλ 和 Var( ^θλ) = (XT Ω -1X) -1 。对于具有特征向量 x 0 的任何价格 p 0 ，我们可以通过 ^θ T λ x 0 估计 θ T λ x 0 并进一步推导出 θ T λ x 0 的置信上限。
**命题 2.（线性关系下泊松过程的次指数尾界）**考虑任何已实施价格 p 的 N 个实施价格，其中 N ≥ df 和 nm§ ≥ 8 log(T)。然后，对于在 (3) 中计算的任何新的有效特征向量 x 0 和 ^θλ，一个 ha
（）
证明草图：令矩阵 A = (XT Ω -1X) -1XT Ω -1 。
用列向量 a·i 表示 A 的第 i 列，用 adi 表示 A 的元素。我们首先证明 ˆθλ 的第 d 个元素遵循 SE( PN i=1 a 2 di(4/niλ 2 i )， maxi=1,…,N 2|adi|/(niλi)) 均值为 θλ,d。我们进一步证明了 ^θ T λ x 0 遵循 SE(4x 0T (XT Ω -1X) -1x 0 , maxi=1,…,N 2|x 0T a·i |/(niλi) 均值为 θ T λ x 0 。当 nm§ ≥ 8 log(T) 时，我们可以进一步证明它满足对 SE 变量应用浓度界的亚高斯行为类型的要求（这种不等式可以在文献中找到，例如 Boucheron 等人。 , 2013; Rigollet & Hutter ¨ , 2015)。我们在附录 B 中提供了详细的证明。这里的基本思想是通过积累观察来消除重尾效应（参见 Jia et al., 2021）。
在上述分析中，我们考虑一个已知的协方差矩阵Ω。然而，在现实中，这个矩阵也是未知的。
因此，我们用 Ω^ 估计它（到达过程也用 Ω^ λ 表示）。我们通过 ¯d 2 pi /(nm(pi)) 估计第 i 个元素，即第 i 个实施价格的误差项的方差。通过具有异方差性的线性回归分析（参见，例如，Seber & Lee，2012），估计系数
（5）
与 (3) 中的估计系数具有相同的性质。因此，命题 2 也适用于 (5) 中定义的 ^θ。
在下面的分析中，我们用 Ω^ 代替 Ω 来代替到达和服务过程。
我们将相同的技术应用于服务流程。用 n s m§ 表示已成功服务的客户数，用 g^i§ 表示观察到的客户 i 的服务时间。类似地定义 Ωˆ µ 和 yµ，因此我们可以计算估计为
（6）
因此，我们可以达到相同的浓度结果：
（7）
Proposition 3. For price p with a feature vector x, we have:
（）
其中
（）
命题 3 的证明是基于命题 2。LHS 可以下限为两个项的乘积，并且这两个项与命题 2 的 LHS 格式相同。我们在附录 B 中提供了详细证明
4.2BLinUCB
我们在算法 1 中介绍了 Batch LinUCB (BLinUCB)。
我们将总视野分为两个阶段，热身阶段和学习阶段。在预热阶段，该算法开始对参数 θλ 和 θμ 进行有效估计，如 (5) 和 (6) 中计算的那样。为了初始化可逆矩阵 XT Ωˆ -1 µ X 和 XT Ωˆ -1 λ X，我们选择 df 个价格，其特征向量构成 span(xp, p ∈ [pL, pU ]) 的基础，并收集 8 个 log( T) 到达次数和服务时间观测值。将这组基础价格表示为 Pb。在学习阶段，算法将时间划分为连续批次，其中批次的长度 m = 1, 。 . . , M 是 Imτ，其中 Im = 2m 和 τ = (log(T))2 。
在每批开始时，BLinUCB 选择一个在 [pL, pU ] 范围内具有最高置信上限的收益率的价格。
定义 3. 第 m 批次结束时与价格 p 相关的收益率的置信上限为：
（8）
批次 m 结束时价格 p 的收益率的置信下限为：
（9）
定义 Radm§ = √ 32 log(T) θˆT λ x Gp 作为批次 m 结束时价格 p 的置信半径。

5 BLinUCB的表现分析

我们通过定义 2 中定义的宽松遗憾来分析性能。首先，我们推导出系统从 (i) 空状态（即系统中的零客户）开始经过一定时间后达到稳定状态的概率固定价格（命题 4）和（ii）另一个价格下的稳定状态（命题 5）。然后，基于概率分析，我们在定理 1 中提供了 BLinUCB 的后悔界。
5.1 混合时间的高概率界限
当企业从空置状态开始服务或从当前提供的价格切换到另一个价格时，服务（排队）系统进入瞬态，需要一定的时间才能再次达到稳定状态。因此，达到稳定状态所花费的时间，也称为混合时间，对于计算特定策略下的实际收入至关重要，因此对于后悔分析至关重要。据我们所知，这是第一个结果，它给出了 M/M/c 队列的混合时间的有限时间高概率界限（在动作改变时）。
Alogrithm 1
具体来说，我们在这个目标系统和一个虚拟系统之间建立了一个耦合参数，从一个从稳态分布中采样的状态开始，然后保持稳态。
不失一般性，我们首先关注固定到达率λ和服务率μ下的系统。令 St 表示从空状态开始的目标系统，S t 表示从稳态分布中采样的状态开始并在此后保持不变的虚拟系统。令 S∞ 表示稳态过冲。随机变量St(S^{t)，t≥0表示系统St(S}t)在t时刻系统中的客户数。本节的分析依赖于繁忙时段 An = min{t: 在时间 0 + 系统中有 n 个客户，在时间 t 系统中有 n - 1 个客户}，∀n = {1, . . . , ∞},（见 Omahen & Marathe, 1978; Daley & Servi, 1998）和两个随机变量之间的一阶随机优势（见 Hadar & Russell, 1969; Seth & Yalonetzky, 2014）。
**命题 4（改编自 Jia 等人的命题 4 (2020)，M/M/c 队列从空状态开始的耦合概率) **对于 t ≥ τ ，其中 τ = (log(T))2 ，则
（）
命题 4 的证明在附录 C 中提供，它遵循总概率定律，假设 1 中的时间范围 T 的长度，引理 5 中的一阶随机优势，以及集中不等式引理 6 中的独立样本。
在实现我们的学习算法时，M/M/c 队列并没有真正从空状态开始。这是因为每当发布新价格时，以先前发布的价格到达的客户仍保留在系统中。我们需要确保耦合发生的概率很高，即使价格发生变化（借助假设 2），它封装在命题 5 中。
命题 5（改编自贾等人的命题 5 (2020), Coupling Probability of M/M/c Queue when Price Changes) 价格变化后系统在 2τ 内达到稳定状态的概率为 1− 4 T 2 ，其中 τ = (log(T)) 2.
命题 5 的证明基于命题 4 和假设 2。具体而言，我们将可能的价格变化分解为两种情况，即价格从较低价格 pl 变为较高价格 ph 时，反之亦然。对于每种情况，我们进一步考虑两个子情况，(i) 单位服务率 µpl > µph 和 (ii) µpl ≤ µph。对于每种情况，我们构建一个虚拟系统并推导出相应虚拟系统的耦合概率。然后我们表明，实际耦合概率从下方受限于虚拟系统达到稳态的概率。完整的证明在附录 C 中给出。
5.2 遗憾界
定理 1. BLinUCB 的 T 期累积后悔以 O~ df √ T 为界。
为了比较，线性老虎机的最先进的遗憾下限是 Ω(df √ T) 量级（参见，例如，Rusmevichientong & Tsitsiklis，2010）。我们的结果将这个下限与一个对数因子相匹配。
证明草图：证明由两部分组成，我们分别绑定了热身阶段和学习阶段的遗憾。热身阶段的遗憾最多与热身阶段的长度呈线性关系，即 O(df log(T))。学习阶段的遗憾可以进一步分解为非平稳性和次优性的损失。
失去非平稳性 借助命题 4 和命题 5 的关键耦合结果，我们可以使用稳态收益率来计算每个批次的预期收入，最多在 2τ 上线性损失。结果，我们有 J LP 学习，m - J πBLinUCB 学习，m ≤ Δ(pm)Imτ + O(τ )，其中 Δ(pm) = r(λp~, µp~, p~) - r(λpm , 微米, pm)。
次优损失 通过定义 3，我们可以推导出 Δ(pm) 可以由三个项之和的上限：Δ(pm) ≤ min n Um(pm) - Lm(pm) , r(λp~, µp~, p ~) o + r(λp~, µp~, p~) - Um(~p) + Lm(pm) - r(λpm, µpm, pm)。
第一项在引理 7 的帮助下进行分析8，在附录 D 中提供。第二项和第三项可以在命题 3 的帮助下轻松界定。我们得出学习阶段的遗憾是 O log(T) p dfT log(T) 。将结果结合在一起，我们有 BLinUCB 算法的遗憾是 O～ df √ T 。

6 数值实验

实验装置 总运行时间范围为 8000 个周期，可重用资源容量为 c = 100。我们从固定范围 [10, 18] 中选择价格，其中相应的服务费率相等。
我们考虑价格 p 的三维特征向量 (p, φ§, 1)，其中第二个特征向量定义为（我们在图 1 中绘制了下面的值）：
Figure 1
我们考虑与候选价格相关的到达率的三种情况，从而考虑相应的系统动态（对应的三个实例）。在实例 #1 中，与状态无关的最优价格具有相对较低的利用率。在实例 #2 中，与状态无关的最优价格具有相对适中的利用率。在实例 #3 中，与状态无关的最优价格具有最高的利用率。实例详情见表 1。
基准我们采用 -greedy 算法（一种平衡探索和利用的常用基准；例如，参见 Filippi 等人（2010））作为我们的设置的基准。 -greedy 算法将通过与 BLinUCB 相同的回归步骤来估计系数。它将以概率 1− 选择具有最佳估计收益率的价格，并随机选择概率为的价格。此外，我们使用与 BLinUCB 相同的批次框架作为基准，并且算法为每个批次做出定价决策。算法 2 展示了我们在本节中使用的 -greedy 基准的算法细节。总而言之，对于每个实例，我们实现了四个定价算法：BLinUCB 和三个基准策略 = 0.3、0.2 和 0.1，即进行探索的概率。
Table 1
Alogrithm 2
我们将上述四种定价政策的结果与国家独立最优价格（OPT）进行比较。我们为每个实例的结果提供了两个数字（参见图 2）：第一行显示了每个算法在不同时期内的报价，第二行描述了累积时间平均放松遗憾，即 ( Pt t 0=1 J LP t 0 - Pt t 0=1 J π t 0 )/t。
与 -greedy 基准相比 从数值结果来看，BLinUCB 在所有实例中表现最好。
BLinUCB 在实例#1 和#3 中以与状态无关的最优价格结束，在实例#2 中以接近最优价格结束。实例#2的状态无关最优价格与BLinUCB最后选择的价格之间的收益率差异很小，前者为1023后者是 1020。一个有趣的观察是所有三个贪心基准都无法确定这三个实例的最佳价格。一个可能的原因可能是在特征向量与实施价格更垂直的区域缺乏探索，导致线性关系中的系数估计不准确。由参数化的三个贪心基准的性能在不同的实例中有所不同。

7 结论

我们考虑一个基于价格的收益管理问题，在不完整的信息下，在有限的时间范围内具有单个可重用资源，并给出了第一个速率最优的在线学习和定价算法，该算法承认 O~(df √ T) 的遗憾界限。数值结果表明，BLinUCB 非常快地收敛到最优，并且优于其他基准算法。
有几个未来的研究途径。首先，可以考虑多产品设置（参见，例如，Owen & SimchiLevi, 2018; Doan et al., 2020）。其次，可以考虑推广当前模型以适应一般到达和服务分布。然而，这需要开发新的耦合参数来限制非平稳性的损失。最后，可以考虑具有非平稳需求和/或不均匀的个人活动的环境（参见 Borgs 等人，2014 年；Besbes 等人，2015 年；Lei 和 Jasin，2020 年）。对上述任何设置的扩展都需要新的方法和技术。