Predictive and Prescriptive Methods in Operations Research and Machine Learning: An Optimization App

第二章

观察数据的规范分析方法

2.1引言

运筹学/管理科学 (OR/MS) 和业务分析的中心目标之一是做出能够降低成本和改善业务成果的决策。
这些决策（我们也将在本章中称为处方）通常是通过解决一个受约束的优化问题来计算的。然而，一个挑战是优化问题中的一些参数通常是未知的。传统上，在运筹学中，这些不确定参数是在先验强加的假设下估计的，然后通过使用估计的参数解决优化问题来计算决策。
随着数据的出现和扩散以及收集和存储大量不同信息的能力的提高，人们对使用这些丰富的数据来提高决策质量的兴趣越来越大。数据而不是模型或假设应该指导决策过程。在过去十年中，这一关键原则引导机器学习 (ML) 社区在预测分析方面取得了显着进步。然而，大多数现实世界的商业分析问题通常都涉及预测和优化 [den Hertog 和 Postek，2016]。因此，运筹学和管理科学界越来越有兴趣解决这种类型的问题 [Stubbs, 2016]。应用非常丰富，涵盖多个领域——需求预测和价格优化 [Ferreira et al., 2015]、促销计划 [Cohen et al., 2017]、发货决策 [Gallien et al., 2015]、库存管理 [Bertsimas et al., 2015] al.，2016a]，仅举几例。本章的中心目标是开发一个框架，在该框架中，最初设计用于预测的非参数机器学习技术可以适用于为 OR/MS 中的问题提供高质量的决策，这些问题通常涉及数学优化公式。
跨多个领域的许多重要问题都适合这个框架。例如，在医疗保健领域，医生旨在开具特定剂量的药物来调节患者的生命体征（结果 Y）。在这种情况下，我们可以访问有关每个患者的过去数据 (X)，例如人口统计数据、过去的用药史、遗传信息以及所进行的治疗 (Z)。患者结果可能受患者特征和治疗选择的影响。在收益管理中，店主必须决定如何为各种产品定价以实现利润最大化。在在线零售中，公司决定向用户展示哪些产品以最大限度地提高销售额。在线零售商可以很容易地访问有关客户的信息，并且可能会为不同的客户寻求不同的产品定价。在资源分配问题中，公司必须分配有限的资源以最小化成本。例如，考虑一家公司，其机器分布在全国各地，每台机器都由其状态 X 描述——工作、接近故障或发生故障。这样的公司会希望使用过去的数据（例如机器的历史故障率、机器的特性、机器在网络中的相对重要性）来决定将工程师派遣到哪里，以最小化总的差旅成本和因应产生的成本网络中的潜在中断。
在本章中，我们强调优化正确目标的重要性，以及对计算决策进行适当参数调整的重要性。虽然交叉验证通常用于调整 ML 预测问题中的参数，但对于决策问题。适当调整这些参数的动机是最好的预测模型可能并不总是最好的决策模型。我们用一个玩具例子来说明这一点。考虑具有单个协变量 x ∼ U [0, 1] 的设置，均匀分布在 0 和 1 之间。感兴趣的不确定性 Y 是 x 的函数，由下式给出
()
n 为了计算决策，我们必须解决优化问题：
()
假设我们有 n 个点 (X 1 , Y 1 )，… . . , (X n , Y n ) 随机采样。作为一种起始方法，我们回归 Y ∼ X 并假设我们获得以下树：
()
我们看到，对于这棵树，样本外 R 2 = 0.63，相应的决策 ẑ(x) 和产生的成本由下式给出：
()
因此，我们看到样本外的规定成本，它量化了这棵树规定的决策权重为 1.50的表现。现在，考虑以下不同的树：
（）
这棵树在 Y 的预测性能方面更差，从它的样本 R 2 为 0.56 可以看出，它小于 0.63。接下来，我们考虑决策 ẑ(x) 和产生的成本如下：
（）
因此，样本外的平均规定成本 = 1.45，低于 1.50，因此在决策方面更好。
2.1.1 符号
在本章中，我们使用大写字母表示随机量，使用小写字母表示确定量。我们研究的一般问题具有以下特征：
• 决策变量：z ∈ Z ⊂ R d z ，
• 结果： Y (z) ∈ Y ⊂ R d y （我们采用潜在结果框架 [Rosenbaum, 2002]，其中 Y (z) 表示将已观察到已选择决策 z。），
• 辅助协变量（也称为边信息或上下文）：x ∈ X ⊂ R d x ，
• 成本函数：c(z; y) : Z × Y → R。
因此，我们使用 Z 来指代由（未知）历史策略随机分配的决策，并使用 z 来指代特定动作（或决策）。对于给定的辅助协变量向量 x 和建议的决策 z，条件期望 E[c(z; Y )∣X = z, Z = z] 量化了成本函数 c(z; Y ) 在下 X 固定为 x 且 Z 固定为 z 的条件测度。我们忽略了可测量性的细节，并假设这个条件期望是明确定义的。在本章中，所有规范都是` 2 规范，除非另有说明。我们使用 (X, Z) 来表示向量连接。
2.1.2 相关文献
在本节中，我们将概述文献中的一些相关方法。随机优化尝试解决问题
（）
对于 z 和凸可行集 Z 中的某些已知凸成本函数 c(z; y)，并且期望是在 Y 的未知分布上计算的。然而，随机变量 Y 的分布通常是未知的。正如 Nemirovski 和 Shapiro [2006] 所示，即使估计给定决策 z 的目标也可能是一个非常重要的问题。
通常我们可以访问数据，{Y 1 , . . . , Y n }，表示对不确定性 y 的历史观察，而不是 Y 的分布。在这种情况下，数据驱动随机优化的经典范式是样本平均近似（或 SAA）[Kleywegt et al., 2002],[Shapiro and Nemirovski, 2005]，其中 Y 1 上的经验分布，. . . , Y n 用于逼近问题 (2.1) 中的全部期望。准确的说，SAA考虑了这个问题
（）
显然，这可以被认为是一个随机优化问题，其中 Y 的分布由场景 Y 1 的离散分布近似，…。 . . , Y n 的概率为每个等于 n 1 。事实上，随着 n 增加到无穷大，在一些温和的条件下，可以证明问题 (2.2) 与原始随机优化问题 (2.1) 等价 [Shapiro et al., 2009a]。然而，经典的随机优化框架无法包含观察到的协变量 x 提供的上下文信息。在实施决策时已知这些协变量知识的环境中，使用这些额外的知识可以增加实质性价值。近年来，人们对数据驱动优化领域产生了极大的兴趣。这项工作的大部分将统计学和机器学习文献中的思想与数学优化技术相结合。
在这种情况下，我们现在考虑的问题是
（2.3）
因此，优化的决策 z(x) 考虑了有关未来不确定性 Y 的潜在知识，并允许做出更高质量的决策。显然，这是对经典问题（2.1）的概括，其中上下文信息被忽略用于决策。
为了解决问题 (2.3)，文献中一种常用的方法是采用预测和优化 (P&O) 框架。顾名思义，这种方法涉及分两步解决从数据生成处方的问题。第一步，使用过去的数据 {(X 1 , Y 1 ), … 训练预测 y 的机器学习模型 f (x)。 . . , (X n , Y n )}。
第二步，当给定X 0 时，根据机器学习模型f (X 0 ) 计算相应的预测不确定性，并将这个估计代入优化问题以求解决策z。准确地说，决策 z(X 0 ) 是通过求解
（）
为了学习函数 f，可以使用文献中提出的几种机器学习技术中的任何一种（参见 Hastie 等人 [2009] 的概述）。
然而，这种方法的一个主要缺点是，通过代入预测的 y直接而言，优化模型没有考虑与该预测相关的不确定性。这种方法可能改进的另一个关键领域是预测模型 f 不知道下游优化模型，这是两步求解方法的结果。我们指出，我们的工作解决了这两个问题。我们接下来讨论一些最近的工作，这些工作也解决了其中一些问题，并将它们与我们提出的方法进行比较。
为了解决第二个问题，Elmachtoub 和 Grigas [2017] 提出了一种方法，他们还考虑了寻找预测函数 f 的问题，从而产生良好的处方。该方法基于 P&O 框架，仅限于线性目标函数 c(z; Y ) = z ′ Y 和线性预测函数 f (x) = Bx 的优化问题。
但是，尚不清楚如何将其扩展到非线性（在 z 中）目标 c(z; Y ) 或非线性预测函数 f 。在其他工作中，Tulabandhula 和 Rudin [2013] 将预测损失与未标记数据集的运营成本的组合最小化。
但是，运营成本是在未标记数据上定义的，而预测损失是在标记数据上定义的，这种方法仍然遵循 P&O 方法。对于基于特征的报童问题，Rudin 和 Vahn [2014] 使用机器学习方法将最优决策预测为观察到的协变量 x 的直接函数。虽然优化是在样本中执行的，但对于测试数据集中的某些点，预测的决策可能是不可行的。高等人。 [2009] 提出了一种方法，该方法也将决策预测为协变量的线性函数。回归系数被选择为通常的最小二乘系数（通过最小化预测损失获得）和通过解决处方问题获得的系数的凸组合，在这种情况下，假设是无约束的凸二次最小化问题。这个凸组合参数是通过交叉验证来选择的。然而，当优化问题有约束或非线性预测模型的情况下，如何扩展这种方法尚不清楚。
最后，我们注意到这种方法也是基于 P&O 框架的。最近的另一项相关工作是基于任务的端到端学习，作者专注于二次优化规定问题，并提出了基于神经网络的计算方法决定 [Donti et al., 2017]。
最近提出的另一种称为Prescriptive to Prescriptive (PtP) 分析的方法 [Bertsimas and Kallus, 2019] 也使用两步方法，第一步包括训练有监督的非参数机器学习方法（k 最近邻、核回归、树和森林）基于协变量 X 预测 Y。它们与 P&O 的主要区别在于，在第二步中，它不会直接将预测替换为优化问题。相反，它使用由特定观察的预测方法规定的权重来求解加权 SAA。例如，如果 f 是一个 kNN 预测器，那么这种方法首先找到参数 k，它会在训练集 {(X 1 , Y 1 ), . . . , (X n , Y n )}。现在，对于任何 x，他们在训练集中找到 x 的 k 个最近邻居，并仅对这 k 个邻居求解 SAA，以计算最优决策 z(x)。他们还表明，这种方法是一致的，并且通过考虑成本估计 E[c(z; Y )∣X = x] 中的不确定性，而不是将估计替换为成本函数 c(z; E[Y ∣X = x])。然而，这仍然是从数据中学习决策的两步方法，其中计算第一步机器学习模型的过程没有考虑模型计算的决策质量。
我们的方法与 PtP 方法相似，因为我们也使用几种非参数机器学习算法进行预测。然而，与 PtP 方法的主要区别在于，我们找到了导致最佳决策 z 的最佳机器学习算法，而不是最佳预测。另一种解释方式是我们联合生成场景（Y，Z），而 PtP 或一般的 SAA 方法生成场景 y 用于计算处方 z。为了实现这一点，我们用来训练这些机器学习方法的目标是直接基于处方成本和预测误差的混合，而不是仅仅基于后者，标准 P&O 和 PtP 都是这种情况。处方术语背后的关键见解是，它直接量化了由任何预测性 f 引起的决策框架的成本，并对其进行优化避免了 P&O 和 PtP 采用的两步法。此外，这包括相关的不确定性将预测方法给出的估计值放入优化模型中，因为我们考虑对期望 E[c(z; Y )∣X = x] 进行类似 SAA 的加权估计，而不是在我们提出的方法中使用点估计。
我们还注意到与结构化预测领域的联系，这是机器学习中的一个子领域，旨在从特征数据中预测结构化对象，例如序列、图像、图形。该预测输出必须满足一些约束（参见 Goh 和 Jaillet [2016] 中的一些示例）。在我们的案例中，结构化对象是输入到优化问题的决策变量，我们在此设置中提出了非参数学习方法。
我们还考虑了决策影响结果的环境。对于许多应用，例如定价，对产品的需求显然受到价格的影响。 Bertsimas 和 Kallus [2017] 后来研究了预测方法对定价问题的局限性。
特别是，他们证明，如果忽略决策和结果之间的数据混淆，可能会导致较大的最优性差距。他们在这种情况下提出了一种基于内核的数据驱动优化方法，但它不能很好地与决策空间的维度一起扩展。 Mišić [2017] 为预测成本由树集成模型给出的问题开发了一种有效的混合整数优化公式。这种方法可以很好地适应决策空间的维度，但不考虑不确定性惩罚的需要。
另一个相关的研究领域是因果推断（参见 Rosenbaum [2002] 的概述），它涉及从观察数据中研究因果效应。该领域的大部分工作都集中在确定治疗是否对整个人群产生重大影响。然而，越来越多的工作集中在从观察数据中学习最佳的个性化治疗。 Athey 和 Wager [2017] 提出了一种算法，当有两种潜在的治疗方法时，该算法可以在学习治疗策略时实现最佳（直到一个常数因子）后悔界限。 Kallus [2017a] 提出了一种算法，可以在存在一组有限的潜在治疗时有效地学习治疗策略。
基于这种方法，Bertsimas 等人。 [2019a] 开发了一种基于树的算法，学会从观察数据中个性化治疗分配。它基于最优树机器学习方法 [Bertsimas and Dunn, 2017]，在合成数据集和真实数据集的实验中表现良好。这种方法涉及最小化复合目标，该目标是规定损失和预测损失的组合，类似于我们在本章中考虑的目标。在这种情况下，决策是有限的，目标只是结果。在这里，我们允许连续和多维决策，以及对决策的潜在限制。
对具有连续决策空间的问题的关注要少得多。
Hirano 和 Imbens [2004] 引入了连续处理的推理问题，Flores [2007] 研究了在这种情况下学习最优策略的问题。最近，Kallus 和 Zhou [2018] 开发了一种具有连续决策变量的策略学习方法，该方法概括了逆倾向得分加权的概念。我们的方法的不同之处在于我们专注于基于回归的方法，我们相信这些方法可以更好地随着决策空间的维度进行扩展，并且避免了对密度估计的需要。
从 Maurer 和 Pontil [2009] 开始，不确定性惩罚的想法已被探索为统计学习中经验风险最小化的替代方案。 Swaminathan 和 Joachims [2015] 将不确定性惩罚应用于离线老虎机设置。它们的设置与我们研究的相似。代理试图最小化其决策的预测误差，但只观察与所选决策相关的损失。他们假设训练数据中使用的策略是已知的，这允许他们使用逆倾向加权方法。相比之下，我们假设可忽略性，但不知道历史政策，我们允许更复杂的决策空间。我们注意到，不确定性惩罚与多臂老虎机的置信上限 (UCB) 算法在表面上相似 [Bubeck et al., 2012]。这些算法选择在其预测的预期奖励上具有最高置信度上限的动作。相比之下，我们的方法选择在其预测的预期奖励上具有最高置信下限（或在预测的预期成本上具有最低置信上限）的行动。不同之处在于 UCB 算法选择具有较高上行空间的动作来平衡探索和利用-在线强盗设置中，而我们在离线设置中工作，专注于完全利用。
2.1.3 贡献
这项工作的主要贡献如下。

我们提出了一种通用方法，用于将具有不确定参数的规定性问题作为单步优化问题来解决。该框架通过从过去的数据中学习来提供高质量的处方，并适应强大的非参数机器学习方法，例如 k 最近邻、核回归、树木和森林，这些方法传统上用于预测。也就是说，我们直接针对导致最佳决策的参数训练这些机器学习方法，而不是预测。
我们采用 Dunn [2018] 的坐标下降方法以及凸优化的一阶方法来进一步改进树。我们提出算法来帮助我们方法的可扩展性。
我们开发了一个用于观察数据驱动优化的算法框架，允许决策变量在连续和多维集合上取值。
我们展示了在计算实验中开发的方法的性能。首先，对于不确定性不受决策影响的情况，我们将我们的方法应用于具有合成数据的投资组合优化问题和具有真实数据的报摊问题，并提供证据表明与当前状态相比，它们输出了更好的数据驱动决策。艺术方法，特别是对于较小规模的训练集。接下来，在不确定性受决策影响的情况下，我们考虑在个性化医疗中的应用，其中决策是给患者开的华法林剂量，而在定价中，行动是多个产品的价格列表。店铺。
2.1.4 文章结构
本章的结构如下。在第 2.2 节中，我们介绍了规范分析的一些背景，并简要概述了我们的方法。在本章的第一部分，我们考虑了不确定性 Y 不受已实施决策 Z 影响的情况。我们在 2.3 节中详细介绍了我们适应各种非参数学习方法的方法，然后是训练这些方法的算法第 2.4 节。在本章的第二部分，我们考虑观测数据的情况，其中不确定性 Y 受实施的决策 Z 的影响。我们在 2.5 节中更详细地介绍我们的方法，然后是理论动机和有限样本和泛化界限第 2.5.2 节。我们在第 2.6 节中提供本章开发的关于真实和合成数据的方法的计算证据，并在第 2.7 节中提出我们的结论。

2.2 方法概述

在本节中，我们将介绍一些规范性方法的背景并概述我们的方法。我们首先关注决策 z 不影响不确定性 y 的设置。历史训练数据 {(X i , Y i ) ni=1 } 由 n 个观察值（也称为数据点或样本）组成。每个数据点 (X i , Y i ) 对应于第 i 个观察的特征（或协变量/上下文信息/辅助信息） X i ∈ X ⊆ R d x 和实现的不确定性 Y i ∈ Y ⊆ R d y 。当不确定性 y 完全已知时，决策者必须解决确定性优化问题，由下式给出
（2.4）
到达决策 z ∈ Z ⊆ R d z 。然而，关键的挑战是在需要执行决策 z 的时刻没有观察到不确定性 y，因此不能直接解决问题 (2.4)。在需要做出决定的时候，决策者可以访问协变量 x，这些协变量可能拥有一些关于未实现的 y。在存在这些额外知识的情况下，决策者寻求在 Y ∣X = x 的条件期望下最小化成本，或者等价地解决问题
（2.5）
在本章中，我们考虑找到一个策略的问题，在给定新的上下文信息 x 的情况下，输出一个高质量的决策 z(x)，从而导致良好的规定性能，即低成本 c(z(x);y)，当 y 是在样本之外实现的。与依赖于 Y 或 Y ∣X = x 的分布知识的方法相反，这两者通常都是未知的，我们开发了依赖于数据作为起点的方法。作为该方法的一部分，我们采用流行的非参数机器学习方法——k 最近邻、局部核回归、决策树和随机森林——来开发相应的规范方法，直接从协变量 x 计算高质量决策 z。
我们通过一个示例进一步说明此设置。考虑一个投资组合经理必须将有限资本分配给各种股票（或金融资产）的问题。复杂之处在于，这些分配（或投资）z 取决于资产 y 的未来回报，而这些在决定分配时是未知的。但是，决策者在做出此决定时可以访问协变量信息 x，例如收益、季节性、谷歌或 Twitter 趋势、标准普尔 500 指数的表现、其他类似资产的过去回报、可能包含的市场情绪关于未来回报的信号。因此，问题是在给定过去数据 {(X 1 , Y 1 ), . . . , (X n , Y n )} 和当前协变量信息 x。
现在，为了做出决定 z(x)，我们希望解决问题 (2.5)。显然，这种有条件的期望是未知的，需要根据过去的可用数据进行估计。为了估计这个条件期望，我们考虑了 [Bertsimas and Kallus, 2019] 形式的估计器
（2.6）
其中权重为非负且总和为 1，即
（）
这些权重由非参数函数 f : R d x → R d y 确定，过去的训练数据 {(X 1 , Y 1 ), . . . , (X n , Y n )} 和观察到的协变量 x。准确地说，我们考虑 f 使得它对任何 x 的 y 的预测由下式给出
（2.7）
直观地说，这些权重编码了 x 和每个相应的训练集协变量 X 1 之间的相似性。 . . , X n 。例如，假设 f 是一个基于树的估计器，并且 x 属于具有 n((x)) 个样本点的叶子(x)，即，
（）
然后，方程（2.6）中成本的估计条件期望由下式给出
（2.8）
在这种情况下，很容易看出权重由下式给出
（）
请注意，这个 f 还为观察到的 x 输出 y 的相应预测为
（）
现在有了这些权重，决策 z(f, x) 是通过求解相应的优化问题
（）
或等效地，
（）
请注意，由于权重的非负性，问题 (2.9) 是每个 x 的凸最小化问题。
现在，问题出现了，我们如何选择这个函数 f ？我们希望确保由 f 引起的这个决策 z(f, x) 具有良好的规定性能，或者等效地，获得较低的 c(z(f, x); y) 值，其中 y 是实现的不确定性。因此，我们制定了一个问题来优化函数 f，这会导致其决策的良好规范性能。我们在问题 (2.10) 中提出了以下公式，其中我们优化了函数 f ∶ R d x → R d y，从而获得了良好的规定性能。
(2.10)
解决问题 (2.10) 背后的中心思想是，它直接优化了所使用的规定方法的策略成本。实际上，目标中的第 i 项表示执行决策 z(f, X i ) 和实现不确定性 Y i 时产生的成本。第 i 个约束规定每个 z(f, X i ) 是在 f 下 X i 的最优决策，因此代表了实际决策过程。在前面描述的例子中，f 是一个树预测器，f (X i ) 可以写成 1 n((x)) ∑ j∶(X j )=(x) c(z; Y j )，其中 X l 是 X i 落入的树的叶子。在实现这个 z(f, X i ) 时，我们观察到 c(z(f, X i ); Y i ) 的成本，这取决于已实现的不确定性 Y i 。当我们考虑 f 对 n 个训练点的整个样本施加的该策略的平均成本时，我们达到了问题 (2.10) 中的目标。换句话说，我们训练函数 f 的同时考虑到它的规定biaopxian，通过注意到每个 z(f, X i ) 是依赖于 f 本身的优化问题的解决方案。这与传统方法形成鲜明对比，传统方法涉及基于预测误差学习 f，然后使用 f 的预测或输出解决 Z 上的适当优化问题以获得最佳决策。我们进一步强加了预测函数 f 也准确估计不确定性 y 的条件。也就是说，我们强调 f 提供高质量的处方，但同时在其预测方面也相当接近实际值。我们通过选择损失函数(⋅, ⋅) 来执行此操作，我们通常将其设置为最小二乘损失，即`(x, y) = ∥x − y∥ 2 。我们惩罚实现的不确定性 Y i 和预测的不确定性 f (X i ) 之间的差异。请注意，预测的不确定性也是训练集不确定性的加权估计，与用于估计条件平均成本的权重相同。我们在第 2.3.5 节中更详细地解释了这种惩罚，我们指出在没有这种惩罚因素的情况下，f 在其规定中可能变得过于“乐观”。按照这个想法，我们考虑问题（2.11），它平衡处方和预测误差
(2.11)
其中处方因子 0 < µ < 1 是一个超参数，用于控制处方和预测目标之间的权衡。因此，这种方法通过将其视为单步问题来统一两个步骤——预测和处方。事实上，这种方法可以看作是 Bertsimas 等人的概括。 [2019a] 对于由树函数描述的 f 的情况，其中 Z = {1, . . . , m}，第 i 个约束简单地将单元 X i 分配给 X i 所属的叶子中平均成本最低的决策。

2.3联合预测规范分析方法

在本节中，我们描述了四种非参数机器学习方法，以及我们如何将它们用于处方。
2.3.1 k Nearest Neighbors (kNN)
在本节中，我们将介绍用于联合规范分析的 k 最近邻方法。
用于预测的经典 kNN 方法仅考虑训练集中 x̄ 的 k 个最近邻，而忽略其余的 [Altman, 1992]。预测结果 f (x̄) 是
()
其中 N k (x̄) = {X i , i = 1, . . . , n : ∑ 1[∥x̄−X i ∥ ≥ ∥x̄−X j ∥] ≤ k}，x̄的k个最近邻集合j=1。在平局的情况下，我们优先考虑指数值较低的点。实际上，权重 w i (x̄) 由下式给出
()
距离度量 ∥ ⋅ ∥ 通常选择为 Mahalanobis 度量，即
(2,12)
其中x，y是任意两个点，Σ是训练数据的样本协方差矩阵。
在我们的联合规范分析框架中应用这种技术，对于潜在 k 值网格中的每个 k，我们计算目标
()
其中 z(k, X i ) 是 SAA 在 X i 的 k 个最近邻上的最优解，或
()
• N k -X (X i ) 是除X i 之外的训练集中与X i 最接近的k 个邻居的集合。这些 i 个邻居是根据 Mahalanobis 距离度量（方程（2.12））计算的。
交叉验证计算 k：在一个介于 0 和 1 之间的 µ 值网格上，我们计算 L µ (k)，并为每个 µ 找到最佳 k，因为 k ∗ (µ) 导致最小的 L µ (k)， IE。，
()
因此，对于每个 µ，我们计算 k ∗ (µ)，并且我们将不同 µ 的这组 k 值表示为 Ω。现在，我们选择 k ∗ 的最终值作为这组 Ω 中的 k 值，该值最小化 n 处方误差 ∑ c(z(k, X i ); Y i )，或
2.3.2 Nadaraya-Watson 内核回归 (KR)
在本节中，我们将介绍用于规范分析的 Nadaraya-Watson 核回归方法。 Nadaraya-Watson 核回归（我们将其称为 KR；[Nadaraya, 1964, Watson, 1964]）是一种局部预测方法，其中对给定点 x̄ 的预测被计算为训练样本 y 的加权估计量。这些权重取决于相应的训练 X 样本与新点 x̄ 的“相似程度”。对 x̄ 的预测为
()
其中权重 w i (x̄) 由下式给出
()
这里，h > 0 是带宽参数，通常针对特定数据集进行调整。
K : R d x → R 表示内核，对于这项工作，我们将其限制为非负的，即 K : R d x → R + 。一些常用的非负核是：
1 均匀：K(x) = 12 1[∥x∥ ≤ 1]。
2 Epanechnikov：K(x) = 34 (1 − ∥x∥ 2 )1[∥x∥ ≤ 1]。
3 三立方：K(x) = 70 3 3 81 (1 − ∥x∥ ) 1[∥x∥ 4. 高斯：K(x) = √ 1 2π ≤ 1]。
exp(-∥x∥ 2 /2)。
接下来，我们将讨论如何在我们的单步规范分析框架中应用这种技术。对于每个 h，我们计算目标
()
交叉验证计算 h 在 0 和 1 之间的 µ 值网格上，我们计算 L µ (h)，并为每个 µ 找到最佳 h，因为 h * (µ) 导致最小的 L µ (h)，即 ,
()
请注意，对于每个 µ，我们计算一个 h ∗ (µ)，并将这组 h 值表示为 Ω。现在，我们选择 h ∗ 的最终值作为这组 Ω 中的 h 值，这会导致最小的 n 处方误差 ∑ c(z(h, X i ); Y i )。准确地说，
()
2.3.3 树
传统上，用于预测的回归（或分类）树是通过选择导致低预测误差的分割来训练的。这些树是通过将 X 空间递归地划分为叶子来训练的，以最小化最小二乘误差或其他一些指标，例如对数偏差。在这些树中，每片叶子预测落在其中的所有点的相同值。由具有 L 个叶子的树 τ 给出的预测可以写为
()
其中 (X i , γ i ) Li=1 是参数化 τ 并根据数据估计的值和叶。
在本节中，我们概述了直接从数据中产生高质量决策的学习树的问题公式。给定一棵树 τ，其 L 个叶子用 X 1 表示，. . . , X L 和候选 x, PtP 方法要求我们解决以下加权 SAA 问题以获得决策 z(τ, x) 为
()
等效地，我们可以将其写为
()
其中
• τ (x) 表示 x 所属的树 τ 的叶子，并且 • n(l) 是叶子 l 中的训练样本数。
遵循我们的方法并使用上述观察，学习树 τ 的问题导致好的决策可以表述如下
(2.14)
因此，通过最小化问题（2.14）中的净目标来计算包含与每个叶子相关的分裂和决策的树。
由于树 τ 的离散性，它将 X 空间分成叶子，每个叶子 l 将有一个与之关联的决策 z(τ, l)，这是在该叶子中的样本上解决的 SAA 问题的解决方案 . 有了这个观察，问题（2.14）可以等效地写成
(2.15)
2.3.4 随机森林
遵循 Breiman [2001] 的想法，他们扩展决策树以通过在随机选择的数据子样本上训练几棵树并聚合它们各自的输出来减少预测的方差。森林 {τ i } i=1 规定的决策，即 K 棵树的集合 K，由下式给出
()
其中k(x)表示x所属的第k棵树的叶子。
按照我们的方法并使用上述观察，解决问题规定性随机森林 T 可以表示为
(2.16)
2.3.5 惩罚 f 的预测误差
在本节中，我们将进一步详细说明为什么需要对预测误差以及量化任何 f 引起的决策质量的规定性损失进行惩罚。
请注意，在我们的主要问题 (2.11) 中，我们最小化了关于 f 和每个 z(f, X i ) 变量的目标。假设成本函数 c 在不确定性和决策变量中是线性的，即 c(z; y) = y ′ z。正如 Elmachtoub 和 Grigas [2017] 所指出的，在 P&O 框架下（当 c 为线性时与 PtP 相同），第 i 个约束规定每个 z(f, X i ) 是 min η∈Z η 的解 ’ f (X i )。请注意，如果 f (x) = 0，则第 i 个约束简单地简化为 z ∈ Z。因此，目标中的每一项将简化为 z(f, X i ) ∈ arg min η∈Z η ′ y ∀ i，这导致问题（2.11）的最小可能目标值，因此 f = 0 是平凡最优的。
即使在 PtP 框架下，这个问题仍然存在，即，如果选择 z(f, X i ) 作为权重取决于 X i 的重新加权 SAA 的解决方案。假设 f (x) = ∑ ni=1 w i (x)Y i ，其中 w i ≥ 0∀i。在这种情况下，每个 z(f, x) 是 min η∈Z η ′ ( ∑ ni=1 w i Y i ) 的解。假设这些权重是通过树选择的。这可能会激励树中的那些分裂导致叶子 其中 ∑ ni∶X i ∈ Y i = 0，这再次导致上述相同的问题。
为了缓解这个问题，我们规定，随着 f 的良好规定性能，预测值 f (x) 接近真实值 y。我们使用交叉验证来选择平衡这两个错误的处方因子 0 < µ < 1。