Further Experimental Evidence against the Utility of Occam’s Razor论文翻译与阅读

标题：反对奥卡姆剃刀效用的进一步实验证据
作者：G. I. Webb
发布时间：1996
论文链接： Further Experimental Evidence against the Utility of Occam’s Razor
翻译时间：2021.10.06

摘要

本文提出了反对奥卡姆剃刀效用的新实验证据。为 C4.5 生成的后处理决策树提供了一个系统的程序。这个过程是通过拒绝奥卡姆剃刀推导出来的，而是关注类似对象可能属于同一类的假设。它增加了决策树的复杂性，而不会改变该树在从中推断出的训练数据上的性能。由此产生的更复杂的决策树被证明，平均而言，对于各种常见的学习任务，比不太复杂的原始决策树具有更高的预测准确度。这一结果对奥卡姆剃刀的实用性提出了相当大的怀疑，因为它通常应用于现代机器学习。

1.介绍

在 14 世纪，奥卡姆的威廉 (William of Occam) 说“没有必要不应假设多元”。此原则后来被称为奥卡姆剃刀。奥卡姆剃刀最初旨在作为确定一个人的本体的基础。然而，在现代，它已被广泛使用重新解释并采用作为认识论原则，一种在替代理论和本体之间进行选择的手段。奥卡姆剃刀的现代重新解释被广泛用于分类学习。然而，这一原则的效用受到了广泛的理论和实验攻击 . 这篇论文通过提供进一步的实验证据反对奥卡姆剃刀的现代解释的效用，增加了这场辩论。这个证据采取系统程序的形式，以一种被证明可以经常改进分类器的方式向分类器添加非冗余复杂性预测准确性。

奥卡姆剃刀的现代解释被表征为**“两个假设 H 和 H^’，这两个假设都解释了 E，越简单越好”**（Good，1977）。然而，为了简单起见，这并没有具体说明应该测量理论的哪个方面。句法、语义、认识论和语用简单性都是可以并且已经采用 Bunge (1963) 的替代标准。在实践中，奥卡姆剃刀在机器学习中的普遍使用旨在最大限度地减少表面句法的复杂性。本文讨论的正是这种解释。

可以假设，通常应用奥卡姆剃刀是为了期望它的应用通常会带来某种特定形式的优势。奥卡姆剃刀应该如何应用，或者它在分类学习中的应用有什么优势，目前还没有被广泛接受的表述。然而，文献确实包含两个陈述，它们似乎捕捉到了至少一种被广泛采用的于原则的方法。Blumer、Ehrenfeucht、Haussler 和 Warmuth (1987) 建议使用奥卡姆剃刀的目标是发现“与样本数据一致的最简单的假设”，并期望最简单的假设在进一步的观察中表现良好取自同一来源”。昆兰 (1986) 指出

考虑到两个决策树之间的选择，每个决策树在训练集上都是正确的，选择更简单的决策树似乎是明智的，因为它更有可能捕获问题中固有的结构。因此，更简单的树有望对训练集之外的更多对象进行正确分类。”

虽然这些陈述不一定会被奥卡姆剃刀的所有支持者接受，但它们捕捉到了奥卡姆剃刀的形式，本文试图解决对分类器的学习偏见，使这些分类器在期望最大化预测准确性的情况下最小化表面句法复杂性。

奥卡姆剃刀的上述两个陈述都将自己限制为正确分类训练集中所有对象的分类器。许多现代机器学习系统都包含学习偏差，这些偏差可以容忍训练数据的小级别错误分类（例如，Clark & Niblett，1989；Michalski，1984；Quinlan，1986，1990）。在这种情况下，并将定义范围从决策树扩展到一般分类器，将 Quinlan (1986) 的陈述（上文）修改为

给定在训练集上执行相同的两个似是而非的分类器之间的选择，更简单的分类器有望正确分类训练集之外的更多对象。

这将被称为奥卡姆理论。

训练集上相同性能的概念可以用许多不同的方式来定义。当两个分类器应用于训练集时，选择需要相同错误率的定义可能很诱人。较不严格的解释可能允许两个分类器具有不同的错误率，只要差异在某个统计置信限度内即可。然而，为了最大限度地提高其结果的适用性，本文将对相同性能采取非常严格的解释——对于训练集中的每个对象 ooo ，两个分类器都为 ooo 提供相同的分类。

应该注意的是，奥卡姆理论并没有声称对于任何两个具有相同经验支持的分类器，最不复杂的总是对以前看不见的对象具有更高的预测准确性。然而，它声称复杂度越低的预测准确度越高。

本文首先考察了支持和反对奥卡姆论点的一些论点。然后，它提出了反对该论文的新经验证据。该证据是通过使用学习算法获得的，该算法对 C4.5 学习的决策树进行后处理。这个后处理器是通过拒绝奥卡姆理论而开发的，而是关注相似性可以预测类别的假设。后处理器系统地增加了决策树的复杂性，而不会改变它们在训练数据上的性能。事实证明，这可以提高对一系列“真实世界”学习任务之前未见过的对象的预测准确性。这个证据被认为与奥卡姆理论不相容。

2.前期理论和实验工作

为了为反对奥卡姆论文的新证据提供背景，有必要简要检查以前的相关理论和实验工作。在相关的情况下，将提供一份大纲，说明每项贡献可能未能说服辩论的另一方的原因。

2.1 泛化性能守恒定律

泛化性能守恒定律 (Schaer, 1994) 证明，没有任何学习偏差可以胜过任何在所有可能的学习任务的空间上的其他偏差。因此，如果奥卡姆剃刀是一种有价值的学习偏差，那么它只能适用于所有可能的学习任务的某些子集。 可能有人会争辩说，“真实世界”的学习任务集就是这样的一个子集。

本文的前提是接受这样一个命题，即“现实世界”学习任务集与所有可能的学习任务集在使守恒定律不适用的方面有所区别。 Rao、Gordon 和 Spears (1995) 认为这是因为我们宇宙中的学习任务在所有可能的学习任务空间中并不是均匀分布的。

但为什么会这样呢？支持这一命题的一个论据如下。 “真实世界”的学习任务由人们定义，用于机器学习系统。为此，任务构造器将寻求确保自变量（类属性）与因变量（其他属性）相关，这些方式可以在学习系统可用的分类器空间内捕获 。实际的机器学习任务不是从所有可能的学习任务空间中随机抽取的。人类参与问题的制定确保了这一点。

作为支持这个命题的一个简单的思想实验，考虑一个学习任务，它的类属性是由随机数生成器生成的，与其他属性没有任何关系。如果他们的系统在对此类数据进行训练时表现不佳，大多数机器学习研究人员都不会感到不安。再举一个例子，考虑一个学习任务，它的类属性是一个对象的缺失属性值的简单计数。假设这样一个学习任务被提交给一个系统，比如 C4.5 (Quinlan, 1993)，该系统开发的分类器没有在分类期间测试属性值是否丢失的机制。同样，大多数机器学习研究人员不会担心他们的系统在这种情况下表现不佳。机器学习根本不适合此类任务。知识渊博的用户不会将机器学习应用于此类数据，至少不会期望从中获得有用的分类器。

本文探讨了奥卡姆理论对“现实世界”学习任务的适用性。

2.2 对奥卡姆理论的其他理论反对意见

大多数机器学习系统明确或隐含地使用奥卡姆剃刀。除了在机器学习中几乎普遍使用之外，奥卡姆剃刀原理还被广泛使用一般科学实践中。尽管奥卡姆剃刀受到广泛的哲学、理论和经验攻击，但这种情况一直存在，这表明这些攻击没有具有说服力。

在哲学方面，总结 Bunge (1963)，理论（分类器）的复杂性完全取决于编码它的语言。声称一个理论的可接受性取决于表达它的语言似乎是站不住脚的。此外，句法复杂性与理论质量之间没有明显的理论关系，除了世界本质上是简单的可能性以及奥卡姆剃刀的使用能够发现内在简单性的可能性。然而，即使世界本质上是简单的，也没有理由认为这种简单应该与任意语言中的句法简单相对应。

仅仅声明一个不太复杂的解释是可取的，并没有具体说明它是可取的标准。 许多机器学习研究背后的隐含假设似乎是，在所有其他条件相同的情况下，不太复杂的分类器通常会更准确（Blumer 等，1987；Quinlan，1986）。本文试图诋毁的正是这个奥卡姆理论。

在直截了当的解释中，用于预测预期准确性的句法度量似乎很荒谬。如果两个分类器具有相同的含义（例如IF 20≤AGE≤4020 \leq AGE \leq 4020≤AGE≤40 THEN POS and IF 20≤AGE≤3020 \leq AGE \leq 3020≤AGE≤30 OR 30≤AGE≤4030 \leq AGE \leq 4030≤AGE≤40 THEN POS），那么它们的准确度都不可能不同，无论有多大差异它们的复杂性不同。这个简单的例子突出了语义在确定预测准确性方面明显优于句法。

2.3 前期以前反对奥卡姆论文的实验证据

在经验方面，最近的一些实验结果似乎与奥卡姆理论相矛盾。Murphy 和 Pazzani (1994) 证明，对于许多人工分类学习任务，最简单的一致性决策树比稍微复杂的一致性决策树具有更低的预测准确度。然而，进一步的实验表明，这些结果取决于目标概念的复杂性。 当目标概念由简单的分类器描述时，对简单性的偏见表现良好，而当目标概念由复杂的分类器描述时，对复杂性的偏见表现良好（墨菲，1995）。此外，当数据用不相关的属性或与目标概念强相关但分类不需要的属性来增强时，最简单的分类器获得了高于平均（超过所有一致分类器）的预测准确度。

Webb (1994) 提出的结果表明，对于来自 UCI 学习任务库 (Murphy & Aha, 1993) 的广泛学习任务，分类器的相对普遍性比相对的分类器更好地预测分类性能。表面句法复杂性。然而，可以说，虽然这些结果表明在任何一对理论中选择最简单的策略不会导致预测准确性的最大化，但它们并没有表明选择所有可用理论中最简单的将无法最大化预测准确性。

Scher (1992, 1993) 已经表明，降低复杂性同时降低重新替换准确度的剪枝技术有时会提高预测准确度，有时降低推断决策树的预测准确性。然而，奥卡姆论文的支持者可以从应用奥卡姆剃刀（复杂性的降低）的积极影响被经验支持的减少（重新替代准确性）的负面影响抵消来解释这些结果。

Holte、Acker 和 Porter (1989) 已经表明，专门使用小分离（具有低经验支持的规则）来排除没有训练对象占据的实例空间区域，经常会降低那些分离覆盖的不可见对象的错误率。由于这种专业化涉及日益增加的复杂性，因此这可能被视为与奥卡姆论点相反。然而，同样的研究表明，当这些分离器被专门化时，嵌入分离器的分类器的总错误率会增加。因此，奥卡姆论文的支持者可以通过认为该论文仅适用于完整分类器而不适用于这些分类器的元素来驳回先前结果的相关性。

2.4奥卡姆理论的理论和实验支持

针对奥卡姆论文的这些理论和实验反对意见，存在大量明显的理论和经验支持。

为了在机器学习环境中为 Occam 论文提供理论支持，已经进行了多次尝试（Blumer 等，1987；Pearl，1978；Fayyad & Irani，1990）。然而，这些证明同样适用于任何有利于假设空间小子集的系统学习偏差。事实上，有人认为它们同样支持对高度复杂的分类器的偏好（Schaer，1993；Berkman & Sandholm，1995）。

Holte (1993) 将学习非常简单的分类规则与使用复杂决策树的复杂学习器进行了比较。他发现，对于来自 UCI 机器学习数据集存储库 (Murphy & Aha, 1993) 的许多任务，简单的规则实现了复杂树的几个百分点以内的精度。这可以被认为是对奥卡姆论文的支持。然而，在任何情况下，简单的规则都没有胜过更复杂的决策树。也没有证明不存在另一种学习偏差始终优于所研究的。

可能被认为支持奥卡姆论点的最后一个论点是，大多数机器学习系统采用某种形式的奥卡姆剃刀，并且它们在实践中表现良好。然而，并没有证明如果放弃奥卡姆剃刀就不会获得更好的性能。

3.反对奥卡姆理论的新实验证据

对奥卡姆论文的理论和实验上的反对似乎并没有大大减少机器学习社区对奥卡姆剃刀的使用。本文试图用强有力的一般实验反证来支持对奥卡姆理论的反对意见。为此，它提出了一个系统程序，用于在不修改其在训练数据上的性能的情况下增加推断决策树的复杂性。此过程采用 C4.5 生成的决策树后处理器的形式（Quinlan，1993）。将该程序应用于来自UCI 学习任务库 (Murphy & Aha, 1993) 的一系列学习任务的结果表明，平均而言，当推断的决策树应用于以前看不见的数据时，预测准确性更高。

3.1 决策树后处理器的理论基础

相似性假设是机器学习中的一个常见假设——相似的对象有很高的概率属于同一类 (Rendell & Seshu, 1990)。该技术被认为依赖于这一假设来进行他们的理论论证，而不是依赖于奥卡姆理论。

从相似性假设出发，机器学习可以被视为对学习任务合适的相似性度量的推断。 决策树可以看作是实例空间的划分。每个分区，由叶子表示，包含在相关方面相似的对象，因此预计属于同一类。

这就提出了如何衡量相似性的问题。基于实例的学习方法 (Aha, Kibler, & Albert, 1991) 倾向于将实例空间映射到 n 维几何空间，然后在该空间内使用几何距离度量来度量相似性。这种方法在许多方面都是有问题的。首先，它假设不同属性的基础度量是可公度的。如何先验地确定 5 年的年龄差异是否比 1 英寸高度的差异意味着更大或更小的相似性差异？其次，它假设可以提供关于单个属性的相似性的先验定义。真的可以做出一个普遍的规定，即 16 的值总是与 2 的值更相似，而不是 64 的值吗？为什么相关相似度度量永远不会基于表面值的 log2，在这种情况下，16 与 64 的相似度会比 2 更相似？

如果我们希望使用归纳法来学习用特定语言表达的分类器，那么我们似乎被迫假设所讨论的语言以某种方式捕获了相似性的相关方面。决策树的任何潜在叶子都呈现出一个似是而非的相似性度量（落入该叶子内的所有对象在某些方面都是相似的）。然后可以使用经验评估（该叶子在训练集上的表现）来推断该相似性度量与手头的归纳任务的相关性。如果叶子 lll 覆盖了大量的 ccc 类对象而很少有其他类，那么这提供了证据，证明与定义的测试的相似性可以预测 ccc。

图 1 说明了一个简单的实例空间和 C4.5 (Quinlan, 1993) 对其施加的分区。请注意，C4.5 为=连续属性=（例如 A 和 B）形成节点，这些节点由对切割值 x 的测试组成。该测试采用 x 形式。关于图 1，有一个这样的切割，属性 A 的值为 5。
C4.5 推断相关相似性度量仅与属性 A 相关。属性 A 的分区（用虚线表示）被放置在值 5 处。然而，如果不接受奥卡姆理论，但确实接受相似性假设，则没有理由相信实例空间的面积为 B≥5B \geq 5B≥5 和 A≤5A \leq 5A≤5（图 1 中的浅色阴影）应该属于class +（由 C4.5 确定）而不是 class -。

一旦决策树充分考虑了训练集，C4.5 就使用奥卡姆理论来证明实例空间分区的终止是合理的。结果，训练集中没有对象占据的实例空间的大面积可能会留在相似性假设几乎没有支持的分区内。例如，对于图 1，可以认为与区域 A≤5A \leq 5A≤5 和 B≥5B \geq 5B≥5 相关的相似度度量是与 B 的相似度。在整个实例空间中，所有具有 B≥5B \geq 5B≥5 值的对象属于class−class-class−。有5各这样的对象。相比之下，只有三个值为A≤5A \leq 5A≤5的对象提供了实例空间该区域中的对象属于class+class +class+ 的证据。这些测试中的每一个都代表了基于可用证据的似是而非的相似性度量。因此，该区域内的对象在合理的方面与三个正对象和五个负对象相似。如果在相关方面相似的对象属于同一类的概率很高，并且唯一可用的其他信息是一个对象可能与三个正对象和五个负对象相似，那么它会出现更多对象可能是负面的而不是正面的。

在这种情况下，C4.5 与相似性假设之间的分歧与例如A≤5A \leq 5A≤5和 B<1B < 1B<1的实例空间区域形成对比。在该区域中，相似性假设表明 C4.5 的分区是合适的。因为所有合理的相似性度量都将表明该区域中的对象仅与正对象相似。

为这项研究开发的后处理器分析是由 C4.5 生成的决策树，以识别这些区域——那些没有被训练集中的对象占据但有证据（就相似性假设而言）有利于重新标记的区域与 C4.5 指定的类别不同的类别。当这些区域被识别时，新的分支被添加到决策树中，创建实例空间的新分区。两棵树必须在训练集方面提供相同的性能，因为只有训练集中没有对象占据的实例空间区域才会受到影响。

很难看出任何合理的复杂性度量如何将添加此类分支解释为不会增加树的复杂性。

最终结果是后处理器在不改变决策树如何应用于训练数据的情况下增加了决策树的复杂性。奥卡姆理论预测这通常会降低预测准确度，而相似性假设预测它通常会提高预测准确度。可以看出，后者的预测与实验证据一致，而前者则不然。

3.2 后处理器

虽然上述过程可以应用于连续属性和离散属性，但当前的实现仅针对连续属性。

后处理器通过依次检查树的每个叶子 lll 进行操作。对于每个 lll，依次考虑每个属性 aaa。 对于每个 aaa，探索 lll 处对象占据的实例空间区域下方和上方的所有可能阈值。首先，为可以达到 lll 的对象可能确定的 aaa 值最小值 (min) 和最大值 (max)。如果 lll 低于 aaa 上的拆分≤\leq≤分支，则该拆分的阈值提供了 lll 上 aaa 值的上限（最大值）。如果它低于 >>> 分支，则阈值提供下限 (min)。如果节点不位于a≤a\leqa≤分支下方，则 max=∞max = \inftymax=∞。如果节点不位于a>a >a> 分支下方，则 min=−∞min = -\inftymin=−∞。只有训练集中的 $a￥值在 min::maxmin::maxmin::max 范围内的对象才是在以下操作中考虑。

对于在允许范围内但在 lll 处对象的 aaa 超出实际值范围的属性训练集中观察到的每个值，评估证据以支持重新分类高于或低于该阈值的区域。使用拉普拉斯精度估计（Niblett & Bratko，1986）评估对给定阈值的支持水平。因为每个叶子都与一个二元分类有关（一个对象属于或不属于所讨论的类），所以使用拉普拉斯的二元形式。对于叶子 lll 处属性 aaa 的阈值 ttt，支持用类 nnn 标记 ttt 以下分区的证据是如下公式中 lll 的祖先节点 xxx 的最大值：
P+1T+2\frac{P+1}{T+2}T+2P+1
其中 TTT 是 xxx 处 min<a≤tmin < a \leq tmin<a≤t 的对象数；PPP 是属于第 nnn 类的对象的数量。

支持标记高于阈值的分区的证据的计算方式相同，除了考虑 t<a≤maxt < a \leq maxt<a≤max 的对象。

如果新标签的最大证据超过该区域当前标签的证据，则为适当的阈值添加一个新分支，创建一个用适当类标记的新叶节点。

除了如上收集的支持当前标记的证据外，支持区域当前标记的进一步证据是使用拉普拉斯准确率计算的考虑叶子上的对象进行估计，其中 TTT 是叶子上的对象数，PPP 是属于标记节点的类的对象数。

这种方法确保所有新分区都定义了真实的区域。也就是说，对于任何属性 aaa 和值 vvv 都不可能在 vvv 上进行分区，除非域中值大于 vvv 的对象和值小于或等于 vvv 的对象都可以划分为到达被分区的节点（即使训练集中没有对象会落入新分区内）。特别是，这确保了新切割不是当前节点祖先处现有切割的简单重复。因此，每次修改都会给树增加非冗余的复杂性。

该算法如图 2 所示。它已作为对 C4.5 第 6 版（称为 C4.5X）的修改实施。这些修改的源代码可作为本文的在线附录获得。

在 C4.5X 中，多组值同样满足指定的约束并最大化拉普拉斯函数，树中较深的 nan_ana 和 nbn_bnb 的值被选择而不是那些靠近根的值，并且在单个节点上，优先选择 aaa_aaa 和 aba_bab 的值取决于数据定义中的属性顺序，而对 vav_ava 和 vbv_bvb 值的偏好取决于数据顺序。这些选择策略是系统实施的副作用。如果使用其他策略在竞争约束之间进行选择，则没有理由相信实验结果通常会有所不同。

默认情况下，C4.5 每次运行时都会开发两个决策树，一个未剪枝和一个剪枝（简化）决策树。C4.5X 生成这两种树的后处理版本。

3.3 评价

为了评估后处理器，它被应用于所有包含来自 UCI 机器学习存储库（Murphy & Aha，1993）的连续属性的数据集，这些数据集随后（由于之前的机器学习实验）保存在迪肯大学的本地存储库中。这些数据集被认为广泛地代表了整个存储库中的数据集。在对这 11 个数据集进行实验后，从 UCI 存储库中检索了另外两个数据集，即病态甲状腺功能正常和不一致的结果，并将其添加到研究中，以便调查特定问题，如下所述。

表 1 描述了由此产生的 13 个数据集。第二列包含描述每个对象的属性数。接下来是这些连续的比例。第四列表示数据中缺失（未知）属性值的比例。第 f 列表示数据集包含的对象数。第六列表示属于数据集中最多对象所代表的类的比例。最后一列指示数据集描述的类数。请注意，玻璃类型数据集使用 Float/Not Float/Other 三类分类而不是更常用的六类分类。

每个数据集被分为训练集和评估集 100 次。每个训练集由随机选择的 80% 的数据组成。每个评估集由剩余的 20% 的数据组成。 C4.5 和 C4.5X 都应用于最终的 1300 个（100 次试验的 13 个数据集）训练和评估集对中的每一个。

表 2 总结了由 C4.5 和 C4.5X 生成的未修剪决策树获得的百分比预测准确度。它针对 C4.5 和 C4.5X 的每个数据集呈现了每组 100 次试验的平均值 (x) 和标准偏差 (s) 以及比较这些的双尾匹配对 t 检验的结果方法。对于 13 个数据集中的 12 个，C4.5X 获得了比 C4.5 更高的平均准确度。对于剩余的数据集，甲状腺功能减退，C4.5 获得比 C4.5CS 更高的平均预测准确度（尽管测量到小数点后两位，各自的平均准确度分别为 99.51 和 99.46）。对于 9 个数据集，C4.5X 的优势在 0.05 水平（p 0:05）上具有统计显着性，尽管在测量到小数点后一位时相对于不一致结果数据的优势太小而不明显（测量到小数点后两位的值分别为 98.58 和 98.62）。甲状腺功能减退数据在 C4.5 方面的优势在 0.05 水平上也具有统计学意义。匈牙利心脏病、新甲状腺和病态甲状腺功能正常数据集的平均预测准确度差异在 0.05 水平上并不显着。

表 3 使用与表 2 相同的格式总结了由 C4.5 和 C4.5X 生成的修剪决策树获得的预测精度。对于相同的十二个数据集，C4.5X 获得了比 C4.5 更高的平均预测准确度。对于剩余的数据集，甲状腺功能减退，C4.5 再次获得了更高的平均预测准确度，尽管差异的幅度非常小，以至于在显示的精度水平上并不明显（测量到小数点后两位，平均准确度为 99.51 和 99.46）。对于六个数据集，C4.5X 的优势在 0.05 水平上具有统计显着性，尽管差异仅在不一致的结果数据（分别为 99.81 和 99.82）精确到小数点后两位时才明显。甲状腺功能减退数据在 C4.5 方面的优势在 0.05 水平上也具有统计学意义。乳癌威斯康星、超声心动图、匈牙利心脏病、虹膜、新甲状腺和病态甲状腺的不同之处在 0.05 水平上没有统计学意义。

在对最初的 11 个数据集完成实验后，甲状腺功能减退数据的结果与其他 10 个数据集的结果形成鲜明对比。这增加了甲状腺功能减退数据可能存在显着特征的可能性解释了这种性能差异。表 1 表明该数据集在以下六个方面与其他十个初始数据集有明显区别——

拥有更多的属性；
包含更大比例的离散属性（C4.5X 未直接处理）；
包含更多对象；
拥有更大比例的对象属于最常见的类；
有更多的课程；
并且无需后处理即可生成具有极高预测精度的决策树。

为了探索这些问题，从 UCI 存储库中检索了不一致的结果和患病的甲状腺功能正常的数据集，并将其添加到研究中。这些数据集与甲状腺功能减退数据集相同，只是每个数据集都有不同的类别属性。所有三个数据集都包含相同的对象，由相同的属性描述。然而，不一致的结果和病态的甲状腺功能正常数据的加入并没有说明这个问题。对于所有三个数据集，准确度的变化都非常小。对于甲状腺功能减退症，C4.5 有显着优势。对于患病的甲状腺功能正常，这两种系统都没有明显的优势。对于不一致的结果数据，C4.5X 具有显着优势。

是否存在解释观察结果的甲状腺功能减退数据的显着特征的问题仍未得到解答。对这个问题的进一步研究超出了当前论文的范围，但仍然是未来研究的一个有趣方向。

这些结果表明，对于在 UCI 存储库中找到的数据类型，C4.5X 的后处理更频繁地提高预测准确性。（在 26 次比较中，有 15 次显着增加，只有 2 次显着减少。符号测试显示该成功率在 0.05 水平上显着，p = 0:001。)

表 4 和表 5 总结了开发的决策树中的节点数量。表 4 介绍了未修剪的决策树，表 5 介绍了修剪后的决策树。每个后处理修改用分裂和两个叶子替换单个叶子。最多可以对原始树中的每片叶子执行一次这样的修改。对于所有数据集，后处理决策树明显比原始决策树复杂。在大多数情况下，后处理使决策树中的平均节点数增加了大约 50%。这表明后处理正在引起实质性的变化。

4.讨论

这项研究的主要目的是反对奥卡姆理论。为此，它使用了一个无视奥卡姆论文的后处理器，而是在理论上建立在相似性假设上。对这个后处理器的实验有证明可以开发系统程序，对于一系列“现实世界”学习任务，由于在不改变其在训练数据上的性能的情况下显着增加了其复杂性的变化，从而提高了推断决策树的预测准确性。

一般而言，由于缺乏广泛同意的表述，很难攻击奥卡姆理论。然而，奥卡姆理论如何可能重新制作以适应这些实验结果并提供实际的学习偏差。

4.1 未来研究方向

这项研究的意义超出了它与奥卡姆剃刀的相关性。后处理器在提高推断决策树的质量方面似乎具有实用价值。然而，如果研究的目标是提高预测准确性而不是反对奥卡姆理论，那么后处理器将在许多方面进行修改。

第一个修改是允许在原始树的单个叶子上添加多个分区。C4.5X 只选择有最大支持的单一修改。该设计决策源于希望最大限度地减少执行会降低准确性的修改的可能性。然而，原则上，似乎希望选择有强有力支持的所有修改，然后可以按照支持证据的级别将每个修改插入到树中。

如果取消后处理不应该改变决策树相对于训练集的性能的约束，也许精度会有更大的提高。在这种情况下，很可能会发现新的分区，这些分区使用来自实例空间其他区域的对象来提供支持添加分区的证据，这些分区可以纠正原始树的叶节点处的少量对象的错误分类。相似性假设将为这种重新分区提供强有力的证据。例如，对于图 1 中所示的学习问题，如果存在属性值 A=2A=2A=2 和 B=9B=9B=9 的class−class-class− 的附加对象，就会发生这种情况。这在图 3 中进行了说明。在这种情况下，C4.5 仍会创建指定的分区。然而，C4.5X 将无法重新标记包含附加对象的区域，因为它不会改变原始决策树相对于训练集的性能。因此，对象的添加阻止了 C4.5X 重新标记阴影区域，即使基于相似性假设，它改进了支持重新标记的证据。

这种扩展的后处理器将鼓励以下决策树归纳推理模型。 C4.5（或类似系统）的作用是识别实例空间内应分组在单个叶节点下的对象的数量的集群。然后，第二阶段将分析位于这些集群之外的实例空间区域，以便为这些区域分配类。当前的决策树学习者受奥卡姆论文的启发，忽略了第二阶段，将与已分配给它们的任何类相关联的已识别集群之外的区域作为集群识别过程的副产品。

4.2 其他相关研究

许多研究人员开发了学习系统，可以将其视为考虑来自实例空间相邻区域的证据，以便在实例空间中未被训练集中的示例占据的区域内推导出分类。Ting (1994) 通过检查训练集直接探索要分类的对象的邻域，明确地做到了这一点。该系统使用基于实例的学习在具有低经验支持（小分离）的决策树的节点内进行分类。

许多其他系统也可以被视为考虑来自邻近地区的证据进行分类。这些系统学习并应用多个分类器（Ali、Brunk 和 Pazzani，1994 年；Nock 和 Gascuel，1995 年；Oliver 和 Hand，1995 年）。在这种情况下，实例空间区域内未被训练对象占据的任何点都可能被多个叶子或规则覆盖。其中，具有最大经验支持的叶或规则将用于分类。

C4.5X 使用两个不同的标准来评估潜在的分裂。 树归纳的标准 C4.5 阶段采用信息度量来选择分裂。后处理器使用拉普拉斯精度估计。 已在别处研究了双重标准的类似用途。Quinlan (1991) 采用拉普拉斯准确度估计，考虑实例空间的相邻区域来估计小分离的准确度。 Lubinsky (1995) 和 Brodley (1995) 在决策树的归纳过程中使用重新代入精度来选择叶子附近的分裂。

通过向叶子添加拆分，C4.5X 专门针对该叶子上的类（并针对新叶子的类进行泛化）。霍尔特等人(1989) 探索了许多专门化小分离的技术。C4.5X 的不同之处在于所有叶子都是专业化的候选者，而不仅仅是那些经验支持低的叶子。它通过考虑支持替代分裂的证据，而不仅仅是支持当前分离的个体潜在条件的证据强度，进一步改变了它选择专业化执行的方式。

4.3 偏差与方差

Breiman、Friedman、Olshen 和 Stone (1984) 根据偏差和方差之间的权衡对复杂性和归纳进行了分析。分类器将实例空间划分为多个区域。 当这些区域太大时，ttt 对实例空间的准确划分的程度会很差，从而增加错误率。 这种效应称为偏差。当区域太小时，个别区域被标记为错误类别的概率会增加。 这种称为方差的效应也会增加错误率。根据这种分析，由于方差，实例空间的划分也趋于增加错误率，而由于偏差，过于粗糙的分区也会增加错误率。

增加决策树的复杂性会创建更精细的实例空间分区。 这种分析可以用来反对给决策树增加过度的复杂性，理由是它会增加方差，从而增加错误率。

然而，C4.5X 在降低错误率方面的成功表明，当它为决策树引入复杂性时，它成功地管理了偏差/方差权衡。通过使用来自实例空间相邻区域的证据，C4.5X 成功地增加了由方差导致的错误率，而不是降低了由偏差导致的错误率。 C4.5X 的成功表明它没有给 C4.5 的决策树增加过多的复杂性。

4.4 最小编码长度归纳

最小编码长度方法通过寻找能够对理论和可用数据进行最紧凑编码的理论来执行归纳。已经开发了两种关键方法，最小消息长度 (MML) (Wallace & Boulton, 1968) 和最小描述长度 (MDL) (Rissanen, 1983)。这两种方法都承认概率解释。给定理论和数据的先验概率，MML 编码的最小化非常接近后验概率的最大化（Wallace & Freeman，1987）。MDL 代码长度定义了——无条件可能性的上限”（Rissanen，1987）。

这两种方法的不同之处在于，MDL 采用了普遍先验，Rissanen (1983) 根据奥卡姆剃刀原则明确证明了这一点，而 MML 允许为每个归纳任务指定不同的适当先验。然而，在实践中，默认先验通常用于 MML，似乎也从奥卡姆剃刀推导出了它的合理性。

如果仅基于来自实例空间相邻区域的证据证明这样做是合理的，那么 MDL 和 MML 及其默认先验都不会增加决策树的复杂性。此处提供的研究证据似乎支持这样做的潜在可取性。这对 MDL 使用的通用先验和 MML 通常使用的默认先验的效用产生了一些怀疑，至少在它们用于最大化预测准确性方面。

然而，应该注意的是，这些最小编码长度技术的概率解释表明编码长度最小化代表后验概率或无条件可能性的最大化。这些因素的最大化不一定与预测准确性的最大化直接相关。

4.5 适当应用嫁接修剪

需要注意的是，尽管本文对惩罚复杂性的学习偏差的价值提出了质疑，但它绝不支持那些为了自身而鼓励复杂性的学习偏差。 C4.5X 只有在有经验支持的情况下才会将新节点移植到决策树上。

结果也不以任何方式反对决策树修剪的适当使用。为了生成修剪过的树，C4.5 删除了分支，其中错误率上限的统计估计表明如果删除分支，这些错误率不会增加。它可以说 C4.5 只有在有经验支持的情况下才能降低复杂性。有趣的是，对于所检查的 13 个数据集中的 8 个，C4.5X 对修剪后的树的后处理比未修剪树的后处理产生了更高的平均预测准确度。这些结果表明，如果应用得当，修剪和嫁接都可以发挥重要作用。

5.总结

本文提出了一种系统程序，可以在不改变其在训练数据上的性能的情况下，增加推断决策树的复杂性。当应用于 C4.5 推断的修剪和未修剪的树时，此过程已被证明可以提高一系列学习任务的预测准确性。对于所检查的 13 项学习任务中的一项，该程序导致准确性的统计显着损失，在这种情况下，平均准确性的差异幅度非常小。从表面上看，这为反对奥卡姆论文提供了强有力的实验证据。

这种后处理技术是通过拒绝奥卡姆理论而开发的，而是关注相似性假设——即相似的对象具有很高的属于同一类的概率。

所开发的程序受限于需要确保修订后的决策树在训练数据方面与原始决策树的表现相同。这种限制源于获得反对奥卡姆论文的实验证据的愿望。如果取消此限制，本文中概述的基本技术可能会导致预测准确性的提高甚至比本文报告的技术还要大。

本研究仅考虑了一种支持最小化句法复杂性的奥卡姆剃刀版本，期望这将有助于提高预测准确性。奥卡姆剃刀的其他解释也是可能的，例如应该最小化语义复杂性。虽然其他人（邦吉，1963 年）对奥卡姆剃刀的这种表述提出了哲学上的反对意见，但本文并未试图对其进行调查。

本研究中检验的奥卡姆剃刀版本已广泛用于机器学习，并取得了明显的成功。这项研究证实了对这一原则的反对意见提出了一个问题，如果它如此敬畏，为什么会取得如此明显的成功？ Webb (1994) 指出，该原则的明显成功归因于句法复杂性通常与推断分类器的其他相关特性（如普遍性或先验概率）相关联的方式。如果这篇论文被接受，那么机器学习面临的主要挑战之一就是理解这些更深层次的品质，并利用这种理解将机器学习置于更健全的理论基础上。本文通过证明表面句法复杂性的最小化本身通常不会最大化推断分类器的预测准确性，从而在这个方向上做出了小小的贡献。

尽管如此，重要的是要意识到，尽管本文的主旨是，奥卡姆剃刀通常是一种有用的学习偏差。这是因为倾向于一个简单的假设通常会有很好的实用理由。一个简单的假设通常更容易理解、交流和运用。偏爱简单假设不能根据预期的预测准确性来证明，但可以根据实际情况来证明。

致谢

这项研究得到了澳大利亚研究委员会的支持。感谢 Charlie Clelland、David Dowe、Doug Newlands、Ross Quinlan 和匿名审稿人提供的极其宝贵的意见，使本文受益匪浅。