python机器学习案例系列教程——基于规则的分类器

全栈工程师开发手册（作者：栾鹏）
python开发大全、系列文章、精品教程

算法简介

基于规则的分类器是使用一组"if…then…"规则来对记录进行分类的技术。

模型的规则用 R=(r1∨r2∨•••∨rk)R =(r_1 ∨ r_2 ∨ ••• ∨ r_k)R=(r1∨r2∨•••∨rk)表示，其中R称作规则集，rir_iri 是分类规则。

每一个分类规则可以表示为如下形式：

ri:(条件i)→yir_i:(条件i)→y_iri:(条件i)→yi

规则右边称为规则后件，包含预测类yiy_iyi。

规则左边成为规则前件或前提。它是属性和属性值的合取：

条件i=(A1opv1)∧(A2opv2)∧•••∧(Anopvn)条件i=(A_1\, op \,\, v_1)∧(A_2\, op \,\, v_2)∧•••∧(A_n \, op\,\, v_n)条件i=(A1opv1)∧(A2opv2)∧•••∧(Anopvn)

其中(Aj，vj)(A_j，v_j)(Aj，vj)是属性-值对，op是比较运算符，取自集合=，≠，﹤，﹥，≤，≥{=，≠，﹤，﹥，≤，≥}=，=，﹤，﹥，≤，≥。每一个属性和属性值(Ajopvj)(A_j \, \, op\, \, v_j)(Ajopvj)称为一个合取项。

如果规则rrr的前件和记录xxx的属性匹配，则称rrr覆盖xxx。当rrr覆盖给定的记录时，称rrr被触发。

当所有规则中只有规则rrr被触发，则称rrr被激活。

分类规则的质量可以用覆盖率（coverage）和准确率（accuracy）来度量。给定数据集D和分类规则 r：A→yr：A→yr：A→y，规则的覆盖率定义为D中触发规则r的记录所占的比例。准确率或置信因子定义为触发rrr的记录中类标号等于yyy的记录所占的比例。

Coverage(r)=∣A∣/∣D∣Coverage(r)= |A| / |D|Coverage(r)=∣A∣/∣D∣

Accuracy(r)=∣A∩y∣/∣A∣Accuracy(r)= |A∩y| / |A|Accuracy(r)=∣A∩y∣/∣A∣

其中∣A∣|A|∣A∣是满足规则前件的记录数，∣A∩y∣|A∩y|∣A∩y∣是同时满足规则前件和后件的记录数，D是记录总数。

工作原理

基于规则的分类器所产生的规则集的两个重要性质：

互斥规则：如果规则集R中不存在两条规则被同一条记录触发，则称规则集R中的规则是互斥的。这个性质确保每条记录至多被R中的一条规则覆盖。

穷举规则：如果对属性值的任意组合，R中都存在一条规则加以覆盖，则称规则集R具有穷举覆盖。这个性质确保每一条记录都至少被R中的一条规则覆盖。

这两个性质共同作用，保证每一条记录被且仅被一条规则覆盖。如果规则集不是穷举的，那么必须添加一个默认规则 rd:()→ydr_d:() → y_drd:()→yd来覆盖那些未被覆盖的记录。默认规则的前件为空，当所有其他规则失效时触发。ydy_dyd是默认类，通常被指定为没有被现存规则覆盖的训练记录的多数类。

如果规则集不是互斥的，那么一条记录可能被多条规则覆盖，这些规则的预测可能会相互冲突，解决这个问题有如下两种方法：

1、有序规则：规则集中的规则按照优先级降序排列，优先级的定义有多种方法（如基于准确率、覆盖率、总描述长度或规则产生的顺序等）。有序规则的规则集也称为决策表。当测试记录出现时，由覆盖记录的最高秩的规则对其进行分类，这就避免由多条分类规则来预测而产生的类冲突的问题。

2、无序规则：允许一条测试记录触发多条分类规则，把每条被触发规则的后件看作是对相应类的一次投票，然后计票确定测试记录的类标号。通常把记录指派到得票最多的类。

本文重点讨论使用有序规则的基于规则的分类器。

如果被触发的多个规则指向不同的类

解决这个问题的核心思想，就是需要对不同规则进行优先级排序，取优先级高的规则所对应的类别作为元组的分类。

两种解决方案：

规模序：把最高优先级权赋予具有“最苛刻”要求的被触发的规则，其中苛刻性用规则前件的规模度量。也就是说，激活具有最多属性测试的被触发的规则。

规则序：指预先确定规则的优先次序。这种序的确定可以基于两种方法：基于类的序和基于规则的序

规则的排序方案

对规则的排序可以逐条规则进行或者逐个类进行。

基于规则质量的排序方案：这个方案依据规则质量的某种度量对规则进行排序。这种排序方案确保每一个测试记录都是由覆盖它的“最好的”规则来分类。这种规则的质量可以是准确度、覆盖率或规模等。该方案的潜在缺点是规则的秩（规则合取项的个数）越低越难解释，因为每个规则都假设所有排在它前面的规则不成立。

基于类标号的排序方案：根据类的重要性来对规则进行排序。即最重要的类对应的规则先出现，次重要的类对应的规则紧接着出现，以此类推。对于类的重要性的衡量标准有很多，比如类的普遍性、误分类代价等。这使得规则的解释稍微容易一些。在这种方案中，属于同一个分类的规则在规则集R中一起出现。然后，这些规则根据它们所属的分类信息一起排序。同一个分类的规则之间的相对顺序并不重要，只要其中一个规则被激发，类标号就会赋给测试记录。然而，质量较差的规则可能碰巧预测较高秩的类，从而导致高质量的规则被忽略。

大部分基于规则的分类器（如CS4.5规则和RIPPER）都采用基于类标号的排序方案。

如何建立基于规则的分类器

为了建立基于规则的分类器，需要提取一组规则来识别数据集的属性和类标号之间的关键联系。提取分类规则的方法有两大类：

（1）直接方法，直接从数据中提取分类规则；

（2）间接方法，从其他分类模型（如决策树和神经网络）中提取分类规则。

直接方法把属性空间分为较小的子空间，以便于属于一个子空间的所有记录可以使用一个分类规则进行分类。间接方法使用分类规则为较复杂的分类模型提供简洁的描述。

规则提取的直接方法

顺序覆盖：算法经常被用来从直接数据中提取规则，规则基于某种评估度量以贪心的方式增长。该算法从包含多个类的数据集中一次提取一个类的规则。决定哪一个类的规则最先产生的标准取决于多种因素，如类的普遍性（即训练记录中属于特定类的记录的比例），或者给定类中误分类记录的代价。

1 Learn-One-Rule函数

Learn-One-Rule函数的目标是提取一个分类规则，该规则覆盖训练集中的大量正例，没有或仅覆盖少量反例。然而，由于搜索空间呈指数大小，要找到一个最佳的规则的计算开销很大。Learn-One-Rule函数通过以一种贪心的方式的增长规则来解决指数搜索问题。它产生一个初始规则rrr，并不断对该规则求精，直到满足某种终止条件为止。然后修剪该规则，以改进它的泛化误差。

规则增长策略：常见的分类规则增长策略有两种：从一般到特殊和从特殊到一般。在从一般到特殊的策略中，先建立一个初始规则r:{}→yr:\{\}→yr:{}→y，其中左边是一个空集，右边包含目标类。该规则的质量很差，因为它覆盖训练集中的所有样例。接着加入新的合取项来提高规则的质量，直到满足终止条件为止（例如，加入的合取项已不能提高规则的质量）。

对于从特殊到一般的策略，可以随机地选择一个正例作为规则增长的初始种子。再求精步，通过删除规则的一个合取项，使其覆盖更多的正例来范化规则。重复求精步，直到满足终止条件为止（例如，当规则开始覆盖反例时为止）。

由于规则的贪心的方式增长，以上方法可能会产生次优规则。为了避免这种问题，可以采用束状搜索（beam search）。算法维护kkk个最佳候选规则，各候选规则各自在其前件中添加或删除合取项而独立地增长。评估候选规则的质量，选出kkk个最佳候选进入下一轮迭代。

规则评估：在规则的增长过程中，需要一种评估度量来确定应该添加（或删除）哪个合取项。准确率就是一个很明显的选择，因为它明确地给出了被规则正确分类的训练样例的比例。然而把准确率作为标准的一个潜在的局限性是它没有考虑规则的覆盖率。

下面的方法可以用来处理该问题。

（1）可以使用统计检验剪除覆盖率较低的规则。例如，我们可以计算下面的似然比（likelihood ratio）统计量：

R=2∑i=1mfilog(fiei)R=2\sum_{i=1}^mf_ilog(\frac{f_i}{e_i})R=2i=1∑mfilog(eifi)

其中，mmm是类的个数，fif_ifi 是被规则覆盖的类iii的样本的观测频率，eie_iei 是规则作随机猜想的期望频率。注意R是满足自由度为m−1m-1m−1的χ2χ^2χ2分布。较大的R值说明该规则做出的正确预测数显著地大于随机猜测的结果。

（2）可以使用一种考虑规则覆盖率的评估度量。考虑如下评估度量：
Laplace=f++1n+kLaplace = \frac{f_++1}{n+k}Laplace=n+kf++1

m估计=f++kp+n+km估计=\frac{f_++kp_+}{n+k}m估计=n+kf++kp+

其中n是规则覆盖的样例数，f+是规则覆盖的正例数，k是类的总数，p+是正类的先验概率。注意当p+=1/k时，m估计等价于Laplace度量。

（3）另一种可以使用的评估度量是考虑规则的支持度计数的评估度量。FOIL信息增益就是一种这样的度量。规则的支持度计数对应于它所覆盖的正例数。假设规则r:A→+r : A→+r:A→+覆盖p0p_0p0个正例和n0n_0n0个反例。增加新的合取项B，扩展后的规则r′:A∧B→+r' : A∧B→+r′:A∧B→+覆盖p1p_1p1个正例和n1n_1n1个反例。根据以上信息，扩展后规则的FOIL信息增益定义为：

FOIL信息增益=p1∗(log2p1p1+n1−log2p0p0+n0)FOIL信息增益=p_1*(log_2\frac{p_1}{p_1+n_1}-log_2\frac{p_0}{p_0+n_0})FOIL信息增益=p1∗(log2p1+n1p1−log2p0+n0p0)

由于该度量与p1p1p1和p1/p1+n1p1/p1+n1p1/p1+n1成正比，因此它更倾向于选择那些高支持度计数和高准确率的规则。

规则减枝可以对Learn-One-Rule函数产生的规则进行减枝，以改善它们的泛化误差。

2 顺序覆盖基本原理

规则提取出来后，顺序覆盖算法必须删除该规则所覆盖的所有正例和反例。

3 RIPPER算法

为了阐明规则提取的直接方法，考虑一种广泛使用的规则归纳算法，叫作RIPPER算法。该算法的复杂度几乎线性地随训练样例的数目增长，并且特别适合为类分布不平衡的数据集建立模型。RIPPER也能很好地处理噪声数据集，因为它使用一个确认数据集来防止模型过分拟合。

对两类问题，RIPPER算法选择以多数类作为默认类，并为预测少数类学习规则。对于多类问题，先按类的频率对类进行排序，设（y1,y2,…,yc）（y1,y2,…,yc）（y1,y2,…,yc）是排序后的类，其中y1y_1y1是最不频繁的类，ycy_cyc是最频繁的类。第一次迭代中，把属于y1y_1y1的样例标记为正例，而把其他类的样例标记为反例，使用顺序覆盖算法产生区分正例和反例的规则。接下来，RIPPER提取区分y2y_2y2和其他类的规则。重复该过程，直到剩下类ycy_cyc，此时ycy_cyc作为默认类。

规则增长 RIPPER算法使用从一般到特殊的策略进行规则增长，使用FOIL信息增益来选择最佳合取项添加到规则前件中。当规则开始覆盖反例时，停止添加合取项。新规则根据其在确认集上的性能进行减枝。计算下面的度量来确定规则是否需要减枝：(p−n)/(p+n)(p-n)/(p+n)(p−n)/(p+n)，其中p和n分别是被规则覆盖的确认集中的正例和反例数目，关于规则在确认集上的准确率，该度量是单调的。如果减枝后该度量增加，那么就去掉该合取项。减枝是从最后添加的合取项开始的。例如给定规则ABCD→yABCD→yABCD→y，RIPPER算法先检查D是否应该减枝，然后是CD、BCD等。尽管原来的规则仅覆盖正例，但是减枝后的规则可能会覆盖训练集中的一些反例。

建立规则集规则生成后，它所覆盖的所有正例和反例都要被删除。只要该规则不违反基于最小描述长度的终止条件，就把它添加到规则集中。如果新规则把规则集的总描述长度增加了至少d个比特位，那么RIPPER就停止把该规则加入到规则集（默认的d是64位）。RIPPER使用的另一个终止条件是规则在确认集上的错误率不超过50%。

RIPPER算法也采用其他的优化步骤来决定规则集中现存的某些规则能否被更好的规则替代。

规则提取的间接方法

原则上，决策树从根节点到叶节点的每一条路径都可以表示为一个分类规则。路径中的测试条件构成规则前件的合取项，叶节点的类标号赋给规则后件。注意，规则集是完全的，包含的规则是互斥的。

下面，介绍C4.5规则算法所采用的从决策树生成规则集的方法。

规则产生决策树中从根节点到叶节点的每一条路径都产生一条分类规则。给定一个分类规则r:A→yr : A→yr:A→y，考虑简化后的规则 r′:A′→yr': A' →yr′:A′→y，其中A’是从A去掉一个合取项后得到的。只要简化后的规则的误差率低于原规则的误差率，就保留其中悲观误差率最低的规则。重复规则减枝步骤，直到规则的悲观误差不能再改进为止。由于某些规则在减枝后会变得相同，因此必须丢弃重复规则。

规则排序产生规则集后，C4.5规则算法使用基于类的排序方案对提取的规则定序。预测同一个类的规则分到同一个子集中。计算每个子集的总描述长度，然后各类按照总描述长度由小到大排序。具有最小描述长度的类优先级最高，因为期望它包含最好的规则集。类的总描述长度等于Lexception+g×Lmodel，其中Lexception是对误分类样例编码所需的比特位数，Lmodel是对模型编码所需要的比特位数，而g是调节参数，默认值为0.5,。调节参数的值取决于模型中冗余属性的数量，如果模型含有很多冗余属性，那么调节参数的值会很小。

基于规则的分类器的特征

基于规则的分类器有如下特点：

规则集的表达能力几乎等价于决策树，因为决策树可以用互斥和穷举的规则集表示。基于规则分类器和决策树分类器都对属性空间进行直线划分，并将类指派到每个划分。然而，如果基于规则的分类器允许一条记录触发多条规则的话，就可以构造一个更加复杂的决策边界。
基于规则的分类器通常被用来产生更易于解释的描述性模型，而模型的性能却可与决策树分类器相媲美。
被很多基于规则的分类器（如RIPPER）所采用的基于类的规则定序方法非常适于处理类分布不平衡的数据集。