基于海量数据的关联规则挖掘（五）

2.1基于hash的方法

首先是基于哈希的算法。基于哈希的算法仍是将所有所有数据放入内存的方法。只要在计算的过程中能够满足算法对内存的大量需求，Apriori算法能够很好的执行。但在计算候选项集时特别是在计算候选项对C2时需要消耗大量内存。针对C2候选项对过大，一些算法提出用来减少C2的大小。这里我们首先考虑PCY算法，这个算法使用了在Apriori算法的第一步里大量没使用的内存。接着，我们考虑Multistage算法，这个算法使用PCY的技巧，但插入了额外的步骤来更多的减少C2的大小。

Park，Chen，Yu（PCY）算法[3]：

这个算法我们叫PCY算法，取自它的作者名字缩写。该算法关注在频繁项集挖掘中的第一步有许多内存空间没被利用的情况。如果有数以亿计的项，和以G计的内存，在使用关联规则的第一步里我们将会仅仅使用不到10%的内存空间，会有很多内存空闲。因为在第一步里，我们只需要两个表，一个用来保存项的名字到一个整数的映射，用这些整数值代表项，一个数组来计数这些整数，如图1。PCY算法使用这些空闲的内存来保存一个整数数组。其思想显示如图2。.将这个数组看做一个哈希表，表的桶中装的是整数值而不是一组key值。项对被哈希到这些桶中。在第一步扫描篮子的处理中，我们不但将这些项对加一，并且通过两步循环，我们创造出所有的项对。我们将项对哈希到哈希表中，并且将哈希到的位置加一。注意，项本身不会进入桶，项对的加入只是影响桶中的整数值。

在第一步的结尾，每个桶中装有一个数字，这个数字表达了桶中的项对的数目。如果桶中数字大于支持度阈值s，这个桶被称为频繁桶。对于频繁桶，我们不能确定其项对是否为频繁项对，但有可能是。但是，对于阈值低于s的桶，我们知道其中的项对肯定不是频繁项对，即使项对是由两个频繁项组成。这个事实给我们在第二部处理带来很大的方便。我们可以定义候选集C2为这样的项对{i, j}：

1. i和j是频繁项

2. {i，j}哈希到一个频繁桶

第二个条件是PCY算法与A-Priori算法的区别所在。

在步骤1中使用hash表可能并不能带来好处，这取决于数据大小和空闲内存大小。在最坏的情形下，所有的桶都是频繁的，PCY计算的项对与A-priori是一样的。然而，在通常的情况下，大多数的桶都是非频繁的。这种情况下，PCY算法降低了第二步内存的使用。

假设我们有1G的内存可用来在第一步做hash表存放，并假设数据文件包含在10亿篮子，每个篮子10个项。一个桶为一个整数，通常定义为4个字节，于是我们可以保存2.5亿个桶。所有篮子的项对的数量总数为或个。这个数量也是桶中计数的总和。这样，每个桶的平均计数为，或180个。所以，如果支持度阈值s在180附近，或更小，可能只有很少的桶是非频繁的。然而，当s足够大，比方说1000，这样会使大部分的桶成为非频繁的。这样最大可能的频繁桶数为，或450亿个频繁桶。

在PCY算法中，在其第二步操作前，哈希表被压缩为bitmap，在这里，每一个bit用作一个桶。若桶为频繁桶，则位置1，否则置0。这样32bit的整数被压缩为只有1bit。然后再PCY的第二步操作中，bitmap只占了原来所用空间的1/32，如图2所示。如果大部分的桶都是非频繁桶，我们可以预料，在第二步的项对计数后产生的频繁项集会更小。这样，PCY算法就能直接在内存中处理这些数据集而不会耗尽内存。

虽然在寻找频繁项对时，PCY算法与Apriori算法相差很大，但是，在三元对和更多元时，他们的方法又为相同了。

图2、使用PCY算法的内存组织形式，左图为步骤1的内存使用情况，右图为步骤2的内存使用情况